Garbage In,Garbage Out
垃圾进,垃圾出

为了获得准确的数据洞察,分析师们往往要将80%的精力放到数据预处理的工作上面。

DataSpring是一款基于最新流式架构的ETL工具,采用基于日志的增量数据获取技术( Log-based Change Data Capture ),支持异构数据之间丰富、自动化、准确的语义映射构建,同时满足实时与批量的数据处理。 支持各种主流数据库如 Oracle、MySQL、SQL Server、PostgreSQL 以及API数据的增量同步和转换。 可以私有化部署,简单,易操作。

系统架构图

新架构优势

传统架构中,需要读写远程事务型数据库;而在事件驱动应用中,数据和计算不分离,应用只需本地访问即可获取数据,具有更高的吞吐和更低的延时。

功能亮点

数据接入

支持常用关系型数据库数据接入,也支持API数据接入

批处理任务

定时任务完成批处理任务

流处理任务

基于CDC技术的实时流式数据接入

公式转换

可以通过预置公式,实现类似excel函数的数据转换

自定义UDF算子

针对复杂的数据处理逻辑,也支持自定义基于python代码的UDF算子进行处理

定时任务

配置好的任务流支持做成定时任务:间隔多久执行、指定时间执行、周期循环执行

日志及用户管理

ETL管理界面提供操作日志查询、用户管理等通用模块

与DataFocus无缝集成

做为DFC系列产品中的一员,支持DFC会员中心的单点登录功能,且与DFC联合部署后,可以实现无缝的产品使用体验

三大应用场景

实时计算

直播,传感器,双11活动数据的实时摄取,形成实时的监控大屏

实时数据抽取和清洗

将业务系统的数据经过抽取、清洗转换之后加载到数据仓库

事件驱动型应用

从服务器上报的消息中将 CPU、MEM、LOAD 信息分离出来做分析,然后触发自定义的规则进行报警

为您推荐
面向学生、教师或研究人员的个人版本
智能搜索分析
图表可视化
Excel 等本地数据导入
开源数据集
免费使用 >>