资源感知型ETL解决方案,亿级数据实时同步与预处理从未如此简单


数据预处理一直是分析师最头疼的问题之一。要保证分析结果准确性,需要先对原始数据进行清洗、整理、转换等多个步骤, 这就要求BI工具必须要能够提供高效、精准的ETL功能。刚刚发布的DataSpring是一款基于Flink构建的流批一体的ETL平台,可以支持亿级数据实时同步和预处理。

DataSpring采用了基于日志的CDC技术( Log-based Change Data Capture ),能够在核验了查询复杂度后,以最小化的开销来捕获源数据库的变更。该技术能够让用户将原始数据抽取出来,并以流式方式进行清洗和转换,以满足分析的需求。同时,连续的基于事件驱动的处理能力可以让DataSpring成为一个高可扩展的压力测试平台,可以应付流媒体、网络协议等请求量大的场景。

除了基础的数据接入和批处理任务,DataSpring还具备以下亮点功能:

1. 实时流式数据接入

DataSpring支持基于CDC技术进行实时的流式数据接入。不仅可以将业务系统或者API中产生的数据提取出来,还可以做到即时清洗。

2. 可视化公式转换

DataSpring支持类似Excel函数的预置公式,可以让用户在Kapacitor web控制台中对数据进行可视化公式转换。即使没有专业编程技能的分析师也能快速做到复杂的计算处理。

3. 自定义UDF算子

DataSpring还支持自定义基于Python代码的UDF算子进行处理。这让用一些高级计算、机器学习功能更轻松了。

4. 定时任务

除了支持批处理和流处理任务外,DataSpring还提供了配置好的任务流支持做成定时任务:间隔多久执行、指定时间执行、周期循环执行等常规定时任务方式。

5. 日志及用户管理

DataSpring还有一个不易被人注意的功能就是具备ETL管理界面提供操作日志查询、用户管理等通用模块,方便用户跟踪和管理ETL流程。

6. 与DataFocus无缝集成

最后,作为DFC系列产品中的一员,DataSpring完美地吻合了数据洞察工具DataFocus的整体框架。DataSpring 还支持DFC会员中心的单点登录功能,并且可以与DFC联合部署实现无缝的产品使用体验。

总之,随着大数据时代的到来,以数据预处理为代表的BI技术越来越受到各行各业的重视。DataSpring以其流批一体的ETL平台、支持亿级数据实时同步和预处理等卓越能力,一定程度上解决了BI工具在数据分析前期的难题。这也提高了分析师的产出效率,保障了数据洞察的准确性。

相关内容推荐

声明:DataFocus|版权所有,违者必究|如未注明,均为原创|本网站采用BY-NC-SA协议进行授权

转载:转载请注明原文链接 - 资源感知型ETL解决方案,亿级数据实时同步与预处理从未如此简单


让数据分析像搜索一样!