数据流整体介绍

变更记录
| 产品版本 | 更新内容 | 更新日期 |
| V6.0.1 | 初始版本 | 2023年08月23日 |
| V6.0.2 | 元数据上绑定权限项 | 2023年11月29日 |
1 产品概述
1.1 产品介绍
数据流是一款可视化编排的流式数据处理应用,用于解决企业中复杂、大数据集成的问题。通过将集成资源组件化,并与具体业务系统解耦,从而达到资源复用与灵活编排的目的。
注:需要给用户分配好数据流应用相关的权限方可使用。
数据流与服务流程的区别
数据流:用户可以自由编排处理步骤;运行引擎对数据使用流式处理,提供对用户透明的并行处理和批处理的机制,具有内存占用少,执行效率高的优势。适用于大规模数据的高效复杂集成。
服务流程:用户可以自由编排处理步骤,提供完善的异常处理和事务补偿机制,适用于对业务完整性有高要求的业务集成。将服务流程用于大规模数据集成时,需要用户自行处理数据分批以避免系统OOM,需要用户自行切分数据任务以实现并行处理或批处理,并且难以使用事务补偿机制,原则上服务流程不适用于大规模数据集成。
1.2 产品结构图

数据流主要分为数据流资源、数据流图和运行管理三大块:
数据流资源:用于描述业务系统集成时如何取数、加载,以及中间数据如何映射、转换的组件,包含:数据模型、数据抽取、数据转换、数据加载等类型的资源。
数据流图:通过可视化编排数据流资源,以实现各种业务场景。
运行管理:在启动方案中将数据流图和具体业务系统的连接配置相绑定,并配置初始参数等相关信息。通过数据流实例观察任务整体运行情况,并在失败日志和成功日志中观察每条数据的具体运行情况。
1.3 业务场景
当企业面对大数据、复杂业务场景(多业务系统、多处理步骤)时可以使用该功能。
以某大型国企为例,需要将WMS中的采购订单同步到星瀚中,并且将采购订单下推到HANA数据库中以完成后续业务流程。
业务痛点
涉及数据量1300万张采购订单,且订单明细较多。
- 涉及WMS和HANA两个业务系统,需要多步处理。

2 业务流程图

业务拆解:首先明确整体集成的业务流程,包括中间涉及到哪些系统,以及对应系统使用的连接器是哪个。并确定需要从哪些系统取什么数,往哪些系统加载什么数,从而明确需要使用的数据流资源。
资源建模:根据步骤1的结果创建对应业务系统的数据模型,并创建相应的取数和加载的组件,然后根据源数据和目标数据的结构差异创建转换组件等。
组装资源:在数据流图设计中选择刚才创建的资源,并进行编排。创建启动方案,将数据流图和具体的连接配置相绑定。
运行监控:执行启动方案,查看
数据流整体介绍
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。



