电脑桌面
添加蚂蚁七词文库到电脑桌面
安装后可以在桌面快捷访问

实践案例 | 系统集成-亿级库存数据同步与初始化

来源:金蝶云社区作者:金蝶2024-09-235

实践案例 | 系统集成-亿级库存数据同步与初始化

小编推荐


在项目集成中,通常会面临数据量大、数据清洗难度高、项目时间短等挑战。为此,很多小伙伴会感到非常苦恼,如何在短时间内完成超大数据量的系统集成,并满足客户需求?


别担心,本期文章为大家带来亿级数据量的高效系统集成,一线真实案例,亲测有效~


撰稿人:金蝶—汪继超。




应用场景


2022年初,刚完成烟草行业集成项目的我们,又接到医药零售行业的系统集成需求。当时以为有了烟草超大型项目集成经验的我们,面对这样的集成需求应该是处变不惊。可是刚到现场,就被现场的数据量所震惊。


客户需要将SAP和TT两套系统共7亿+数据,清洗处理为3000万库存数据,然后生成星瀚库存初始化单。整体的性能指标要求非常高:数据同步需要在6小时内完成、数据处理为2小时内完成、生成单据则为8小时内完成。


从集成方式来看,对于这种大批量数据集成无非是人工导入程序导入,但人工导入工作量巨大,程序处理富有挑战性,数据同步与数据清洗体量大、逻辑复杂(批号匹配、加价计算、尾差处理等)。从数据分类来看,需要集成的数据分为DC库存门店库存。DC库存数据量:含零1300万,不含零15万;门店库存量:SAP门店库存,含零1.6亿,不含零2300万;TT门店库存,含零6亿,不含零3500万。这种动辄亿级别的数据,在以往的企业级项目中是比较少见的,我们顿感压力山大。



业务需求


需求抽象


解决方案


在烟草项目中,我们主要使用了集成服务云作为数据抽取、转换、加载的工具。集成服务云是一款采用元数据模型驱动的低代码集成工具,提供了数据模型管理、映射、编排、日志、脚本等集成核心引擎组件,通过可视化配置快速实现客户技术多样、灵活多变的集成需求。


毋庸置疑,此处的集成工具仍然选择集成服务云,但是面临如此复杂、巨量的数据集成需求,需要对集成方案进行详细规划。为保障程序处理逻辑清晰、程序执行效率,整体方案分为3至4步:


1)在外围系统做好初步数据清洗,并结构化存储(存数据库)。初步数据清洗保障剔除非必要同步到星瀚的数据,然后进行结构化存储,避免系统间开发额外的接口;


2)抽取原始数据存储到星瀚系统。设计质量决定了性能上限。在本次实践中,没优化前,预估同步完数据需要86小时,优化后仅需10分钟即可同步完成。设计要点如下:


  • 创建与外围系统结构一样的原始数据表,并去除主键及索引,这样数据初始化时数据库底层不用执行创建索引、更新索引,同步更快。


  • 数据同步,采用多任务+分批并行处理,具体实现是集成方案+启动方案,并用集成方案负责单批处理,启动方案设计并行任务数和分批大小。


  • 数据同步完后,将后续程序操作数据库需要的主键和索引加上,以保障程序SQL执行速度。这里需要提前梳理好操作该表的场景,依据使用场景确定索引。


3)在星瀚系统内进行数据处理、计算,将计算结果存储到单独中间表。由于大量数据处理核心无外乎分治,此处也不例外,落实到苍穹里实现为系统任务调度框架+分布式计算框架AlgoX

实践案例 | 系统集成-亿级库存数据同步与初始化

小编推荐在项目集成中,通常会面临数据量大、数据清洗难度高、项目时间短等挑战。为此,很多小伙伴会感到非常苦恼,如何在短时间内完成超大...
点击下载文档文档为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部
客服QQ
  • 客服QQ点击这里给我发消息
QQ群
  • 答案:my7c点击这里加入QQ群
支持邮箱
微信
  • 微信