用户手册1/159YonBIPV3.0(R6_2407_1)旗舰版云平台-数据平台-数据开发用友网络科技股份有限公司2024年9月用户手册2/159版权©2024用友集团版权所有。未经用友集团的书面许可,本用户手册任何整体或部分的内容不得被复制、复印、翻译或缩减以用于任何目的。本用户手册的内容在未经通知的情形下可能会发生改变,敬请留意。请注意:本用户手册的内容并不代表用友网络所做的承诺。用户手册3/159目录第一章总体概述....................................................51.1应用概述....................................................51.2应用价值....................................................5第二章应用场景....................................................62.1场景展示....................................................62.1.1场景一:基于多维建模理论构建消费者行为分析应用........62.1.2场景二:基于关系建模理论构建供应链库龄分析应用........8第三章操作指南....................................................83.1数据同步....................................................83.1.1总体概述..............................................83.1.2总体价值..............................................93.1.3同步任务..............................................93.1.4错误中心.............................................513.1.5数据对比.............................................543.2关系建模...................................................633.2.1总体概述.............................................633.2.2总体价值....................................................633.2.3相关内容.............................................633.2.4关系模型.............................................633.3离线开发...................................................733.3.1总体概述.............................................733.3.2总体价值.............................................743.3.3相关内容.............................................743.3.4离线任务.............................................743.3.5交互式开发...........................................833.3.6任务编排.............................................883.3.7自助ETL..............................................923.4实时开发..................................................145用户手册4/1593.4.1总体概述............................................1453.4.2总体价值............................................1453.4.3相关内容............................................1453.4.4实时任务............................................1453.4.5实时函数管理........................................156用户手册5/159第一章总体概述1.1应用概述数据开发是基于创新中台化架构的云原生大数据处理平台,产品融合数据同步、离线开发、实时开发、任务调度等功能。该产品整合多款底层产品能力,根据数据治理、数据仓库建设与实际业务数据的使用需求,提供多种面向IT开发人员或者业务分析人员的数据开发工具,实现从数据采集汇聚、数据融合萃取、输出高质量数据集的全流程一站式服务功能。1.2应用价值•数据同步形式多样,打破企业数据孤岛。支持批量同步、流式同步、文件同步、自定义同步、表结构同步五种类型的数据同步,以流程化的方式构建异构数据源的数据同步任务;支持MySQL、Oracle、SQLServer、Greenplum、Hive3、达梦(DM)、PostgreSQL、DB2、MongoDB等多种数据源的数据同步。数据同步保留任务拓展性,在预置数据源不满足项目需求的情况下,用户可通过自定义同步创建定制化的同步任务,提高数据同步可用性。•多引擎、可视化的开发工具,高效稳定保证数据生产的高效稳定。数据开发集成Spark引擎、Flink引擎,以拖拽的形式实现工作流的任务开发形态,用户手册6/159支持多源联合即席查询、海量数据的批量、实时计算,提高数据开发小鹿,降低开发门槛的基础,保障数据生产任务的高效、稳定。•内置多种算法模型,支持营销、财务、供应链、采购、人力等全业务流程的数智再造。产品支持多种开发方式实现数据挖掘功能,适应不同层级的开发者实现数据加工,满足业务需求。Python脚本和交互式开发以代码的方式支持数据挖掘功能,偏向于算法工程师等专业性较高的人员使用;自助ETL预置主流的数据挖掘算法和机器学习算法,包括Kmeans聚类、神经网络、随机森林、决策树等50多种算法模型,以拖拉拽方式进行数据价值的挖掘,降低使用门槛,赋能业务人员创。•技术门槛低,利于产品的实施和使用。产品在设计时,无论是数据同步的向导式创建方向,还是专业级的SQL任务、Python任务等数据开发,进行数据探索、数据查询、数据清洗、数据脱敏等多项操作,都体现出灵活易用,将复杂的理论简化为简单的拖拉式的方式实现。•运维方便,利于运维人员日常管理。任务调度集中管理上线任务,可实现任务的执行、调度设置管理、任务实例管理等能力。任务详情可查看任务基本信息、代码、及其生成的任务实例。任务实例列表可追踪任务运行进度、状态及历史执行记录。任务实例可查看基本信息、代码外,还可查看运行日志,方便出错时查找问题症结,快速解决,任务及实例均可查看其依赖关系。•产品安全性高,保障企业数据资产。产品支持租户隔离,为多部门协同提供便利,并可保证数据安全;支持项目隔离,不同项目形成不同的物理空间,即可保证数据安全,也可保证流程清晰,方便管理任务。第二章应用场景2.1场景展示2.1.1场景一:基于多维建模理论构建消费者行为分析应用业务描述某公司想要根据客户的价值对客户进行分类,并提供针对性的产品服务和营销模式;现有销售订单表,需要根据相关的历史数据,从中分析出重要价值客户用户手册7/159与客户交易量。以便相关部门可以根据分析报告立即采取行动,以保证企业后续的盈利。业务流程应用清单•数据源管理•任务管理•业务板块•业务域•业务过程•时间限定•项目列表•维度管理•事实表管理•业务限定•指标列表•离线开发-Python脚本方式用户手册8/1592.1.2场景二:基于关系建模理论构建供应链库龄分析应用业务描述库龄分析是指严格按照先进先出原则进行库存管理,按先进的货先出库的原则进行库龄统计,以免产品或物料过期,可以大大提高库存周转率,促进销售的同时降低库存资金积压风险。在该场景中:首先,利用数据同步功能,将源业务系统的数据同步到数据湖内,统一对数据资源进行管理;然后,利用关系建模功能,创建数据仓库各层的逻辑模型,接着物化至数据湖中;最后,利用数据开发的自助ETL功能将原始数据一步一步加工成目标集市层数据表,形成库龄分析的结果数据。业务流程第三章操作指南3.1数据同步3.1.1总体概述数据同步是用户进行数据同步的工具,在数据同步中可以进行批量数据同步、流式数据同步、文件数据同步。批量数据同步可以全量或增量的方式实现数据同步,也可以在同步过程中设置新字段、设置转换清洗规则等;流式数据同步可基于CDC(ChangeDataCapture(改变数据捕获))的方式实现数据的实用户手册9/159时同步;文件数据同步可实现常见的半结构化、结构化文件的同步,将本地离线文件同步至数据库内,如Excel、CSV格式的数据同步。数据同步关键特点:•支持全量、增量、实时等多种同步方式,可满足不同场景的同步需求;•支持库、表等不同粒度的数据同步场景;•支持灵活的调度策略;•支持数据清洗装换能力。3.1.2总体价值•数据同步-批量同步,支持定期进行全量或者增量的数据同步;•数据同步-流式同步,基于数据库CDC(ChangeDataCapture)机制捕获数据变化,从而进行数据同步。可支持insert、update、delete等操作的实时数据同步。•设置数据对比-分段对比任务时,需要满足表中具有主键和时间字段,可以根据主键和时间字段将数据切片,实现快速精准对比。3.1.3同步任务3.1.3.1功能描述用户可通过任务管理功能对同一租户下的同步任务进行管理,包括创建任务、查看同步任务的数量、状态、详情等。3.1.3.2业务规则•创建批量同步-增量同步时,需要保证表中具有唯一性且可比较的字段,否则无法精准获取增量数据,造成同步增量数据失败;•设置数据对比-分段对比任务时,需要满足表中具有主键和时间字段,可以根据主键和时间字段将数据切片,实现快速精准对比;•创建文件同步时,请按照页面要求上传符合格式的本地文件。•增量同步数据时,默认将ts/pubts等字段作为增量字段。用户手册10/1593.1.3.3栏目说明栏目名称说明同步类型同步类型为批量同步任务的同步策略,包含全量、增量和表结构同步。全量指任务将按照调度周期性同步来源表的全部数据至目标表中。增量指任务将按照指定的来源表中的增量字段周期性的同步增量数据至目标表中。二者区别为全量同步任务创建时不强制要求来源表内存在主键,增量则强制要求来源表内存在主键或者增量字段,否则无法判断新旧数据的依据并发数量并发数量为该任务同时读/写数据的线程数批处理数批处理数为该任务一次读/写数据的最大条数分区类型分区类型为该任务在写入时是否进行分区存储,以便后续数据查询。若选择分区后,则需要指定目标表的分区字段的值来源于来源表的字段。仅部分数据源类型支持分区操作读取起点读取起点指该任务起取数据的始读位置,包含运行任务为起点和自定义。运行任务为起点是以任务创建时为读取数据起点。自定义则需要输入相应的binlog文件名称及binlog点位值历史数据读取历史数据读取开启后,可以将来源表中历史数据同步至目标表告警策略告警策略指按照一定规则设置的任务通知策略,当任务出现符合告警策略的信息时,可通知到相关人。3.1.3.4按钮说明•<条件过滤>:对来源表设置过滤条件,筛选需要同步的数据内容。•<同步索引>:同步任务创建目标表时,支持将来源的索引同步至目标表。开启后,会提高目标表的查询效率,但会降低数据同步效率。3.1.3.5操作说明同步任务管理用户手册11/159任务管理支持用户以目录的方式管理批量同步、流式同步、文件同步、自定义同步、表结构同步等任务。页面提供列表、卡片的展示风格,具备精准搜索能力,可批量操作任务。进入【数据同步>同步任务】功能,即可查看当前租户内创建的同步任务。在同步任务的管理界面,用户可以通过<新增>按钮新增任务,也可以对任务执行<开始运行>、<终止运行>、<查看流程>、<重新创建>、<删除>、<编辑>、<移动位置>等操作,为了提高效率,任务可通过<批量停止><批量运行>按钮实现批量启停操作。目录创建点击目录栏中的<新增目录>按钮,在弹出目录新增页面,定义目录名称及位置,即可实现目录的新增。新增任务时,任务默认放在当前选中的目录内。未选中目录时,新增的任务存放在根目录下。用户手册12/159创建任务点击<创建任务>按钮,选择需要新增的任务类型,不同任务类型需要填写的内容不同,根据具体同步需求选择即可。开始运行点击<开始运行>按钮,可以继续执行已经暂停的任务,不会影响任务内已经同步到目标库的表。终止运行点击<终止运行>按钮,将对当前任务暂停操作,暂停任务流程并暂停数据同步操作,后续可继续运行。查看流程用户手册13/159点击<查看流程>按钮,将跳转至NIFI任务流程页面,可以查看NIFI任务的处理进度及详情。重新创建点击<重新创建>按钮,会重新按照任务配置创建任务,但不会删除已经创建的目标表和数据。删除点击<删除>按钮,将会删除该任务的卡片信息、任务流程,同时支持删除任务中目标表的表结构及数据。如该任务存在未同步的数据,将会自动从同步队列中删除,不再继续同步。删除需要二次确认。用户手册14/159自定义同步任务类型删除时,弹出框没有“删除表结构及数据”选项。编辑批量同步任务支持任务的二次编辑。当任务状态为“已终止”或“创建失败”时,任务卡片和列表中显示<编辑>按钮,可对任务进行再次编辑,满足修改任务部分配置的需求。移动位置点击任务卡片上的<移动位置>按钮,或者使用光标直接拖动任务,可以实现任务的跨目录移动的能力。点击<移动位置>按钮,弹出如下截图,可以实现任务的跨目录移动。用户手册15/159批量同步任务创建该场景可满足用户创建批量数据同步,支持跨数据库实例的多表数据同步。用户可根据需求选择全量/增量同步的同步方式、数据过滤、数据清洗、调度执行方式等策略。进入【数据同步>同步任务】功能,点击【新增>批量同步】即可进入批量同步任务创建向导页面,在任务创建向导页面需要分别完善四个步骤的信息:“任务配置”、“同步内容”、“同步策略”、“任务调度”。任务配置进入“创建批量任务”页面,需要完善任务名称、任务目录、任务描述、数据源、目标源、告警策略。“任务名称”为该批量同步任务的名称,允许输入汉字/字母/数字/下划线(不能以下划线开头),50字符以内。“任务目录”为此任务存放的位置,方便进行管理和分类。“任务描述”为此任务的备注信息,方便协同开发人员通过描述了解任务的具体用途。“数据源”为该同步任务的来源数据源地址,同步任务将从此处选中的数据源中读取数据。选择数据源时,支持通过数据源类型、关键字搜索快速定位数据源信息。用户手册16/159“目标源”为该同步任务的目标数据源地址,同步任务将从数据源读取的数据写入到此处选中的数据库中。选择目标源时,支持通过数据源类型、关键字搜索快速定位数据源信息。“告警策略”可以选择已经指定好通知人及通知方式的策略,在任务出现符合告警策略的情况时,会按照告警策略设置的方式通知相关人员,及时关注任务运行状态。同步内容“任务配置”完成后,点击<下一步>,进入“同步内容”页面。在“同步内容”页面,首先选择同步类型,再配置同步任务的同步内容。用户手册17/159“同步类型”分别为全量、增量。全量同步指将来源表的数据全部同步到目标表内。全量同步时建议开启清空目标表功能项,防止因为表主键冲突造成的同步问题。增量同步指将来源表中历史数据全量同步至目标表后,再按照调度时间将新产生的数据同步到目标表内。二者区别为全量同步任务创建时不强制要求来源表内存在主键,增量则强制要求来源表内存在主键或具有可比较性的字段(增量字段),否则无法判断新旧数据;同步内容包含两部分内容:模式映射和表选择列表。模式映射中可以选择数据源和目标源的模式,点击<确定>按钮保存模式的映射关系。如果需要同步其他模式的数据,可重复选择数据源/目标源的模式映射关系,点击<确定>按钮完成新增。选择模式以后,再选择模式下对应的表及视图信息。在选择表时,若表或视图较多且命名不相似,可以通过<批量输入>按钮实现批量选择。批量选择的规则为以表名为准进行精准匹配,且大小写字母敏感,表与表之间以英文“,”隔开。同步策略“同步内容”完成后,点击<下一步>,跳转至“同步策略”页签,可查看模式、表的映射关系,配置同步任务的物化策略、过滤条件等内容。用户手册18/159功能名称解释添加行在目标表中添加新行,满足目标表需要派生字段的场景。新增的字段需要指定数据的来源,可以从来源表的某个字段赋值,也可是是经过处理产生。处理的方式参考新增行后的<转换>中的公式,也可以来自于清洗脚本高级设置公式校验该功能配合新增行的功能使用,当新增行设置转换公式后,可以在此处进行正确性校验,查看派生字段的值经过公式转换后是否符合预期清洗脚本该功能可对所有目标表字段进行清洗。系统预置一些常见的清洗规则,如时间运算、字段求和、字段拼接、数据脱敏、枚举值转换、时区转换、非空判断、读取时间填充等增量字段仅当批量同步任务的同步方式选择增量同步时,需要设置增量字段。任务周期执行时,会按照增量字段查询上一次同步与此次同步中新增或则修改的数据,不会同步删除的数据Orderby此字段在任务中的作用是对来源表进行分页方式查询的。在无排序的情况下,可能出现同一条数据出现在不同页码中的情况,从而造成主键冲突。可通过添加排序字段解决此问题分区字段分区是一种表的设计模式,通俗地讲表分区是将一大表,根据条件分割成若干个小表。仅当目标库支持设置分区且在物化策略-分区类型选择分区以后,需要设置此字段。分区的字段类型受到限制,只能选择整数类型或字符类型物化策略物化目标表管理目标表物化的功能。任务默认在目标库创建目标表。若已存在同名表,则不会创建同步索引开启后,任务会将来源表的索引同步至目标表用户手册19/159分区类型是否将目标表创建为分区表。选择分区后,在创建目标表时,默认会添加一个“dt”字段作为分区字段。同时需要在页面指定分区字段值的来源字段。系统会默认将值处理为日期值,并依据此日期值建立分区目标表表名大小写设置目标表表名大小写的功能,仅对新建的表生效目标表字段大小写设置目标表字段大小写的功能,仅对新建的表生效目标表名称设置可对新建的目标表批量设置表名前缀和后缀数据过滤生效范围过滤条件的作用范围过滤条件表的过滤条件,支持=、<>、>、<、>=、<=、in等条件生效规则指已经设置的生效范围和过滤条件预览预览表设置的过滤条件流量控制源表并发数量读取数据时并发进程数。最大不超过8目标表并发数量写入数据时并发进程数。最大不超过8源表批处理数读取数据时每个进程每批读取数据的条数目标表批处理数写入数据时每个进程每批写入数据的条数开启CopyFrom仅当目标源为Greenplum时,可设置该项。开启后,可提高数据写入效率字段映射框中,目标表表名与字段名由来源表复制而来,实现同名映射。目标表的字段类型可进行变更,变更字段类型后,用户可在保证数据正常写入的情况下,自定义字段的长度和精度信息(仅当目标表不存在时生效)。当来源表不存在主键时,可以在目标表指定表的主键,作为唯一性字段进行数据同步。配置数据同步任务时,支持在目标表新增行的操作。用户点击<添加行>按钮,目标表会添加一个新字段,字段值的来源可以通过<转换>按钮处理来源表的字段得到,也可以通过<高级设置>中的<清洗脚本>配置清洗来源表的数据得到。用户手册20/159新增字段时,需要按照先后顺序的维护字段信息,当维护完当前字段后,允许再次新增字段。新增字段支持删除和配置转换功能。点击<转换>按钮,可以打开转换规则配置页面,支持对每条转换功能单独设置开关,方便精准管理;可对已输入的转换规则进行校验和清空。可搜索、查看来源表的字段级描述信息,也可搜索、查看转换规则的解释及使用示例。当将全部的新增字段配置完转换规则以后,点击<公式校验>按钮,可以对当前表配置的转换规则做一个整体性校验,校验流程:点击<获取样例>按钮,用户手册21/159获取一条样例数据;点击<校验>按钮,执行转换规则,得出处理后的记录,确认是否符合预期。点击<高级设置>,在弹出框中选择<清洗脚本>按钮,可为当前表设置清洗脚本内容。目前产品已预置多个常用清洗脚本模板。用户可在添加模板后,修改部分信息即可预览脚本执行结果,预览结果数据满足预期后,点击保存即可生效。多张表时需要分别设置,设置后不会对源表数据进行修改,只在目标表中进行相应清洗操作。用户手册22/159当同步类型选择增量同步时,需设置增量字段。系统会将以下字段预设为增量字段:ts,pubts,modifytime,modify_time,update_time,createtime,create_time。如同时存在多个字段,按照顺序排列优先级,字段靠前的优先设为增量字段。物化策略包括物化目标表、同步索引、分区类型、目标表表名大小写、目标表字段大小写和目标表名称设置。物化目标表指管理目标表物化的功能。任务默认在目标库创建目标表,若已存在同名表,则不会创建。同步索引开启后,任务会将来源表的索引同步至目标表。分区类型指是否将目标表创建为分区表。选择分区后,在创建目标表时,默认会添加一个“dt”字段作为分区字段。同时需要在页面指定分区字段值的来源字段。系统会默认将值处理为日期值,并依据此日期值建立分区。目标表表名大小写指设置目标表表名大小写的功能,仅对新建的表生效。目标表字段大小写指设置目标表字段大小写的功能,仅对新建的表生效。由于hive不支持大小写,所有hive为目标表时,不支持设置表名和字段名大小写。目标表名称设置,可对新建的目标表批量设置表名前缀和后缀。需要将业务系统的数据同步至数仓构建ODS层时,可以按照数仓规范批量添加前、后缀。数据过滤可指定表进行批量设置过滤条件。当需要对部分表通过共有字段筛选过滤数据时,可在条件过滤中设置过滤条件,且支持设置条件过滤的生效范围,用户可根据需求设置全表生效还是自定义范围。设置条件时,如果有多个字段可以使用“and”连接多个字段,系统会将符合条件的数据同步至目标库中。条件支持的运算符如下列表所示:操作符描述=等于<>不等于>大于<小于>=大于等于<=小于等于in包含支持设置多条过滤条件。用户手册23/159设置过滤条件后,点击<预览过滤条件>按钮,可以实时查看表的过滤条件。流量控制指数据同步中影响数据同步速率的功能。并发数量指读取或写入数据时的并发线程数。比处理数指每个线程获取一批数据的数量。开启CopyFrom仅当目标库为Greenplum数据库时显示。开启后,可以提高数据写入效率。流量控制策略包括“并发数量”、“批处理数”两项。数据源“并发数量”为该任务同时读数据的线程数,数据源“批处理数”为该任务一次读取数据的最大条数。目标数据源“并发数量”为该任务同时写数据的线程数,目标数据源“批处理数”为该任务一次写入数据的最大条数。目标库为Greenplum数据库时,页面显示<开启CopyFrom>功能,开启后可以提高数据写入效率。任务调度“同步策略”完成后,点击<下一步>,进入“任务调度”页面。“任务调度”为设置该同步任务的执行时间,支持手动执行和时间调度两种方式,根据需求自行设置。选择手动执行时,调度周期、具体时间、cron表达式和立即执行按钮均不可编辑,保存任务后,任务会立即执行。时间调度按小时、天、周、月设置调度时间,可选择是否开启立即执行。“立即执行”为用户手册24/159该任务保存后,是否立即执行一次,勾选及立即开始,不勾选则按照设置的调度周期到点执行。确认信息无误后,点击<保存>,即可保存任务并开始运行。查看批量同步任务详情该场景是为满足用户查看批量任务运行状态、同步内容、异常日志等信息的场景,可按照任务分别查看。进入【数据同步>同步任务】功能,点击“批量任务名称”,即可进入批量任务详情页面,在详情页面可查看当前任务的概览、数据对比、运行监控。【概览】包含错误队列、调度信息、同步内容、参与者。“错误队列”展示任务运行过程中的出现的错误信息,保留最近七天的信息;“调度信息”展示任务创建时配置的调度信息;“同步内容”展示该任务涉及的模式、表名的映射关系及表结构;“告警策略”展示任务绑定的告警策略,告警策略中包含收该人和错误通知方式。用户手册25/159【数据对比】包含记录数对比、数据对比。“记录数对比”是指对同步任务内所有表进行记录数对比;“数据对比”是指针对部分表(必须有主键)进行某些字段的数据一致性对比。【运行监控】包含同步监控、组件状态、队列信息。“同步监控”展示任务的运行信息;“组件状态”展示该任务内各组件的运行状态信息;“队列信息”显示该任务内各队列情况。用户手册26/159数据一致性校验该场景是为满足用户查看数据同步执行是否有误的需求,可进行记录数对比和数据对比,记录数对比为数据一致性初步校验,仅对来源表和目标表的数据行数进行对比;数据对比为数据内容一致性校验,可选择需要对比的字段进行指向性对比,更加准确。进入【数据同步>同步任务】功能,点击“批量任务名称>数据对比”,即可进入批量任务数据对比页面,在数据对比页面可查看当前任务的“对比报告”。记录数对比用户手册27/159点击<立即对比>按钮,可对该同步链路执行记录数对比,记录数对比支持批量执行。对比任务执行时间支持开启和关闭,默认为关闭状态。数据对比的时间可通过<设置执行时间>按钮进行更改,更改下次执行生效。记录数对比和数据对比的对比时间均在此设置。数据对比数据量对比完成后,可查看数据量对比结果,针对数据量不一致的表,可进行数据对比,精确定位那些记录出现不一致的情况。进入“数据对比”页面,数据同步链路支持设置、对比报告、立即对比三个操作。用户手册28/159【设置】可以选择记录数对比和数据对比,记录数对比为默认勾选,选择数据对比后,页面弹出数据对比的基础配置和对比内容选择项,基础配置包括“对比方式”和“对比配置”。“对比配置”包含全量对比和分段对比;对比配置默认选中全量对比,选择分段对比时,弹出“分段类型”及“对比时间”字段;设置分段对比时,需要保证数据表具有主键和时间戳字段,否则对比任务会出现异常。【对比内容】为表的字段信息,可以选择其中的字段以对比来源表和目标表之间的差异。对比时,如果表没有设定主键,可手动指定具有唯一性的字段作为对比依据,进而实现数据对比,设为主键的动作仅对数据对比生效,并非在物理表中创建主键。选择分段对比时,表必须满足具备主键和时间戳的条件,对比时间段指根据调度执行的时间作为依据,减去一个调度周期的时间,如对比调度没小时执行一次,则8点执行对比任务时,对比的数据则为按照选择的时间戳字段,筛选出7点~8点之间的数据做对比。用户手册29/159【对比报告】可查看数据对比的结果报告,包含记录数对比的任务执行结果和数据对比任务的执行结果;如果数据对比任务出现异常,异常原因会在页面上展示出来。对比报告页面支持通过字段搜索、数据异常类型等方式实现过滤。用户手册30/159当对比任务结果出现异常时,表示源端表和目标表数据不一致,可点击<查看异常详情>按钮查看异常的行记录。系统会保留近10次的对比结果,当任务为全量数据对比时,仅支持对最近一次数据做补偿或忽略操作。当设置为分段对比时,可对近10次的对比记录做补偿或忽略操作。“立即执行”可对“设置”立即执行一次。在同步链路列表顶部支持批量执行数据对比,提高任务执行效率。批量同步任务编辑数据同步>批量同步的任务保存后,支持进行再次编辑任务的能力。可修改任务的任务名、邮件通知、变更同步表、过滤条件、调度信息等,满足修改任务的能力。编辑任务配置进入【数据同步>同步任务】功能,找到任务状态为“已终止”或“创建失败”的任务,点击任务卡片和列表中的<编辑>按钮,进入到配置页面。进入到任务编辑页面后,任务配置页面中,任务名、任务描述和告警策略支持修改。用户手册31/159编辑后,点击<下一步>,进入到“同步内容”页面,页面中同步内容支持修改。数据源设置和目标源设置中的并发数量和批处理数配置项允许变更。调整同步内容以后,进入到“同步策略”页面,可编辑目标表的表名、字段类型、新增字段及其长度和精度。支持设置清洗和转换规则,并对其进行校验。表的增量字段、分区字段和Orderby字段支持编辑。在物化策略中,物化目标表、目标表表名和字段的大小写、目标表名称设置支持编辑;在数据过滤中可以通过删除已经设置的过滤条件,然后再次添加过滤条件实现编辑能力。用户手册32/159点击<下一步>,进入到“任务调度”页面,可对当前任务的调度信息进行编辑。点击<保存>按钮后,保存并执行此任务。流式同步任务创建该场景是为满足用户进行实时数据同步的场景,可进行两个数据库间的多张表内数据同步,可根据需求决定是否需要定期同步。进入【数据同步>同步任务】功能,点击“新增>流式同步”,即可进入流式同步任务创建向导页面,在创建向导页面需要分别完善三个步骤的信息:“任务配置”、“同步内容”、“同步策略”。任务配置用户手册33/159进入【任务配置】页面,需要完善任务名称、任务描述、数据源、目标源和告警策略。“任务名称”为该批量同步任务的名称,允许输入汉字/字母/数字/下划线(不能以下划线开头),50字符以内;“任务描述”为此任务的备注信息,方便协同开发人员通过描述了解任务的具体用途。“数据源”为该同步任务的来源数据源地址,同步操作的起点;“目标源”为该同步任务的目标数据源地址,同步操作的终点;告警策略可以选择已经指定好通知人及通知方式的策略,在任务出现符合告警策略的情况时,会按照告警策略设置的方式通知相关人员,及时关注任务运行状态。若来源库和目标表没有开启归档模式,则提示用户需要开启数据库的归档模式。同步内容【任务配置】完成后,点击<下一步>进入【同步内容】页面。【同步内容】需要分别针对数据源进行个性化配置。数据源可配置“读取起点”。数据源“读取起点”为该任务的起始读取位置,为运行任务为起点、自定义,“运行任务为起点”是以任务创建时新产生的数据为起点,“自定义”则需要自己输入相应的文件名称及位置(以MySQL数据库作为来源举例)。“读取历史数据”为是否进行历史数据同步。目标数据源无更多配置项。用户手册34/159同步内容模块包含两部分内容:模式映射和表选择列表。模式映射中可以选择数据源和目标源的模式,点击<确定>按钮保存模式的映射关系。如果需要同步其他模式的数据,可重复选择数据源/目标源的模式映射关系,点击<确定>按钮完成新增。选择模式以后,再选择模式下对应的表及视图信息。在选择表时,若表或视图较多且命名不相似,可以通过<批量输入>按钮实现批量选择。批量选择的规则为以表名为准进行精准匹配,且大小写字母敏感,表与表之间以英文“,”隔开。用户手册35/159同步策略“同步内容”完成后,点击<下一步>,跳转至“同步策略”页签,可查看模式、表的映射关系,配置同步任务的物化策略、过滤条件等内容。可对目标表的字段类型进行变更,变更后,用户在保证可正常写入数据的前提下自定义字段的长度和精度信息。新增字段时,需要按照先后顺序的维护字段信息,当维护完当前字段后,允许再次新增字段。新增字段支持删除和配置转换功能。点击<转换>按钮,可以打开转换规则配置页面,支持对每条转换功能单独设置开关,方便精准管理;可对已输入的转换规则进行校验和清空。可搜索、查看来源表的字段级描述信息,也可搜索、查看转换规则的解释及使用示例。用户手册36/159当将全部的新增字段配置完转换规则以后,点击<公式校验>,可以对当前表配置的转换规则做一个整体性校验,校验流程:点击<获取样例>按钮,获取一条样例数据,点击<校验>按钮,执行转换规则,得出处理后的记录,确认是否符合预期。流式同步任务中,Kafka同步到Greenplum比较特殊,由于Kafka中的Topic存储方式不是二维结构,而是Json格式,所以数据同步支持对Topic的Json格式数据设置平铺规则。目前仅支持一级平铺,即将Json中的子级字段映射成二维表的字段。用户手册37/159查看流式同步任务详情该场景是为满足用户查看流式任务运行状态、同步内容等信息的场景,可按照任务分别查看。进入【数据同步>同步任务】功能,点击“流式任务名称”即可进入流式任务详情页面,在详情页面可查看当前任务的概览、数据对比、运行监控。【概览】包含“错误队列”、“同步内容”、“参与者”。“错误队列”展示任务运行过程中的出现的错误信息,保留最近七天的信息;“调度信息”展示任务创建时配置的调度信息;“同步内容”展示该任务涉及的模式、表名的映射关系及表结构;“告警策略”展示任务绑定的告警策略,告警策略中包含收该人和错误通知方式。用户手册38/159【数据对比】包含“数据量对比”、“数据对比”。“数据量对比”是指对同步任务内所有表进行数据量对比;“数据对比”是指针对部分表(必须有主键)进行某些字段的数据一致性对比。Kafka为目标源的时候不支持数据对比。【运行监控】包含“同步监控”、“组件状态”、“队列信息”。“同步监控”展示任务的运行信息,“组件状态”展示该任务内各组件的运行状态信息,“队列信息”显示该任务内各队列情况。用户手册39/159数据一致性校验该场景是为满足用户查看数据同步执行是否有误的需求,可进行记录数对比和数据对比,记录数对比为数据一致性初步校验,仅对来源表和目标表的数据行数进行对比;数据对比为数据内容一致性校验,可选择需要对比的字段进行指向性对比,更加准确。进入【数据同步>同步任务】功能,点击“流式任务名称>数据对比”,即可进入流式任务数据对比页面,在数据对比页面可查看当前任务的“对比报告”。数据量对比用户手册40/159对比任务执行时间支持开启和关闭,默认为关闭状态。数据对比的时间可通过<更改对比执行时间>进行更改,更改下次执行生效。记录数对比和数据对比的对比时间均在此设置。数据对比数据量对比完成后,可查看数据量对比结果,针对数据量不一致的表,可进行数据对比,精确定位那些记录出现不一致的情况。进入【数据对比】页面,数据同步链路支持设置、对比报告、立即对比三个操作。用户手册41/159<设置>可以选择记录数对比和数据对比,记录数对比为默认勾选,选择数据对比后,页面弹出数据对比的基础配置和对比内容选择项,基础配置包括“对比方式”和“对比配置”,“对比配置”包含全量对比和分段对比;对比配置默认选中全量对比,选择分段对比时,弹出“分段类型”及“对比时间”字段;设置分段对比时,需要保证数据表具有主键和时间...