结构化数据抓取

栏目:云苍穹知识作者:金蝶来源:金蝶云社区发布:2024-09-23浏览:1

结构化数据抓取

1  功能说明

能够批量抓取网页上和桌面程序中的结构化数据,保存为一个数据表格(Dataframe)并返回。

结构化数据:指高度组织和整齐格式化的数据,可以理解为是可以放入表格和电子表格中的数据类型。

例如:金蝶社区中每个帖子的标题可以看做是一系列的类似元素,具有一定的关联规律;结构化数据抓取就能够将这种具有一定规律的类似元素批量抓取作为数据表格中的一列;详细的使用示例和说明请继续看下文。


2  使用示例

2.1 网页上非表格形式的结构化数据

例如,我们尝试将金蝶云社区中【讨论】模块帖子的标题、作者、内容等信息抓取下来,返回一个数据表格;则参考步骤如下:

1. 首先,在设计器画布中新建一个组件结构化数据抓取;组件新建之后,将弹出抓取窗口:

2. 点击拾取数据按钮,进入拾取模式开始拾取数据;此时可选择帖子的标题进行拾取,将标题拾取为一列。

在将一系列类似元素拾取为一列的过程中,如图所示,绿色框为手动选中的元素,蓝色框为自动匹配的将要被提取为一列的类似元素;点击完成拾取按钮完成一列的拾取。

3. 拾取完一列后,可在数据列设置部分进行列名、数据类型等设置。

4. 点击拾取数据按钮,继续拾取其他数据列。


5. 拾取完成后可点击数据预览按钮预览数据列。


6. 拾取完数据列后,保存并返回设计器即可。

2.2 网页上的表格数据

例如,我们尝试将运行管理平台中流程管理列表批量抓取,则参考步骤如下。

1. 首先,在设计器画布中新建一个组件结构化数据抓取;组件新建之后,将弹出抓取窗口:

点击拾取数据按钮,进入拾取模式开始拾取数据;此时点击表格数据中的任何一个数据,会弹出窗口提示”您是否想要提取表格中的所有列”。

点击“是”,则直接抓取整个表格:

若点击“否”,则可按照2.1中步骤进行一列一列的拾取。

3. 在数据行设置处设置需要抓取的数据数量;

4. 拾取完成后可点击数据预览按钮预览数据列:

也可继续在数据列设置处进行数据列隐藏、数据列设置、数据列删除等操作;

5. 拾取完数据列后,保存并返回设计器即可。

2.3 应用程序中的表格数据

例如,我们尝试抓取SAP系统中的某表格数据,则参考步骤如下。

1. 首先,在设计器画布中新建一个组件结构化数据抓取;组件新建之后,将弹出抓取窗口。

2. 点击拾取数据按钮,进入拾取模式开始拾取数据;此时点击表格数据中的任何一个数据,将直接抓取整个表格:

3. 拾取完成后可点击数据预览按钮预览数据列:

也可继续在数据列设置处进行数据列隐藏、数据列设置、数据列删除等操作;

4. 拾取完数据列后,保存并返回设计器即可。

3  基本使用说明

3.1 组件入口

1. RPA设计器工具栏中有结构化数据抓取组件的快捷创建方式,点击后会创建一个结构化数据抓取组件并直接打开抓取窗口。

2. 也可在组件中直接输入关键字新建组件,新建后也将直接打开抓取窗口

3.2 抓取窗口说明

1. 工具栏:包括保存并返回设计器按钮、重新拾取按钮、拾取数据、拾取翻页和获取URL按钮。

a. 保存并返回设计器:拾取完成后,保存拾取设置并返回到设计器。

b. 重新拾取:清空已拾取到的所有数据列和数据列设置,可重新进行拾取。

c. 拾取数据:抓取窗口打开后,点击此按钮进入拾取状态,开始进行数据的拾取。

  • 进入拾取状态后,按钮会变为完成拾取状态。从点击拾取数据开始拾取数据到点击完成拾取结束拾取的过程中,是将一系列要提取为列的类似元素拾取为一个数据列;在点击第一个元素后,可继续点击其他类似元素进行更精确的拾取优化。

  • 完成一列的拾取后,可继续点击拾取数据进行其他数据列的拾取,拾取不同列时,不同列之间应该存在对应的关系,比如拾取金蝶社区中帖子,先将帖子的标题拾取为一列,然后将帖子的内容拾取为一列,一个标题对应一个内容,所以这两列能够形成一个有对应关系的表格数据。

d. 拾取翻页:若目标数据跨页,则可通过拾取翻页按钮进行多页拾取。

e. 获取URL:获取数据列的同时会将对应的URL获取,URL会另形成一个数据列。此按钮默认为关闭状态。

2. Tips:操作提示,可按照此处步骤进行数据的拾取。

3. 数据列设置:可以查看已获取到的所有数据列、对已获取的数据列进行重命名、隐藏、设置、删除等操作。

a. 重命名:若抓取的数据为非表格数据,则默认列名为ColumnX;双击数据列可以直接对数据列进行重命名;也可以在列设置中的条件模式中进行修改。列名不得超过20个中文字符。

b. 隐藏:点击隐藏后,此数据列只在数据列部分能够看到,在预览和最终抓取结果中都没有此列。

c. 设置:点击后弹出数据列设置窗口;数据列设置窗口包括条件模式、数据解析类型和示例预览等。

  • 条件模式:即数据列名称。

  • 数据解析类型:可以设置数据列的最终保存类型,默认为文本类型,可下拉选择文本、数字、日期与时间;

  • 示例:数据的最终保存样式。

注:

(1) 选择数字后,可进一步选择int或者float两种数字类型;
(2) 选择日期与时间后,可进一步选择数据列的日期格式,也可以手动输入解析格式;若解析格式和数据列格式相匹配,保存后返回的结果将是标准化格式的日期与时间。

(3)数据解析类型需和数据列的数据类型相匹配,否则无法成功解析。

例:想要将图中所示的日期保存为标准格式的日期与时间,在拾取完此列后,首先选择将数据解析为日期与时间格式,之后选择与拾取的数据列一致的日期格式,若能够解析成功,点击保存即可将目标数据列保存为日期与时间。

d. 删除:删除此数据列。

1. 数据行设置:可以设置需要获取的数据行的数量上限.有两种模式:提取最大行数和最大页数;选择模式后可在文本域中填写具体的数量。

  • “提取最大行数”:以行数为单位进行拾取。

  • “最大页数”:以页数为单位进行拾取。

注:当实际数量小于设置的目标上限时,会及时返回实际数量的数据。

2. 预览数据

点击预览按钮会弹出预览窗口,可预览所有数据列。

点击导出数据按钮可将预览窗口中的数据表格导出,默认导出csv格式文件。

4  组件属性说明

在保存拾取并返回设计器之后,便会在设计器的右边属性窗口,显示该组件的属性参数。

4.1 通用属性

通用属性是组件一般都具有的参数属性,包括延时、备注等参数属性。

  • “前置延时”参数
    用以设置组件功能执行之前等待的时间,单位为ms。

  • “后置延时”参数
    用以设置组件功能执行之后等待的时间,单位为ms。

  • “备注”参数
    可对组件进行备注说明,易于理解,方便查找定位。

4.2 窗口属性

窗口属性是目标数据所在的窗口的信息。

  • “窗口标题”参数
    记录结构化数据所在的窗口的标题信息。执行过程中,如果窗口标题发生变化导致无法正常执行,可以直接去掉标题中内容

  • “网址”参数
    记录结构化数据所在的窗口的网址信息。执行过程中,网址发生变化导致无法正常执行,设计器将自动用通配符 * 代替变化的部分。

4.3 输入属性

输入属性是指提取的元数据列的基本信息。

4.4 目标属性

目标属性是指结构化数据所在界面父节点的基本信息。

4.5 翻页按钮

翻页按钮是指拾取的翻页按钮的相关属性。

  • “消息模式”参数
    (1)不勾选消息模式:点击翻页时会先激活窗口,再执行翻页功能;
    (2)勾选消息模式:点击翻页时不会进行页面激活点击,通过后台请求消息的发送与接收,由后台实现翻页功能。

  • “ScrollIntoView”参数
    结构化数据抓取组件开启了智能滚动页面功能,该参数便是用以设置查找与滚动的顺序(默认窗口被激活的情况下)。
    (1)默认不勾选ScrollIntoView:
    先查找所拾取元素,若是元素不在当前页面,便进行滚动调整,然后进行点击。
    (2)勾选ScrollIntoView:
    无论拾取的元素是否在当前页面前端呈可见状态,执行功能时页面均会先自动滚动调整,将所拾取的元素滚动到页面最顶部呈可见状态,最后进行点击操作。

  • “属性表”参数
    翻页按钮的属性。

  • “属性表”参数
    翻页按钮的属性。

  • “图片”参数
    翻页按钮的图片,当翻页按钮的属性发生改变时,会通过图片匹配的方式寻找翻页元素。默认勾选。

  • “模糊匹配相似度”参数
    使用图片匹配方式匹配翻页元素时的相似度,范围为0-1,越接近于1越精确。

4.6 表格设置

记录对数据列进行的设置,包括列名、数据类型等属性。

4.7 选项配置

选项配置是指对数据行进行的一系列设置,包括模式、数量、翻页等待超时等参数属性。

  • “内容限制”参数
    显示拾取时对数据行进行的模式选择,可在此处继续进行模式的选择

    (1) “最大行”:以行数为单位进行数据表格的拾取;
    (2) “最大页”:以页数为单位进行数据表格的拾取。

  • “限制大小”参数
    显示拾取时对数据行进行的数量上限设置,可在此处继续进行数量上限的设置;

  • “翻页等待超时”参数
    用以设置翻页功能执行的时间。
    在这段时间内,翻页功能会一直重复执行,直至执行成功,才会停止执行,继续执行拾取过程;若等待时间内均未执行成功,则默认已经到达最后一页,组件返回已抓取到的所有数据。

5  特别说明

  • 2022.1.1.0版本支持的应用为:Chrome和firefox浏览器中的非表格数据和表格数据、SAP系统的表格数据。后续会继续扩大其他浏览器和桌面程序的适配。

  • 双屏的情况下只支持主屏幕的拾取。

  • 为了防止网页标题变化而导致流程不能正常运行,可以将组件中“标题”属性中的内容删除。

  • 当目标页面翻页形式为滚动加载时(如金蝶云社区),可以先使用滚动组件将内容加载出来,再进行多条数据的拾取。

  • 当目标页面翻页形式为多个页标按钮时,可以使用鼠标点击组件点击翻页按钮,使用“结构化数据抓取”组件抓取多页数据。

结构化数据抓取

1 功能说明能够批量抓取网页上和桌面程序中的结构化数据,保存为一个数据表格(Dataframe)并返回。结构化数据:指高度组织和整齐格式化...
点击下载文档
确认删除?
回到顶部
客服QQ
  • 客服QQ点击这里给我发消息