结构化数据抓取

1 功能说明
能够批量抓取网页上和桌面程序中的结构化数据,保存为一个数据表格(Dataframe)并返回。
结构化数据:指高度组织和整齐格式化的数据,可以理解为是可以放入表格和电子表格中的数据类型。
例如:金蝶社区中每个帖子的标题可以看做是一系列的类似元素,具有一定的关联规律;结构化数据抓取就能够将这种具有一定规律的类似元素批量抓取作为数据表格中的一列;详细的使用示例和说明请继续看下文。
2 使用示例
2.1 网页上非表格形式的结构化数据
例如,我们尝试将金蝶云社区中【讨论】模块帖子的标题、作者、内容等信息抓取下来,返回一个数据表格;则参考步骤如下:
1. 首先,在设计器画布中新建一个组件结构化数据抓取;组件新建之后,将弹出抓取窗口:

2. 点击拾取数据按钮,进入拾取模式开始拾取数据;此时可选择帖子的标题进行拾取,将标题拾取为一列。

在将一系列类似元素拾取为一列的过程中,如图所示,绿色框为手动选中的元素,蓝色框为自动匹配的将要被提取为一列的类似元素;点击完成拾取按钮完成一列的拾取。
3. 拾取完一列后,可在数据列设置部分进行列名、数据类型等设置。

4. 点击拾取数据按钮,继续拾取其他数据列。

5. 拾取完成后可点击数据预览按钮预览数据列。

6. 拾取完数据列后,保存并返回设计器即可。

2.2 网页上的表格数据
例如,我们尝试将运行管理平台中流程管理列表批量抓取,则参考步骤如下。
1. 首先,在设计器画布中新建一个组件结构化数据抓取;组件新建之后,将弹出抓取窗口:

点击拾取数据按钮,进入拾取模式开始拾取数据;此时点击表格数据中的任何一个数据,会弹出窗口提示”您是否想要提取表格中的所有列”。

点击“是”,则直接抓取整个表格:

若点击“否”,则可按照2.1中步骤进行一列一列的拾取。
3. 在数据行设置处设置需要抓取的数据数量;

4. 拾取完成后可点击数据预览按钮预览数据列:

也可继续在数据列设置处进行数据列隐藏、数据列设置、数据列删除等操作;
5. 拾取完数据列后,保存并返回设计器即可。

2.3 应用程序中的表格数据
例如,我们尝试抓取SAP系统中的某表格数据,则参考步骤如下。
1. 首先,在设计器画布中新建一个组件结构化数据抓取;组件新建之后,将弹出抓取窗口。

2. 点击拾取数据按钮,进入拾取模式开始拾取数据;此时点击表格数据中的任何一个数据,将直接抓取整个表格:

3. 拾取完成后可点击数据预览按钮预览数据列:

也可继续在数据列设置处进行数据列隐藏、数据列设置、数据列删除等操作;
4. 拾取完数据列后,保存并返回设计器即可。

3 基本使用说明
3.1 组件入口
1. RPA设计器工具栏中有结构化数据抓取组件的快捷创建方式,点击后会创建一个结构化数据抓取组件并直接打开抓取窗口。

2. 也可在组件中直接输入关键字新建组件,新建后也将直接打开抓取窗口

3.2 抓取窗口说明
1. 工具栏:包括保存并返回设计器按钮、重新拾取按钮、拾取数据、拾取翻页和获取URL按钮。
a. 保存并返回设计器:拾取完成后,保存拾取设置并返回到设计器。
b. 重新拾取:清空已拾取到的所有数据列和数据列设置,可重新进行拾取。
c. 拾取数据:抓取窗口打开后,点击此按钮进入拾取状态,开始进行数据的拾取。
进入拾取状态后,按钮会变为完成拾取状态。从点击拾取数据开始拾取数据到点击完成拾取结束拾取的过程中,是将一系列要提取为列的类似元素拾取为一个数据列;在点击第一个元素后,可继续点击其他类似元素进行更精确的拾取优化。
完成一列的拾取后,可继续点击拾取数据进行其他数据列的拾取,拾取不同列时,不同列之间应该存在对应的关系,比如拾取金蝶社区中帖子,先将帖子的标题拾取为一列,然后将帖子的内容拾取为一列,一个标题对应一个内容,所以这两列能够形成一个有对应关系的表格数据。
d. 拾取翻页:若目标数据跨页,则可通过拾取翻页按钮进行多页拾取。
e. 获取URL:获取数据列的同时会将对应的URL获取,URL会另形成一个数据列。此按钮默认为关闭状态。
2. Tips:操作提示,可按照此处步骤进行数据的拾取。

3. 数据列设置:可以查看已获取到的所有数据列、对已获取的数据列进行重命名、隐藏、设置、删除等操作。

a. 重命名:若抓取的数据为非表格数据,则默认列名为ColumnX;双击数据列可以直接对数据列进行重命名;也可以在列设置中的条件模式中进行修改。列名不得超过20个中文字符。
b. 隐藏:点击隐藏后,此数据列只在数据列部分能够看到,在预览和最终抓取结果中都没有此列。
c. 设置:点击后弹出数据列设置窗口;数据列设置窗口包括条件模式、数据解析类型和示例预览等。

条件模式:即数据列名称。
数据解析类型:可以设置数据列的最终保存类型,默认为文本类型,可下拉选择文本、数字、日期与时间;
示例:数据的最终保存样式。
注:
(1) 选择数字后,可进一步选择int或者float两种数字类型;
(2) 选择日期与时间后,可进一步选择数据列的日期格式,也可以手动输入解析格式;若解析格式和数据列格式相匹配,保存后返回的结果将是标准化格式的日期与时间。
(3)数据解析类型需和数据列的数据类型相匹配,否则无法成功解析。
例:想要将图中所示的日期
保存为标准格式的日期与时间,在拾取完此列后,首先选择将数据解析为日期与时间格式,之后选择与拾取的数据列一致的日期格式,若能够解析成功,点击保存即可将目标数据列保存为日期与时间。

d. 删除:删除此数据列。
1. 数据行设置:可以设置需要获取的数据行的数量上限.有两种模式:提取最大行数和最大页数;选择模式后可在文本域中填写具体的数量。

“提取最大行数”:以行数为单位进行拾取。
“最
结构化数据抓取
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。




