文档自定义提取(大模型)方案配置

变更记录
| 产品版本 | 更新内容 | 更新日期 |
| V5.0.011 | 初始版本 | 2022年11月 |
| V6.0.0 | 新增了提取的字段,包括付款方式、付款阶段、付款金额、付款比例 | 2023年10月 |
| V6.0.6 | 文档信息提取上传文档的大小限制从最大10M更新为最大支持50M,且文档信息提取支持上传ofd类型的文档。 | 2024年1月 |
| V7.0 | 引入大模型的能力,结合大模型和视觉识别服务,共同构建自定义提取方案,支持用户自主创建方案并个性化自定义配置提取字段(普通字段和表格字段都支持用户自定义),最终同样实现结构化输出。合同类的文档和表单类的文档都支持个性化的提取。 | 2024年10月 |
1 简介
1.1 功能介绍
文档信息提取功能,目前全新升级,已经支持对用户自定义的字段提取,且支持常见的所有版式的文档的提取,比如各种类型的合同、单据、表格文件等,并且文件中的表格字段和非表格字段都支持自定义提取。
本应用目前已经接入大模型的能力,结合了大模型的能力和视觉识别服务版面分析、表格还原、阅读顺序排序等算法能力,可以正确的提取办公场景遇到的各种表格、票据、合同里的关键信息,支持用户修改提取结果并一键导入业务单据,用于自动审查、自动审批、单据合同结构化存储等场景。支持通用合同和通用表单文档的信息提取。
同时本产品也预置了35个合同场景的字段(如甲/乙方、合同编号、签订日期、合同金额等)可供用户选择。1.2 应用场景
表单信息提取:一般为单页的,可能会带有表格的表单或者票据,可以使用此能力自己定义结构化输出的字段,主要应用与财务报销审核场景、检验报告单的审核与入库存储场景、各种自制表格的信息提取场景。
合同信息提取:在合同审阅过程中,可对合作伙伴提供的往来合同进行关键信息提取,以便进行下一步审核、风险管理或电子化归档。将审阅人员从重复劳动中解放出来,降低企业用人成本。
1.3 系统路径
【AI服务云】→【视觉识别服务】→【文档信息提取】
2 主要操作
2.1 使用大模型自定义提取能力的前提:在AI能力中心中配置豆包大模型参数(仅需配置一次,仅使用合同的通用字段提取能力无需配置此项)。
本产品目前仅适配字节跳动豆包大模型,使用者需先开通豆包大模型。
豆包大模型开通流程简介:
登录火山引擎网址:火山引擎-云上增长新动力 (volcengine.com)。进入控制台,开通并找到火山方舟模块,点击进入火山方舟模块。

创建推理节点:

AI能力中心配置流程:(本节内容均在苍穹AI能力中心操作)
(1) 打开苍穹/星瀚服务页面,登录后找到应用-AI能力中心-算法服务,确认【算法服务】中存在编码为DOUBAO_PRO_32K和DOUBAO_PRO_128K的两条数据。如下图,请确保算法服务数据可用,且已审核状态。
(2) 找到AI能力中心-服务实例列表,针对DOUBAO_PRO_32K和DOUBAO_PRO128K两个算法服务分别新建一条算法实例数据。
1)其中实例名称可以自行填写。
2)所属服务需要选择DOUBAO_PRO_32K和DOUBAO_PRO_128K两条数据。
3)为了保证并发,并发数可以填写10,如果想限制并发数,也可以调到3-5。
4)认证方式,选择【APIKEY】。
5)ClientID,SecretKey这两个按顺序填写前面获取到的豆包服务的endpoint id 和ApiKey。ClientID填写endpoint,SecretKey填写ApiKey。32k和128k两个豆包模型各自有各自的endpoint id,两者可共用一个ApiKey。
6)代理用户密钥不填写。
7)协议类型使用默认选项HTTPS
8)主机填写豆包的服务域名ark.cn-beijing.volces.com,端口填写443,上下文地址填写:/api/v3/chat/completions在服务实例列表将上述两条数据勾选并审核即可在视觉识别服务进行大模型提取试用了。
配置好后具体结果如下截图:


2.2 创建并详细配置信息提取方案
在使用文本信息提取能力时,首先需创建一个信息提取方案,并在创建的方案内配置要提取的字段名称及规则,建议同一个场景创建一个提取方案,创建方案时,除了需要填写方案名称外,还需要选择要提取的文档类型,目前可选择“合同文档”和“通用表单文档”,两种文档类型背后的视觉识别服务处理逻辑不同,对于版式复杂(有页眉页脚、目录、双栏版式)的文档,建议选择“合同文档”,对于表格比较多比较复杂的,建议选择“通用表单文档”,以获得最佳解析效果。
选择“合同文档”后,下方将弹出提取字段配置项,此项共有两个勾选项,“通用提取字段”和“大模型自定义提取字段”,可两者一起勾选也可单独勾选其中一项。“通用提取字段”勾选后将使用小模型提取合同场景常见的35个字段,甲/乙方、合同编号、签订日期、合同金额等。“大模型自定义提取字段”勾选后将弹出配置项,可在配置项内详细定义要提取的字段。

2.3 填写大模型自定义提取配置项:
要提取的字段分为两类,普通字段和列表字段,普通字段指一个key值对应一个value的字段,比如想要提取出:“甲方:张三”,则把“甲方”配置到普通字段的“字段名称”中即可。比如想提取出“商品名称”、“商品价格”、"商品数量"等商品表中的字段,把“商品名称”、“商品价格”、"商品数量"分别配置到一个列表中的“字段名称”中即可。
此版本普通字段最多添加70个,最多支持添加5个列表,每个列表最多支持添加25个字段。
(1)必填项1:文档内容描述,主要描述您需要提取的文档是什么,让大模型能够更好的理解您的文档并精准提取,以下是一些简单示例:
例1:这是一个代理商和零售商之间的货物采购合同。
例2:这是一篇业务员和客户对话的文档,其中角色1是业务员,角色2是客户。
例3:这是一本企业家张三的自传书籍。
例4:这是集团高层形成的标准会议纪要。
除了文档描述内容为必填项,还需要配置具体要提取的表格字段和非表格字段,两种类型的字段至少配置一类字段即可成功保存方案。要提取普通K-V字段(非表格字段)时,一个方案普通字段最多可添加70个。
(2)必填项2:字段名称,需要清楚准确的描述您要提取的字段名称,比如“甲方”、“付款金额”等,在将提取字段和业务单据对象做关联映射时,此字段也将作为标识与业务单据的字段进行关联映射,做完关联映射后,将以映射后业务单据中的字段作为key值输出。未将此字段与苍穹环境的业务单据做关联映射时,信息提取结果接口中此字段也将作为输出结果中的key值输出。
(3)必填项3:字段类型,主要为了规定大模型输出结果所设计,目前字段类型枚举值为:通用文本、数字、百分数、日期,数字、百分比、日期这三类不满足提取字段的输出要求时,选择通用文本即可,然后在后边的非必填项“输出结果要求”中详细描述提取要求即可。一般简单的提取,只需填写必填项即可完成提取,方案配置者在方案配置完成后可以点击“测试”按钮上传要提取的文档进行测试效果,如果提取效果不好,则可以返回方案在非必填项中补充或优化“字段描述与提取要求”或“输出结果要求”,从而可以优化提取结果。
(4)非必填项1:字段描述与提取要求,主要用来补充说明你要提取的字段的意思,
一个简单判断此字段是否要填写的方案:若有些字段,正常人理解起来有困难或者可能有歧义,那大模型大概率也会理解的有歧义,那就需要在此项用正常人可以理解的话术描述。假设从合同中提取“甲方联系人”“乙方银行账号”这种很容易理解的字段,无需填写此字段,一般来说就可以实现正确提取。或者说一开始不填写此字段将方案配置完成,然后点击测试按钮上传真实文档进行提取,针对提取结果不准确的文档再尝试维护此字段即可。具体怎么填写:一般遵循的填写思路是先用白话描述提取要求,若解释不太清楚可以尽可能多的给出你要提取结果的示例。
提取示例1:假设提取下图网约车行程单中“合计金额”字段时,最开始可以先不描述此字段的提取要求,在测试时发现有的行程单无法提取出来合计金额字段时,再基于合计金额字段进行描述,一种可能的描述是:指的是此行程总金额,常见形式为合计X元,X即为总金额,请把X输出。
提取示例2:比如要让大模型从用户访谈记录文档中总结“用户标签”这个字段,正常人对于用户标签的定义可能不统一不一致,所以需要再此页面详细描述下你想让大模型提取什么类型的用户标签,并给出一些提取示例,这样大模型可以更好地理解您的要求并输出。对于提取“用户标签”这个字段,一种可能的示例如下:请根据原文档内容总结客户可赋予哪个类型的用户画像标签(提取要求),标签举例:“高合作意向”、”态度积极”、“期望下次合作”、“合作意向不高”(提取字段内容举例),请注意这些标签只是示例,请你帮我总结其他可以作为客户用户画像标签的标签(特殊注意事项说明)。
(5)非必填项2:输出结果要求。如果您想提取的字段有特殊格式要求,通过选择“字段类型”没办法固定输出样式时,可以在此用语言描述输出格式,或者给出输出结果的示例。
示例1:仅输出金额值,不要带$¥等符号也不要带“元”等单位,输出示例:300。
示例2:输出日期+时间,输出示例:2022-02-02 20:22:22
此字段为非必填字段,一般来说,无特殊输出要求的纯文字的提取内容无需描述,或者也可以先不填写此字段,在方案配置好后上传文档进行测试,根据测试结果判断哪个字段需要增加此字段的描述。
(6)要提取表格字段时,点击“字段列表”左上角新增列表按钮,可添加一个表格,目前最多支持添加5个表格,每个表格最多支持添加25个字段。每个表格字段在配置提取字段时,配置方案中的必填字段与非必填字段与普通字段一致。
2.4 测试提取效果:
方案配置完成后,可在方案配置页或者方案列表页点击“测试”按钮,测试本次描述的提取效果,然后针对提取效果不好的字段进行修改“字段描述与提取要求”和“输出结果要求”,然后再次进行测试,当测试发现某些字段不准时,可参考下方给的案例修改方案内的配置信息,最终使此方案达到稳定输出状态。经过多次尝试仍提取不准,可联系李炳琪老师一对一指导分析。
测试发现大模型提取的字段不准时,应该怎么办?当某个字段提取的不准时,可能是您“字段描述与提取要求”和“输出结果要求”填写的规则不够全面,也可能是文档本身存在|等字符对于识别产生干扰。
典型案例1:网约车行程单提取场景中,很多平台的网约车行程单
文档自定义提取(大模型)方案配置
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。



