复杂文档解析-用于大模型问答场景

变更记录
产品版本(季度版本号/patch补丁号) | 更新内容 | 更新日期 |
| V6.0.12 | 初始版本 | 2024年5月 |
V7.0 | 表格支持选择按照markdown格式输出,从而使得大模型能正确对于表格内容进行精准回答。 | 2024年10月 |
1 简介
1.1 功能介绍
混合复杂文档解析能力,主要通过版面检测算法、表格还原算法、OCR识别技术来帮助用户读取和识别复杂文档,当使用者文档里既含有表格,也含有图片或者图片类的文字、分栏、目录、页眉页脚等形式时,使用者可通过此能力将文档中版面内的各个模块识别出来并按顺序组合输出。使用者可以根据自己的需要快速筛选出要使用的格式类型,根据自身需求进行后续处理。同时,对于文档里的图片,此能力不仅能将其中的文字提取出来,还会提供原图片和提取文字的对应关系,方便某些检索场景下使用者能够通过检索出图片文字而快速查找出对应的图片。
此能力作为一个基础能力,是将传统的通用文字识别(OCR)、通用表格识别、版面分析能力结合在一起构建的综合性基础能力,此能力可以帮助使用者快速还原各种场景下的复杂文档结构,尤其是各种扫描版的文件、图片类不可解析的文档、各类双栏形式带图表的论文,都可通过本能力快速还原文档的结构和顺序,使得使用者能够准确的处理不区分类型的各类文档。
1.2 应用场景
在文档处理场景内,可能遇到各种各样不同版式的文档,此能力作为一个通用能力,无论上传的是论文、是知识文档、是图片、是企业各种类型的表格和单据,都能统一使用此能力清晰的解析出文档结构和段落顺序,并把其中的文字信息识别解析出来,从而可以使得使用者能够清晰的进行后续的文档理解、文档提取等操作。
在知识库入库场景内,可以应用此能力快速解析不同形式、不同版式的文档,可以将双栏的文档还原成正确的阅读顺序,也可以将表格类文档、图片类文档解析成正确的形式,最终作为完整正确的知识入库。
文本信息提取、文档差异比对场景内,可以应用此能力快速提取不同形式、不同版式的文档内容,从而可以进行后续的文本信息提取或文档差异比对的内容。
1.3 系统路径
目前暂未开放前端入口,仅提供Open API和微服务的能力。
2 功能详述
2.1 能力说明
目前此能力暂未开放前端体验页面,仅开放Open API和微服务能力,调用计费按照每页计1次计费。
接口调用时,按照接口要求传入对应参数及要识别的文档,入参支持文档格式:pdf、doc、docx、wps、bmp、jpg、jpeg、png、ofd,文件大小不超过50M、页数不超过500页。
在解析文档中的表格(尤其是图片类的表格)时,此能力可能需要一定时间处理它,恢复它的表格结构,若文档中这种表格过多,实际又不需要从这些表格中提取关键信息时,可以在入参“复杂文档提取创建接口-是否提取表格”,选择“否”,此时遇到表格时,我们将把它当成普通文字处理,从而加快处理速度。
在大模型应用场景,常常需要把表格转换成markdown格式的文件,这样大模型才能正确理解表格结构并进行问答,因此
在“复杂文档提取创建接口-是否提取表格”传入“是”时,可继续选择表格输出结构是否是markdown格式,从而更好的进行大模型问答任务。
若文档中含有图片(特指看起来是图片的图像,而非扫描件等图片格式的文档)时,若无需将这类图片中的文字提取出来,也可在“复杂文档提取创建接口-是否提取文档中图片里的文字项”传
复杂文档解析-用于大模型问答场景
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。



