System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 交互式文档结构化信息提取方法、装置、电子设备及存储介质制造方法及图纸_技高网

交互式文档结构化信息提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:43683648 阅读:15 留言:0更新日期:2024-12-18 21:04
本发明专利技术公开了一种交互式文档结构化信息提取方法、装置、电子设备及存储介质,具体涉及文档处理领域,包括:识别文档,获取文档版式;将文档版式与知识库存储的样本版式进行匹配,选择匹配版式并执行对应任务指令提取文档结构化信息;用户对提取结果进行纠错;输出准确结果并验证提取结果与准确结果的一致性;依据准确结果在知识库中查询相似的任务指令,并生成新的任务指令;对文档版式执行新的任务指令得到测试结果,并验证测试结果与准确结果的一致性。本发明专利技术能够动态学习和优化,显著提高信息提取的准确性和鲁棒性,具有强大的即时学习能力和自适应性,降低学习和训练成本。

【技术实现步骤摘要】

本专利技术涉及文档处理与信息提取领域,具体涉及一种交互式文档结构化信息提取方法、装置、电子设备及存储介质


技术介绍

1、近年来,随着人工智能和自然语言处理技术的迅猛发展,文档信息提取技术得到了广泛关注和应用。当前市场上已有多款针对文档信息结构化提取的产品,这些产品主要依赖于机器学习和深度学习算法,结合大数据分析技术,从大量非结构化数据中提取有价值的信息。

2、然而,现有的文档信息提取系统在处理复杂和多样化的文档时,常常难以保持高准确性。特别是对于非标准化格式和包含噪音的数据,现有系统的表现往往不尽如人意。此外,面对新领域或新类型的文档,这些系统可能需要重新训练或大规模调整,导致实际应用中的鲁棒性不足。而且大多数当前的文档信息提取系统依赖于大量的标注数据来进行训练。这种数据依赖性不仅增加了开发和维护成本,还限制了系统在数据匮乏领域的应用。现有的技术和产品获取和标注高质量的数据既费时又费力,特别是对于需要专业知识的领域,这一问题尤为突出,缺乏实时学习和自适应能力。甚至一些基于深度学习的模型通常被视为“黑盒”,难以解释其决策过程和抽取结果的依据,这在某些对可解释性要求较高的场景中可能存在问题。

3、因此,如何提高文档信息提取系统的即时学习能力,如何减少文档信息提取系统学习训练成本等都是现有文档信息提取系统中亟待解决的问题。


技术实现思路

1、本专利技术提供一种交互式文档结构化信息提取方法、装置、电子设备及存储介质,用以提高现有文档信息提取系统的即时学习能力,降低训练成本,提高信息提取的准确性和鲁棒性。

2、为了实现上述目的,本专利技术提供如下技术方案:

3、交互式文档结构化信息提取方法,包括以下步骤:

4、s1:识别文档,获取文档版式,执行s2;

5、s2:将所述文档版式与知识库存储的样本版式进行匹配,选择相似度最高的样板版式为作为文档的匹配版式,并执行对应任务指令提取文档结构化信息得到提取结果,执行s3;

6、s3:用户对所述提取结果进行纠错,得到准确结果,执行s4;

7、s4:输出所述准确结果并验证所述提取结果与所述准确结果的一致性,若不一致,执行s5;

8、s5:依据所述准确结果利用词嵌入查询技术在所述知识库中查询相似的任务指令,并基于相似的任务指令生成新的任务指令,执行s6;

9、s6:对所述文档版式执行s5中所述新的任务指令提取文档结构化信息得到测试结果,并验证所述测试结果与所述准确结果的一致性,若一致,则将所述文档版式及对应任务指令作为新的样本版式和任务指令存储于所述知识库中,执行s2;若不一致,则执行s5。

10、本专利技术还提出了一种交互式文档结构化信息提取装置,包括:

11、文档识别模块,用于识别文档,获取文档版式;

12、知识库,用于储存样本版式及任务指令;

13、版面匹配模块,用于将所述文档版式与所述样本版式进行匹配,选择相似度最高的样板版式为作为文档的匹配版式,并执行对应所述任务指令;

14、结构化信息提取模块,用于执行任务指令提取文档结构化信息得到提取结果;

15、用户交互模块,用于用户对所述提取结果进行纠错,得到并输出准确结果;

16、指令生成模块,用于依据所述准确结果利用词嵌入查询技术在所述知识库中查询相似的任务指令,并基于相似的任务指令生成新的任务指令;

17、测试模块,用于对所述文档版式执行所述指令生成模块生成的新的任务指令提取文档结构化信息得到测试结果;

18、验证模块,用于验证所述提取结果、所述准确结果及所述测试结果的一致性。

19、一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的交互式文档结构化信息提取方法的步骤。

20、一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述的交互式文档结构化信息提取方法的步骤。

21、在上述技术方案中,本专利技术提供的技术效果和优点:

22、1、本专利技术通过版式匹配服务,能够在不同类型的文档中生成精确的任务指令,显著降低了大型语言模型(large language model,llm)的随机性,减少了因幻觉导致的错误输出,确保信息提取的高精度;

23、2、本专利技术基于few-shot学习技术,能够在仅有少量标注数据的情况下迅速学习和适应新任务,减少了对大规模预训练数据的依赖,提高了系统的灵活性和实用性;

24、3、本专利技术能够不断适应新的文档类型和信息提取需求,保持高效准确的信息提取性能,满足多样化和复杂化的实际应用需求,极大提升用户的工作效率,提高数据处理的自动化水平。

本文档来自技高网...

【技术保护点】

1.交互式文档结构化信息提取方法,其特征在于,包括以下步骤:

2.一种交互式文档结构化信息提取装置,其特征在于,包括:

3.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1所述的交互式文档结构化信息提取方法的步骤。

4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1所述的交互式文档结构化信息提取方法的步骤。

【技术特征摘要】

1.交互式文档结构化信息提取方法,其特征在于,包括以下步骤:

2.一种交互式文档结构化信息提取装置,其特征在于,包括:

3.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程...

【专利技术属性】
技术研发人员:梁俊豪
申请(专利权)人:上海文通云软件开发有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1