System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文档处理方法、文档问答优化方法、电子设备及存储介质技术_技高网

文档处理方法、文档问答优化方法、电子设备及存储介质技术

技术编号:44531614 阅读:4 留言:0更新日期:2025-03-07 13:20
本发明专利技术的实施例提供了一种文档处理方法、文档问答优化方法、电子设备及存储介质,涉及自然语言处理技术领域。通过将经过预处理的文档篇章数据的篇章编码序列输入大语言模型,计算大语言模型的各网络层的第一键向量序列以及第一值向量序列,将每一组第一键向量序列以及第一值向量序列作为文档篇章数据的一个中间注意值,计算出每个中间注意值的权重得分,根据各权重得分的大小,剔除预设比例的中间注意值,将保留的各中间注意值作为文档篇章数据的紧凑注意力表示。从而可以在用户提问时,根据紧凑注意力表示生成回答文本,可以提高大语言模型的计算效率,进而显著提升问答过程的速度和效率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体而言,涉及一种文档处理方法、文档问答优化方法、电子设备及存储介质


技术介绍

1、文档问答(document question answering,docqa)是一种自然语言处理技术,它允许用户以自然语言形式提出关于特定文档或文档集合的问题,并从这些文档中自动检索相关信息以形成答案。

2、近年来,随着深度学习技术的发展,特别是大规模预训练模型的应用,文档问答系统的性能得到了显著提升。这些模型通过在大量文本数据上进行预训练,能够学习到丰富的语义表示能力,从而更好地理解文档内容及用户提问之间的关系。

3、但是,相关技术中,在处理长文档时,大语言模型需要对整个文档进行编码,这大大增加了计算复杂度,从而导致基于大语言模型的文档问答的计算成本非常高。


技术实现思路

1、有鉴于此,本专利技术实施例的目的在于,提供一种文档处理方法、文档问答优化方法、电子设备及存储介质以至少部分地改善上述问题。

2、为了实现上述目的,本专利技术实施例采用的技术方案如下:

3、第一方面,本专利技术实施例提供了一种文档处理方法,所述方法包括:

4、将经过预处理的文档篇章数据的篇章编码序列输入大语言模型,计算所述大语言模型的各网络层的第一键向量序列以及第一值向量序列,将每一组所述第一键向量序列以及所述第一值向量序列作为所述文档篇章数据的一个中间注意值;

5、计算出每个所述中间注意值的权重得分,根据各所述权重得分的大小,剔除预设比例的所述中间注意值,将保留的各所述中间注意值作为所述文档篇章数据的紧凑注意力表示。

6、可选地,所述文档篇章数据还包括候选问题集,所述候选问题集包括至少一个候选问题,所述计算出每个所述中间注意值的权重得分,根据各所述权重得分的大小,剔除预设比例的所述中间注意值,将保留的各所述中间注意值作为所述文档篇章数据的紧凑注意力表示,包括:

7、从所述候选问题集中选取至少一个所述候选问题作为目标问题;

8、将各所述目标问题拼接成目标问题文本;

9、对所述目标问题文本进行分词编码,得到目标问题文本编码序列;

10、将所述目标问题文本编码序列以及各所述中间注意值输入所述大语言模型中,计算出各所述中间注意值的注意力权重;

11、根据各所述注意力权重,计算出各所述中间注意值的权重得分,并基于各所述权重得分剔除预设比例的所述中间注意值,将保留的各所述中间注意值作为所述文档篇章数据的紧凑注意力表示。

12、可选地,所述将所述目标问题文本编码序列以及各所述中间注意值输入所述大语言模型中,计算出各所述中间注意值的注意力权重,包括:

13、将所述目标问题文本编码序列输入所述大语言模型的嵌入网络,计算出输入向量序列;

14、将所述输入向量序列输入所述大语言模型的第一层所述网络层,计算出第二查询向量序列、第二键向量序列和第二值向量序列;

15、将第一层所述网络层的所述第一键向量序列和所述第二键向量序列拼接、所述第一值向量序列和所述第二值向量序列拼接,得到拼接键向量序列和拼接值向量序列;

16、根据所述第二查询向量序列、所述拼接键向量序列和所述拼接值向量序列,计算出第一层所述网络层的注意力权重以及下一层所述网络层的输入向量序列;

17、重复执行所述将所述输入向量序列输入所述大语言模型的第一层所述网络层,计算出第二查询向量序列、第二键向量序列和第二值向量序列的步骤,至所述根据所述第二查询向量序列、所述拼接键向量序列和所述拼接值向量序列,计算出第一层所述网络层的注意力权重以及下一层所述网络层的输入向量序列的步骤,得到每层所述网络层的所述注意力权重。

18、可选地,所述根据各所述注意力权重,计算出各所述中间注意值的权重得分,并基于各所述权重得分剔除预设比例的所述中间注意值,将保留的各所述中间注意值作为所述文档篇章数据的紧凑注意力表示,包括:

19、通过权重得分公式计算出各所述中间注意值的权重得分;

20、分别对每层所述网络层的所述中间注意值的所述权重得分进行比较,对于每层所述网络层,保留自身预设比例的所述权重得分高的所述中间注意值;

21、将保留的各所述中间注意值作为所述文档篇章数据的紧凑注意力表示。

22、可选地,在所述将经过预处理的文档篇章数据的篇章编码序列输入大语言模型,计算所述大语言模型的各网络层的第一键向量序列以及第一值向量序列,将每一组所述第一键向量序列以及所述第一值向量序列作为所述文档篇章数据的一个中间注意值的步骤之前,所述方法还包括:

23、将第一预设数量的文档分别进行分词编码,并分割成多个文档篇章数据;所述文档篇章数据包括篇章编码序列;

24、获取第二预设数量的高频问题,并根据每篇所述文档的内容,对各所述高频问题进行修改,得到第一预设数量乘以第二预设数量的候选问题;

25、将各所述候选问题关联至对应的各所述文档篇章数据中,得到各所述文档篇章数据的候选问题集。

26、可选地,所述方法还包括:

27、在所述文档篇章数据没有关联的所述候选问题的情况下,向所述文档篇章数据添加至少一个概括性指令问题。

28、第二方面,本专利技术实施例提供了一种文档问答优化方法,所述方法包括:

29、通过如上述任一项所述的文档处理方法对各文档进行处理,得到多个文档篇章数据;所述文档篇章数据包括文档篇章内容以及紧凑注意力表示,所述紧凑注意力表示包括多个第一键向量序列以及多个第一值向量序列;

30、计算出用户问题的问题语义向量以及各所述文档篇章数据的内容的内容语义向量;

31、计算所述问题语义向量与各所述内容语义向量的相似度,找出相似度最高的所述文档篇章数据作为目标文档篇章数据;

32、将所述目标文档篇章数据的紧凑注意力表示以及所述用户问题输入大型语言模型中,生成回答文本。

33、可选地,所述将所述目标文档篇章数据的紧凑注意力表示以及所述用户问题输入大型语言模型中,生成回答文本,包括:

34、将所述用户问题分词编码成用户问题编序列;

35、将所述用户问题编序列输入大语言模型的嵌入网络,计算出输入向量序列;

36、将所述输入向量序列输入所述大语言模型的第一层网络层,计算出第二查询向量序列、第二键向量序列和第二值向量序列;

37、将第一层所述网络层的所述第一键向量序列和所述第二键向量序列拼接、所述第一值向量序列和所述第二值向量序列拼接,得到拼接键向量序列和拼接值向量序列;

38、根据所述第二查询向量序列、所述拼接键向量序列和所述拼接值向量序列,计算出第一层所述网络层的注意力权重以及下一层所述网络层的输入向量序列;

39、重复执行所述将所述输入向量序列输入所述大语言模型的第一层网络层,计算出第二查询向本文档来自技高网...

【技术保护点】

1.一种文档处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述文档篇章数据还包括候选问题集,所述候选问题集包括至少一个候选问题,所述计算出每个所述中间注意值的权重得分,根据各所述权重得分的大小,剔除预设比例的所述中间注意值,将保留的各所述中间注意值作为所述文档篇章数据的紧凑注意力表示,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述目标问题文本编码序列以及各所述中间注意值输入所述大语言模型中,计算出各所述中间注意值的注意力权重,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据各所述注意力权重,计算出各所述中间注意值的权重得分,并基于各所述权重得分剔除预设比例的所述中间注意值,将保留的各所述中间注意值作为所述文档篇章数据的紧凑注意力表示,包括:

5.根据权利要求1所述的方法,其特征在于,在所述将经过预处理的文档篇章数据的篇章编码序列输入大语言模型,计算所述大语言模型的各网络层的第一键向量序列以及第一值向量序列,将每一组所述第一键向量序列以及所述第一值向量序列作为所述文档篇章数据的一个中间注意值的步骤之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.一种文档问答优化方法,其特征在于,所述方法包括:

8.根据权利要求7所述的方法,其特征在于,所述将所述目标文档篇章数据的紧凑注意力表示以及所述用户问题输入大型语言模型中,生成回答文本,包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述的文档处理方法或权利要求7或8所述的文档问答优化方法。

10.一种存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至6任一项所述的文档处理方法或权利要求7或8所述的文档问答优化方法。

...

【技术特征摘要】

1.一种文档处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述文档篇章数据还包括候选问题集,所述候选问题集包括至少一个候选问题,所述计算出每个所述中间注意值的权重得分,根据各所述权重得分的大小,剔除预设比例的所述中间注意值,将保留的各所述中间注意值作为所述文档篇章数据的紧凑注意力表示,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述目标问题文本编码序列以及各所述中间注意值输入所述大语言模型中,计算出各所述中间注意值的注意力权重,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据各所述注意力权重,计算出各所述中间注意值的权重得分,并基于各所述权重得分剔除预设比例的所述中间注意值,将保留的各所述中间注意值作为所述文档篇章数据的紧凑注意力表示,包括:

5.根据权利要求1所述的方法,其特征在于,在所述将经过预处理的文档篇章数据的篇章编码序列输入大语言模型,...

【专利技术属性】
技术研发人员:汪自立张越何茂张鑫
申请(专利权)人:成都佳发安泰教育科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1