System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向文档的知识问答方法、装置、设备及介质制造方法及图纸_技高网

一种面向文档的知识问答方法、装置、设备及介质制造方法及图纸

技术编号:40829229 阅读:10 留言:0更新日期:2024-04-01 14:51
本申请提供了一种面向文档的知识问答方法、装置、设备及介质,该方法包括:首先,根据预设规则对目标文档进行切片处理,得到语段并向量化为第一向量。然后,对查询语句进行向量化处理得到第二向量。系统从第一向量中筛选出与第二向量相似度高的目标向量,提取其中的目标特征,这些特征携带了与查询的关联度信息。最后,将目标特征输入文本生成模型,生成与查询相关的回答。本申请能够更深入地捕捉和利用语义关系信息,提高在长度限制下问答系统的准确性和效率。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种面向文档的知识问答方法、装置、设备及介质


技术介绍

1、智能问答系统是人工智能和自然语言处理领域的重要研究方向,其中,面向常用问题集(faq)的检索型问答系统是最广泛使用的一种类型。这类系统的核心任务是相似问句语义匹配,即根据用户提交的问题与faq库中的标准问题进行语义相似度测量。

2、传统的文本匹配方法,如bm25、向量空间模型vsm等,主要解决字面相似度问题,但由于中文含义的丰富性,这些方法往往难以准确测量句子之间的语义相似度。因此,衡量句子语义相似度的基础是生成有效的句向量,将相似的问题映射到高维度的语义空间中,然后通过度量方法如余弦相似度来定义他们的相似性。

3、在面向文档的知识问答应用中,基于向量相似度计算进行语义检索,然后结合生成式大模型的问答系统一般存在以下几个问题:由于公文文档数量庞大且内容相似度很高,因此进行相似度计算时准确度不高;公文文档按字数切片,进行向量嵌入时候会破坏文档结构,从而影响后续知识召回精度;文本生成大模型虽然具有语义理解出众和灵活的回复能力,但是对于需要领域知识的场景,回复不稳定、错误率高,同时受到长度(token)限制。


技术实现思路

1、有鉴于此,本申请实施例提供了一种面向文档的知识问答方法、装置、设备及介质,能够通过更深入地捕捉和利用语义关系信息,提高在长度限制下问答系统的准确性和效率。

2、本申请实施例的技术方案是这样实现的:

3、第一方面,本申请实施例提供一种面向文档的知识问答方法,所述方法包括:

4、响应针对目标文档的输入操作,基于预设的切片规则对所述目标文档进行切片处理,得到至少一个语段,并对所述至少一个语段中每个语段进行第一向量化处理,得到至少一个第一向量;

5、响应针对所述目标文档的查询操作,对查询语句进行第二向量化处理,得到所述查询语句对应的第二向量;

6、从所述至少一个第一向量中获取与所述第二向量的相似度大于相似度阈值的至少一个目标向量,基于所述第二向量从所述至少一个目标向量中提取目标特征,并将所述目标特征输入文本生成模型,以使所述文本生成模型对所述查询语句进行回答,其中,所述目标特征携带有关联度信息,所述关联度信息表征所述目标特征与所述查询语句的关联度。

7、第二方面,本申请实施例还提供一种面向文档的知识问答装置,所述装置包括:

8、切片模块,用于响应针对目标文档的输入操作,基于预设的切片规则对所述目标文档进行切片处理,得到至少一个语段,并对所述至少一个语段中每个语段进行第一向量化处理,得到至少一个第一向量;

9、处理模块,用于响应针对所述目标文档的查询操作,对查询语句进行第二向量化处理,得到所述查询语句对应的第二向量;

10、回答模块,用于从所述至少一个第一向量中获取与所述第二向量的相似度大于相似度阈值的至少一个目标向量,基于所述第二向量从所述至少一个目标向量中提取目标特征,并将所述目标特征输入文本生成模型,以使所述文本生成模型对所述查询语句进行回答,其中,所述目标特征携带有关联度信息,所述关联度信息表征所述目标特征与所述查询语句的关联度。

11、第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行第一方面任一项所述的面向文档的知识问答方法。

12、第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行第一方面任一项所述的面向文档的知识问答方法。

13、本申请实施例具有以下有益效果:

14、通过切片处理和向量化处理的运用,使得系统能更精细地理解文档内容,同时提取出关键信息。在查询操作中,通过相似度计算和特征提取,系统能够精准地找出与查询语句高度相关的信息,从而为用户提供更为精准的回答。最后基于文本生成模型的长度限制规则选取回答特征并对查询语句进行回答,能够在限定的文本长度内,为用户提供高度关联和精准的回答确保了查询回答的简洁性和有效性,提升了用户在使用查询系统时的满意度和效率。这种有针对性的回答生成方式,不仅节省了用户筛选信息的时间,还提高了信息获取的准确性和可靠性。

本文档来自技高网...

【技术保护点】

1.一种面向文档的知识问答方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第一向量化处理和所述第二向量化处理所使用的语义模型相同。

3.根据权利要求1所述的方法,其特征在于,所述将所述目标特征输入文本生成模型,以使所述文本生成模型对所述查询语句进行回答,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于预设的切片规则对所述目标文档进行切片处理,得到至少一个语段,包括:

5.根据权利要求4所述的方法,其特征在于,所述对所述至少一个语段中每个语段进行第一向量化处理,得到至少一个第一向量,包括:

6.根据权利要求4所述的方法,其特征在于,所述基于所述第二向量从所述至少一个目标向量中提取目标特征,包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述文档库中的每个文档包括一领域标签,所述方法还包括:

9.根据权利要求1所述的方法,其特征在于,所述方法还包括:

10.一种面向文档的知识问答装置,其特征在于,所述装置包括:

11.根据权利要求10所述的装置,其特征在于,所述装置还包括:

12.根据权利要求10所述的装置,其特征在于,所述切片模块包括:

13.根据权利要求12所述的装置,其特征在于,所述处理模块包括:

14.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至9任一项所述的面向文档的知识问答方法。

15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至9任一项所述的面向文档的知识问答方法。

...

【技术特征摘要】

1.一种面向文档的知识问答方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第一向量化处理和所述第二向量化处理所使用的语义模型相同。

3.根据权利要求1所述的方法,其特征在于,所述将所述目标特征输入文本生成模型,以使所述文本生成模型对所述查询语句进行回答,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于预设的切片规则对所述目标文档进行切片处理,得到至少一个语段,包括:

5.根据权利要求4所述的方法,其特征在于,所述对所述至少一个语段中每个语段进行第一向量化处理,得到至少一个第一向量,包括:

6.根据权利要求4所述的方法,其特征在于,所述基于所述第二向量从所述至少一个目标向量中提取目标特征,包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述文档库中的每个文档包括一领...

【专利技术属性】
技术研发人员:梁健辉罗歆昱
申请(专利权)人:暗物质北京智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1