System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种问答对生成方法、装置、设备及介质制造方法及图纸_技高网

一种问答对生成方法、装置、设备及介质制造方法及图纸

技术编号:43215476 阅读:5 留言:0更新日期:2024-11-05 17:09
本申请涉及自然语言处理领域,具体涉及一种问答对生成方法、装置、设备及介质,用于快速地生成文档对应的高质量的问答对。该方法包括:获取目标文档,并基于目标文档中的多条目录信息,确定目标文档的目标文档类型;针对任意一条目录信息,对任意一条目录信息进行依存分析,得到至少一个要素信息,并基于每个要素信息,确定任意一条目录信息对应的要素类型组;基于任意一条目录信息对应的要素信息和要素类型组,从目标文档类型对应的多个问题模板中确定第一问题模板;基于第一问题模板、要素信息和要素类型组生成任意一条目录信息对应的第一问题,并基于任意一条目录信息对应的段落内容和第一问题,生成任意一条目录信息对应的第一答案。

【技术实现步骤摘要】

本申请涉及自然语言处理领域,具体涉及一种问答对生成方法、装置、设备及介质


技术介绍

1、随着企业规模的扩大和文档数量的累积,传统的文档管理方式已经无法满足快速变化的需求,当用户需要查询某个文档的某个知识点、政策、流程、说明等内容时,通常需要通过搜索查询相关的文档列表,再阅读每个文档查找想要的内容。这个过程不但查询到的待候选文档列表繁多,阅读难度大,用户检索信息需要耗费大量的时间成本,影响了企业传达信息的时效性,而且检索定位文档又无法做到精准,不精准的推荐还可能带来误导。

2、目前,每个文档通常生成大量的问答对,用户只需要输入关键词就可以通过系统查到找相关的问答对,点击问答对可以快速匹配和定位到答案所处文档的位置。因此,问答对的质量会影响用户的体验感。现有技术中,一般通过以下两种方法生成文档的问答对,第一种是人工方式,比如,依靠数量众多的技术人员整理收集各种文档中的问答对,但是,此种方法效率较低,并且受限于技术人员的相关经验,若技术人员的相关经验较低,则影响生成的问答对的质量。第二种方法是利用基于模型的问答对生成(question answergeneration,qag)方法生成文档的问答对,但是,此种方法需要标注大量的问答对,计算资源消耗较大。

3、因此,如何快速地生成文档对应的高质量的问答对,是目前亟待解决的问题。


技术实现思路

1、本申请实施例提供一种问答对生成方法、装置、设备及介质,用于快速地生成文档对应的高质量的问答对。

2、第一方面,本申请提供一种问答对生成方法,所述方法包括:

3、获取目标文档,并基于所述目标文档中的多条目录信息,确定所述目标文档的目标文档类型;

4、针对任意一条目录信息,对所述任意一条目录信息进行依存分析,得到至少一个要素信息,并基于每个要素信息,确定所述任意一条目录信息对应的要素类型组,其中,所述要素类型组包括每个要素信息所属的要素信息集对应的要素类型;

5、基于所述任意一条目录信息对应的要素信息和所述要素类型组,从所述目标文档类型对应的多个问题模板中确定第一问题模板;

6、基于所述第一问题模板、所述要素信息和所述要素类型组生成所述任意一条目录信息对应的第一问题,并基于所述任意一条目录信息对应的段落内容和所述第一问题,生成所述任意一条目录信息对应的第一答案。

7、在本申请实施例中,获取目标文档,并基于目标文档中的多条目录信息,确定目标文档的目标文档类型,无需技术人员人工进行判断,提高了确定的文档的文档类型的准确性。针对任意一条目录信息,本申请对任意一条目录信息进行依存分析,得到至少一个要素信息,基于每个要素信息所属的要素信息集对应的要素类型,确定任意一条目录信息对应的要素类型组,基于任意一条目录信息对应的要素信息和要素类型组,从目标文档类型对应的多个问题模板中确定第一问题模板,即本申请通过目录信息对应的要素信息和要素类型组,以及自定义的各要素信息、各要素类型组和各问题模板的对应关系,从目标文档类型对应的多个问题模板中确定第一问题模板。并且,本申请基于第一问题模板、要素信息和要素类型组生成任意一条目录信息对应的第一问题,基于任意一条目录信息对应的段落内容和第一问题,生成任意一条目录信息对应的第一答案,无需技术人员人工整理收集各种文档中的问答对,也无需标注大量的问答对以训练模型,简化了目录信息对应的问答对的生成过程,提高了问答对的生成效率。因此,本申请能够快速地生成文档对应的高质量的问答对。

8、在一种可能的实施例中,所述基于所述目标文档中的多条目录信息,确定所述目标文档的目标文档类型,包括:

9、针对任意一条目录信息,对所述任意一条目录信息进行命名实体识别,得到所述任意一条目录信息的业务主体;

10、对所述任意一条目录信息进行分词处理,得到所述任意一条目录信息的分词结果,并从所述分词结果中剔除所述业务主体和预设的停用信息,得到所述任意一条目录信息的指示信息,其中,所述停用信息为不影响生成目录信息的问答对的信息;

11、基于每条目录信息的指示信息和每个指示信息在所述多条目录信息中的出现次数,得到所述目标文档的目标目录特征向量;

12、将所述目标目录特征向量分别与预设的多个目录特征向量进行匹配,确定匹配的目录特征向量,并将所述匹配的目录特征向量对应的文档类型作为所述目标文档的目标文档类型,其中,每个目录特征向量对应一个文档类型。

13、在本申请实施例中,对任意一条目录信息进行分词处理,得到任意一条目录信息的分词结果,并从分词结果中剔除业务主体和预设的停用信息,得到任意一条目录信息的指示信息,以表征任意一条目录信息中没有业务含义但具备“指示”的词语。本申请基于每条目录信息的指示信息和每个指示信息在多条目录信息中的出现次数,得到目标文档的目标目录特征向量,以表征目标文档的规范、结构等方面的特征。并且,本申请将目标目录特征向量分别与预设的多个目录特征向量进行匹配,确定匹配的目录特征向量,并将匹配的目录特征向量对应的文档类型作为目标文档的目标文档类型,其中,每个目录特征向量对应一个文档类型,无需技术人员人工进行判断,提高了确定的文档的文档类型的准确性。

14、在一种可能的实施例中,所述对所述任意一条目录信息进行依存分析,得到至少一个要素信息,包括:

15、对所述任意一条目录信息进行依存分析,得到所述任意一条目录信息中各词语之间的依存关系;

16、基于所述任意一条目录信息中各词语之间的依存关系,从所述任意一条目录信息中提取至少一个要素信息。

17、在本申请实施例中,通过对目录信息进行依存分析,得到目录信息中各词语之间的依存关系,并基于各词语之间的依存关系,从目录信息中提取至少一个要素信息,从而提高了从目录信息中提取的要素信息的准确性。

18、在一种可能的实施例中,所述目标文档包括多条文档语句;所述确定所述目标文档的目标文档类型之后,还包括:

19、针对任意一条文档语句,对所述任意一条文档语句进行语义角色标注,得到所述任意一条文档语句中每个词语的语义角色类型;

20、基于所述每个词语的语义角色类型,从所述目标文档类型对应的多个问题模板中确定第二问题模板;

21、基于所述第二问题模板、所述每个词语的语义角色类型和所述文档语句,生成所述任意一条文档语句对应的第二问题,并基于所述每个词语的语义角色类型、所述文档语句和所述第二问题,生成所述任意一条文档语句对应的第二答案。

22、在本申请实施例中,对任意一条文档语句进行语义角色标注,得到任意一条文档语句中每个词语的语义角色类型,基于每个词语的语义角色类型,从目标文档类型对应的多个问题模板中确定第二问题模板,即本申请通过每个词语的语义角色类型,以及自定义的各语义角色类型和各问题模板的对应关系,从目标文档类型对应的多个问题模板中确定第二问题模板。并且,本申请基于第二问题模板、每个词语本文档来自技高网...

【技术保护点】

1.一种问答对生成方法,其特征在于,该方法包括:

2.如权利要求1所述的方法,其特征在于,所述基于所述目标文档中的多条目录信息,确定所述目标文档的目标文档类型,包括:

3.如权利要求1所述的方法,其特征在于,所述对所述任意一条目录信息进行依存分析,得到至少一个要素信息,包括:

4.如权利要求1所述的方法,其特征在于,所述目标文档包括多条文档语句;所述确定所述目标文档的目标文档类型之后,还包括:

5.如权利要求4所述的方法,其特征在于,所述方法还包括:

6.如权利要求5所述的方法,其特征在于,所述过滤规则包括以下的部分或全部:

7.一种问答对生成装置,其特征在于,该装置包括:

8.如权利要求7所述的装置,其特征在于,所述获取模块用于:

9.如权利要求7所述的装置,其特征在于,所述第一确定模块用于:

10.如权利要求7所述的装置,其特征在于,所述目标文档包括多条文档语句;所述确定所述目标文档的目标文档类型之后,所述获取模块还用于:

11.如权利要求10所述的装置,其特征在于,所述装置还包括:

12.如权利要求11所述的装置,其特征在于,所述过滤模块用于基于以下的部分或全部过滤规则,对所述目标文档对应的问答对集合进行过滤:

13.一种电子设备,其特征在于,包括:

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行如权利要求1-6中任一项所述的方法。

15.一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述如权利要求1-6中任一项所述的方法。

...

【技术特征摘要】

1.一种问答对生成方法,其特征在于,该方法包括:

2.如权利要求1所述的方法,其特征在于,所述基于所述目标文档中的多条目录信息,确定所述目标文档的目标文档类型,包括:

3.如权利要求1所述的方法,其特征在于,所述对所述任意一条目录信息进行依存分析,得到至少一个要素信息,包括:

4.如权利要求1所述的方法,其特征在于,所述目标文档包括多条文档语句;所述确定所述目标文档的目标文档类型之后,还包括:

5.如权利要求4所述的方法,其特征在于,所述方法还包括:

6.如权利要求5所述的方法,其特征在于,所述过滤规则包括以下的部分或全部:

7.一种问答对生成装置,其特征在于,该装置包括:

8.如权利要求7所述的装置,其特征在于,所述获取模块用于:

9.如权利要求7所述的装置,其特征在于,所述第一确定模块用于:

【专利技术属性】
技术研发人员:刘峻杉李斌谢鸣晓谷利峰张海霞
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1