一种基于知识检索图中文对话知识检索方法及系统技术方案

技术编号：42565185 阅读：22 留言：0更新日期：2024-08-29 00:33

本发明专利技术公开了一种基于知识检索图中文对话知识检索方法及系统，涉及中文对话检索技术领域，包括：将所述知识图谱分割成一级主题层级的子图，将每个所述子图捕获输入知识图谱的主题层级的语义成分，对所述语义成分构建上下文意图识别模型，获取所述语义成分中不同层次的语义信息；将所述语义信息通过子图注意力网络融合主题层级的对话信息，获取所述对话信息的语义结构；采用分类模型对所述训练语料进行权重训练，获取意图分类信息；将所述意图分类信息引入预训练语言模型的词嵌入矩阵与对话任务中的字向量进行融合，获取对话信息，能够关注知识图谱的不同主题成分，提取出与历史对话相关的知识信息，从而生成上下文主题一致的，信息多样性的回复。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及中文对话检索，具体涉及一种基于知识检索图中文对话知识检索方法及系统。

技术介绍

1、人工智能的发展让人们逐渐拥有了更便捷的生活体验，而基于人工智能的人机交互技术则是目前被广泛研究的对象，在提高人机交互体验的必经之路上，如何使用人工智能技术对人类的自然语言进行切实有效的处理成为了如今亟待研究与解决的问题。

2、随着科技的进步与发展，语言成为了人类与机器进行交互的桥梁，其中，通过运用人工智能技术形成的智能对话系统，降低了人同机器交互的门槛，使得人们可以直接利用自然语言，与机器进行信息上的交互，智能对话系统主要分为面向领域的任务型对话系统和开放域的对话系统，任务型对话系统旨在与用户进行对话的过程中完成用户所提问的特定任务，帮助用户解决问题，如阿里小蜜，代替人工客服来回答用户的订单等相关问题，随着对话系统的发展，人们已经不满足于功能单一的人机交互，更期望能与机器人实现信息与情感上的交流与娱乐，因此，中文对话知识检索方法系统应运而生，目前基于知识检索图中文对话知识检索方法还存在以下问题：

3、(1)知识图谱庞大的信息量使得模型很难获取到与对话主题相关的知识信息，导致机器人在沟通过程中存在答非所问的情况；

4、(2)由于多轮对话所含有的长序列历史信息，使得知识检索模型难以提取与整体对话相关的主题信息，未考虑知识图谱的局部主题层级的语义信息，也未将长对话上下文和知识图谱信息有效地融合到对话生成中。

技术实现思路

1、本专利技术的目的在于提供一种基

2、为解决上述技术问题，本专利技术具体提供下述技术方案：

3、本专利技术的第一个方面，提供了一种基于知识检索图中文对话知识检索方法，包括以下步骤：

4、通过连续获取的对话信息定义知识图谱，将所述知识图谱分割成一级主题层级的子图，将每个所述子图输入知识图谱的主题层级中捕获语义成分，对所述语义成分构建基于bert的上下文意图识别模型，获取所述语义成分中不同层次的语义信息；

5、将所述语义信息通过子图注意力网络融合主题层级的对话信息，获取所述对话信息对应的语义结构；

6、结合已有训练语料对所述语义结构进行随机语音识别，获取带有不同语义信息的训练语料，采用分类模型对所述训练语料进行权重训练，获取意图分类信息；

7、将所述意图分类信息引入预训练语言模型的词嵌入矩阵与对话任务中的字向量进行融合，获取对话信息。

8、作为本专利技术的一种优选方案，将所述知识图谱分割成一级主题层级的子图，包括：

9、将连续获取的对话信息根据任务形式分为：当前对话xn＝{x1,x2,…,xm}、历史对话q＝{q1,q2,…,qm}以及全局知识图gn＝{g1,g2,…,gm}，根据所述全局知识图gn将所述知识图谱以一级主题层级进行分级；

10、将所述一级主题层级根据所述全局知识图对应的上下文语义关系构造节点级知识图ng，将所述节点级知识图ng以主题为单位进行分割获取一组子图ngs＝{t1,t2,…,ti,…,tn}，所述ngs中的每个ti代表一个子图；

11、根据当前所述一级主题层的主节点对应子主题节点的数量，将所述主节点当前状态设定为一对多的状态和一对一的状态；

12、所述一对多的状态通过所述主节点对应不同的子主题节点nt，所述一对一的状态通过所述主节点只对应一个子主题节点nd；

13、将所述子主题节点nt以及子主题节点nd结合所述全局知识图gn构成一个子图ti。

14、作为本专利技术的一种优选方案，将每个所述子图捕获输入知识图谱的主题层级的语义成分，包括：

15、对所述子图以主题为单位进行定义，遍历所述节点级知识图ng中的每一个主节点，在遍历过程中记录每一个主节点含有的子节点数量，若所述主节点含有多个子节点，将所述主节点作为一个子主题，将所述子主题作为主题级子图的根节点；

16、以所述根接点构造新的知识图，重新遍历所述节点级知识图ng寻找所有与所述根节点有关系边的节点，将对应节点与所述根节点相连，获取完整知识子图；

17、将所述节点级知识图ng遍历至叶子节点或遍历至下一个有多个子节点的节点时，停止遍历，更新遍历后的所有子节点，将子节点分割为新的主题级子图；

18、将每个所述子图包含的主题级语义进行成分分割，以子图为单位计算相似度，获取一级主题层级的语义成分。

19、作为本专利技术的一种优选方案，对所述语义成分构建基于bert的上下文意图识别模型，获取所述语义成分中不同层次的语义信息，包括：

20、将所述语义成分通过multi-headself-attention模块获取语义文本的增强语义向量，采用attention机制利用所述增强语义向量中重点字的信息去增强目标字的语义表示，所述attention机制表达式为：

21、

22、其中，q表示增强语义向量中的目标字，k表示目标字的上下文各个重点字，o表示目标字的原始值，表示目标字在不同语义中的权重；

23、将所述增强语义向量在不同语义空间中进行线性组合，获取所述目标字q在不同语义空间下的权重参数，根据所述权重参数获取所述语义成分中不同层次的语义信息。

24、作为本专利技术的一种优选方案，将所述语义信息通过子图注意力网络融合主题层级的对话信息，获取所述对话信息对应的语义结构，包括：

25、对所述语义信息构造节点级图nv＝{v,e}，从根节点的第一个元素开始用一条有向边连接下一个元素，获取全局语义有向边，对所述全局语义有向边通过基于注意力的子图注意力网络进行编码，获取上下文对话信息；

26、将所述上下文对话信息合并成一个由m词语组成的段落q1＝{q1j,q2j,…,qmj}，采用双向门控机制从前往后的对所述段落q1中的每一个词语qj计算双向的词嵌入表示，获取历史对话编码rq，其表达式为：

27、

28、其中，fj-1表示通过拼接词语qj获取的双向隐藏状态，e(qj)表示词语qj的词嵌入向量，bigru()表示双向门控机制；

29、根据所述历史对话编码rq计算历史对话和节点级图nv中每一个节点中的每个词语词嵌入表示的注意力权重其表达式为：

30、

31、其中，表示历史编码rq在节点级图nv中的节点i的注意力因素；

32、对每个词语中的每个节点i应用聚合函数，获取邻节点信息，根据注意力权重获取对话信息对应的语义结构。

33、作为本专利技术的一种优选方案，结合已有训练语料对所述语义结构进行随机语音识别，获取带有不同语义信息的训练语料，包括：

34、对所述语义结构中的对话文本以字为基本文档来自技高网...

【技术保护点】

1.一种基于知识检索图中文对话知识检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于知识检索图中文对话知识检索方法，其特征在于，

3.根据权利要求2所述的一种基于知识检索图中文对话知识检索方法，其特征在于，

4.根据权利要求3所述的一种基于知识检索图中文对话知识检索方法，其特征在于，

5.根据权利要求3所述的一种基于知识检索图中文对话知识检索方法，其特征在于，

6.根据权利要求5所述的一种基于知识检索图中文对话知识检索方法，其特征在于，

7.根据权利要求6所述的一种基于知识检索图中文对话知识检索方法，其特征在于，

8.根据权利要求7所述的一种基于知识检索图中文对话知识检索方法，其特征在于，

9.一种基于知识检索图中文对话知识检索方法的系统，其特征在于，

【技术特征摘要】

1.一种基于知识检索图中文对话知识检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于知识检索图中文对话知识检索方法，其特征在于，

3.根据权利要求2所述的一种基于知识检索图中文对话知识检索方法，其特征在于，

4.根据权利要求3所述的一种基于知识检索图中文对话知识检索方法，其特征在于，

5.根据权利要求3所述的一种基于知...

【专利技术属性】
技术研发人员：苏茂才，林仁辉，廖峪，
申请(专利权)人：诺比侃人工智能科技成都股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人