System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 诉求智能问答大模型构建方法、装置及介质制造方法及图纸_技高网

诉求智能问答大模型构建方法、装置及介质制造方法及图纸

技术编号:42896058 阅读:9 留言:0更新日期:2024-09-30 15:13
本发明专利技术属于智能问答技术领域,公开一种诉求智能问答大模型构建方法、装置及介质,该方法包括:构建诉求领域知识图谱;对每条诉求工单数据进行编码向量化处理,构建工单向量索引库;基于诉求领域数据,进行标注以构建诉求领域问答数据集,利用所述领域问答数据集微调预训练大模型;获取问题,抽取所述问题中的实体关系,利用诉求领域知识图谱推理潜在的实体关系,构建潜在关系提示;对问题编码向量化,利用工单向量索引库检索相似工单,并根据检索得到的相似工单构建相似问题提示;将所述潜在关系提示、相似问题提示与问题同时输入至微调训练后的大模型,生成回答。本发明专利技术有效提高了诉求领域大模型对问题的理解能力和推理回复能力。

【技术实现步骤摘要】

本专利技术涉及智能问答,更具体地,涉及一种诉求智能问答大模型构建方法、装置及介质


技术介绍

1、随着社会的发展和科技的进步,人们对服务的需求日益增长和复杂化。通过研发诉求领域智能问答系统高效处理诉求,可以及时提供所需的信息和服务,节省时间和精力,同时还可以减少有关部门人力成本,避免大量的工作人员来处理重复性的问题和咨询。通过智能化问答系统高效处理诉求,提高服务效率、降低成本、增强用户的满意度和信任度,从而更好地满足用户的需求和期望,具有重要意义和价值。

2、随着大模型和人工智能技术的发展,目前智能问答构建方法主要有以下几种:

3、基于检索的问答,通过构建和搜索文本索引来找到与用户问题相关的答案,常用的技术包括tf-idf、bm25等。虽然这种方法实现简单高效,适用于大规模的文本数据,可以处理开放域的问答任务,但其无法理解语义和上下文信息,搜索结果受限于索引和检索算法,对于复杂问题和模糊查询效果有限。

4、基于生成的问答,越来越多的大模型被应用于不同领域的生成式智能问答,现如今,使用专业领域数据对预训练大模型做微调是一种常见的垂直领域大模型构建方法,但当目标领域与预训练的领域差异较大时,预训练大模型的知识迁移能力可能会受到限制,无法达到很好的训练效果。另外,大模型每次想要更新内部知识需要耗费大量的资源,训练成本较高。

5、基于知识图谱的智能问答是另一种常见的方法,这种方法利用知识图谱来组织和表示丰富的结构化知识,当用户提出问题时,系统会利用知识图谱中的实体、关系和属性来推理答案。相较于基于大模型的问答,这种方法对于语义复杂的内容理解能力有限,在处理语义模糊或复杂的问题时,往往无法提供准确的答案。

6、针对用户诉求具有涵盖主题多样,需求内容复杂,重复类似诉求多,表达诉求形式多样等特点,以上方法已经无法满足对该类用户诉求的高效准确回复。


技术实现思路

1、为解决现有技术中存在的上述问题,本专利技术提供一种诉求智能问答大模型构建方法、装置及介质,从知识图谱,相似度检索,微调大模型三个方面出发,通过对三者的有效结合,使得大模型能够生成具有参考意义且有价值的回复。

2、根据本专利技术的第一方面,提供了一种诉求智能问答大模型构建方法,所述方法包括:

3、获取诉求领域数据,并抽取所述诉求领域数据中存在的实体关系,构建诉求领域知识图谱;

4、获取诉求工单数据,对每条诉求工单数据进行编码向量化处理,构建工单向量索引库;

5、基于所述诉求领域数据,进行标注以构建诉求领域问答数据集,利用所述领域问答数据集微调预训练大模型;

6、获取问题,抽取所述问题中的实体关系,利用所述诉求领域知识图谱推理潜在的实体关系,构建潜在关系提示;

7、对问题编码向量化,利用工单向量索引库检索相似工单,并根据检索得到的相似工单构建相似问题提示;

8、将所述潜在关系提示、相似问题提示与问题同时输入至微调训练后的大模型,生成回答。

9、进一步地,获取诉求领域数据,并抽取所述诉求领域数据中存在的实体关系,构建诉求领域知识图谱,具体包括:

10、将所述诉求领域数据转化为文本数据,抽取所述文本数据中的实体关系,所述实体关系包括多个实体和多个关系,两个实体之间至少具有一个关系,所述多个实体至少包括联合处理单位、业务主管单位、服务对象及事项类型五种实体,所述多个关系至少包括主要管理、联合处理、隶属于、协助、类型属于及服务六种关系;

11、利用所述实体关系构建三元组集合,得到诉求领域知识图谱。

12、进一步地,获取诉求工单数据,对每条诉求工单数据进行编码向量化处理,构建工单向量索引库,具体包括:

13、利用分词工具对诉求工单数据进行分词后,对每条诉求工单数据做编码向量化处理,得到诉求工单数据的向量特征表示集合,所述向量特征表示集合包括与诉求工单数据对应的向量特征表示;

14、基于lsh索引,利用faiss库的api创建索引对象;

15、将所述向量特征表示添加至索引对象中。

16、进一步地,基于所述诉求领域数据,进行标注以构建诉求领域问答数据集,具体包括:

17、基于所述诉求领域数据,经过标注,形成多个问题-答案对,通过所述多个问题-答案对构建诉求领域问答数据集。

18、进一步地,获取问题,抽取所述问题中的实体关系,利用所述诉求领域知识图谱推理潜在的实体关系,构建潜在关系提示,具体包括:

19、抽取所述问题中的实体和关系,并输入至所述诉求领域知识图谱,结合知识推理模型,确定潜在关系,利用设定的提示模板,生成潜在关系提示。

20、进一步地,知识推理模型,确定潜在关系,利用设定的提示模板,生成潜在关系提示,具体包括:

21、对问题中的关系和实体进行向量初始化,并通过rhgt模型实现对诉求领域知识图谱中的节点和边的学习,其中节点和边分别对应于实体和关系;

22、所述rhgt模型t中的第l层对于诉求领域知识图谱的操作表示为:

23、

24、其中,为节点vj的第l层表示,vi和vj为相邻节点,为节点vj的第l-1层表示,为节点vi的第l-1层表示,为第l层的相邻节点的关系表示,为第l-1层的相邻节点的关系表示,aggregate()表示聚合函数,att()为节点间的权重计算函数,msg()为消息传递函数;

25、以所述诉求领域知识图谱中的三元组<vi,e,vj>作为元关系,其中e表示节点vi和节点vj的关系;

26、为每种类型实体和关系设置权重矩阵;

27、设计多头注意力以多视角来学习元关系的权重和消息传递,计算注意力权重的方法如下:

28、

29、

30、其中,att_head()是多头注意力计算函数,m为注意力头的个数,n为注意力头的序号;和分别表示节点vi和节点vj在第n个注意力头中的查询向量和键向量;d是向量嵌入的维度大小;表示所有与vj连接的节点;是代表元关系特征的张量,softmax表示归一化函数,表示关系类型为r(e)时的可学习参数矩阵,表示节点vj的类型在第n个注意力头中对应的线性层,t(vj)表示节点vj的类型;

31、在获得元关系的注意权重后,通过如下公式完成头实体到尾实体的消息传递:

32、

33、其中,是第n个注意力头中消息传递实体的线性投影,为可学习权重矩阵,t(vj)表示节点vj的类型;

34、通过对目标实体的所有相邻实体计算多头注意力权重及消息传递再进行聚合得到实体及关系的低维表示,过程如下:

35、

36、

37、其中,是第l层获得的更新向量,wr是可学习的关系类型权重矩阵,对更新向量进行relu激活和残差连接后通过进行线性投影,并与上一层实体vi的表示向量相加作为当前层最终输出本文档来自技高网...

【技术保护点】

1.一种诉求智能问答大模型构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,获取诉求领域数据,并抽取所述诉求领域数据中存在的实体关系,构建诉求领域知识图谱,具体包括:

3.根据权利要求1所述的方法,其特征在于,获取诉求工单数据,对每条诉求工单数据进行编码向量化处理,构建工单向量索引库,具体包括:

4.根据权利要求1所述的方法,其特征在于,基于所述诉求领域数据,进行标注以构建诉求领域问答数据集,具体包括:

5.根据权利要求2所述的方法,其特征在于,获取问题,抽取所述问题中的实体关系,利用所述诉求领域知识图谱推理潜在的实体关系,构建潜在关系提示,具体包括:

6.根据权利要求5所述的方法,其特征在于,知识推理模型,确定潜在关系,利用设定的提示模板,生成潜在关系提示,具体包括:

7.根据权利要求1所述的方法,其特征在于,对问题编码向量化,利用工单向量索引库检索相似工单,并根据检索得到的相似工单构建相似问题提示,具体包括:

8.根据权利要求1所述的方法,其特征在于,将所述潜在关系提示、相似问题提示与问题同时输入至微调训练后的大模型,生成回答,具体包括:

9.一种诉求智能问答大模型构建装置,其特征在于,所述装置包括:

10.一种存储有指令的非暂时性计算机可读存储介质,当所述指令由处理器执行时,执行根据权利要求1至8中任一项所述的方法。

...

【技术特征摘要】

1.一种诉求智能问答大模型构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,获取诉求领域数据,并抽取所述诉求领域数据中存在的实体关系,构建诉求领域知识图谱,具体包括:

3.根据权利要求1所述的方法,其特征在于,获取诉求工单数据,对每条诉求工单数据进行编码向量化处理,构建工单向量索引库,具体包括:

4.根据权利要求1所述的方法,其特征在于,基于所述诉求领域数据,进行标注以构建诉求领域问答数据集,具体包括:

5.根据权利要求2所述的方法,其特征在于,获取问题,抽取所述问题中的实体关系,利用所述诉求领域知识图谱推理潜在的实体关系,构建潜在关系提示,具体包括:

【专利技术属性】
技术研发人员:刘昕陈子良张春营高会泉卢文娟杨会如
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1