System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于智能体的汽车问题应答方法技术_技高网

基于智能体的汽车问题应答方法技术

技术编号:41396029 阅读:3 留言:0更新日期:2024-05-20 19:19
本发明专利技术提供了基于智能体的汽车问题应答方法,所述方法包括如下步骤:数据预处理、文档元信息embedding和文档内容embedding以及智能体启发式检索与应答。通过采用启发式的方法回答用户的提问,利用构建的文档元信息树启发式的检索出最相关的文档,该智能体可以有效的缩小内容向量检索的空间,更好的提升召回文档的相关性;同时可以减少因内容分片embedding信息损失所带来的无关内容的召回,可以更好的提升应答的准确性;针对单个文档召回最相关内容时,结合文档的元信息树采用启发式迭代分解子问题的策略,利用大模型最终召回最相关的子问题及其对应的内容,该智能体可以更准确的回答用户的提问,在应答准确率要求高的场景有着较强的应用价值。

【技术实现步骤摘要】

本专利技术涉及基于智能体的汽车问题应答方法


技术介绍

1、汽车资讯是为对汽车感兴趣的人,包括潜在的购车者、车主、汽车爱好者等提供服务;通过提供新闻、评论、比较、购买建议等,用于应答解决使用者提出的汽车问题。

2、目前,针对汽车资讯领域的用户提问场景,应答方式有以下几种;(1)有一些传统的应答方法,比如基于规则的方法、传统的机器学习方法、以及基于自然语言处理(naturallanguage processing)和自然语言理解(natural language understanding)的方法;(2)一些较新的基于大模型(large language model)的方法,比如直接基于基础大模型进行应答的方法、基于外挂知识库rag(retrievalaugmented generation)的应答方法、以及使用汽车行业数据对基础大模型进行调优(supervised fine tuning)后再直接用于应答的方法。

3、对于上述传统的方法,通常需要使用预定义的规则或大量人工标注的训练数据来训练模型,(1)一方面当行业领域增量数据达到一定规模时往往需要重新定义规则或再次训练模型;(2)另一方面,当面对用户使用自然语言描述的个性化问题时,在问题理解和应答方面的泛化能力通常不足,应答的性能表现可能会显著下降。

4、对于较新的基于大模型的方法,(1)以gpt3.5及以上版本为代表的大模型在对用户提问进行应答时通常在自然语言理解能力和泛化能力方面的性能表现明显好于传统的方法,但直接使用基础大模型进行应答的方法,由于在训练时很可能缺少足够的或增量的行业领域数据,在应答时容易出现“幻觉”现象;(2)基于rag的方法能够在一定程度上弥补基础大模型缺乏行业领域知识的弱点,但通常的做法是直接对原始文本数据进行切片,并对每个切片整体进行embedding,受限于大模型上下文长度的限制,属于同一范畴的内容很可能被切分到多个分片,或多个属于不同范畴的和提问关联性较低的内容分片由于在embedding时的信息损失或切片部分片段内容上的相似很可能造成embedding相似度较高,很可能导致在应答时出现召回不足、召回无关、准确度较低的问题;(3)使用行业数据进行微调的方法,需要先人工收集和标注足够量的行业数据,再进行模型的调优训练,整个软硬件实施过程复杂、周期较长,且只适用于规模相对较小的大模型,同时微调不当可能会造成基础模型某些方面能力的下降,可能会造成在应答非微调数据范围内的提问时性能表现的下降。


技术实现思路

1、本专利技术为了解决用户使用自然语言进行提问时应答性能表现不足,其中包括对关联内容的召回不足、召回无关内容、以及回答准确度不够高的技术问题,而提供基于智能体的汽车问题应答方法。

2、本专利技术通过以下技术方案解决上述技术问题:

3、本专利技术提供了基于智能体的汽车问题应答方法,所述方法包括如下步骤:

4、(1)数据预处理

5、对原始文档数据进行半结构化预处理,生成文档的结构化元信息树后,通过结合文档元信息树,构建一棵文档元信息-内容块层次树;该树的根节点为整个文档的主题描述,树的非叶子结点对应元信息树的非叶子节点,树的叶子结点为对应其父节点的内容块起至范围的描述;树中非叶子节点在语义上是对所有子节点所对应内容的总结和提炼;

6、(2)文档元信息embedding和文档内容embedding

7、通过对文档元信息-内容块层次树中每个非叶子结点所包含的元信息进行embedding,建立所有文档的元信息向量库;接着对文档元信息-内容块层次树中叶子结点所对应的内容块按照类似rag检索中文档的切片方式进行embedding,为每个文档生成一个内容向量库;

8、(3)智能体启发式检索与应答

9、对用户提问的问题,先进行embedding,接着使用该embedding检索元信息向量库,获取相似度排序topn的元信息向量所对应的文档及其对应的元信息节点,作为元信息召回集;对元信息召回集进行合并,将属于同一文档的元信息归为同一组,并按组粒度累加计算相似度之和后进行排序,得出文档粒度的召回集,作为文档召回集;从文档召回集中选取相似度排序top1的文档作为结果文档。

10、优选地,所述步骤(1)中对于文档内已包结构化元信息树的文档,比如目录结构化元信息等,可以采用相应的文档解析器直接提取出文档元信息树。

11、优选地,所述步骤(1)中而对于未包含结构化元信息树的文档,可以采用传统的nlp或nlu处理方法,结合文档内容的自然结构,生成文档的结构化元信息树。

12、优选地,所述步骤(3)中的结果文档选取后,通过对结果文档进一步的进行启发式检索处理。

13、优选地,所述启发式检索处理时,先从元信息召回集中取该文档召回的最低层级元信息,表示为<doci,doc_meta_tree_nodenode_y>。

14、优选地,若node_y为该文档元信息树的最低层级,则进入步骤<1>。

15、优选地,所述步骤<1>:直接检索其对应的内容分片向量集,取相似度topn结果所对应的分片内容作为最终召回的内容;接着进入步骤<2>。

16、优选地,所述步骤<2>:将召回的内容作为上下文,连同用户提问整合构建一个完整的prompt,获取大模型的输出作为智能体的应答结果;接着终止整个启发式应答流程。

17、优选地,令node_x=node_y,进入步骤<3>:

18、优选地,步骤<3>:从该文档的元信息-内容块树中提取node_x所有的子节点内容作为上下文,连同用户提问整合构建一个完整的prompt,获取大模型输出的和用户提问最相关的子节点所在的层级node_z;接着进入步骤<4>。

19、优选地,所述步骤<4>:若node_z是该元信息树的最底层级,则令node_y=node_z进入步骤<1>;否则令node_x=node_z,进入步骤<3>;循环迭代此过程直到进入步骤<1>为止。

20、在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本专利技术各较佳实例。

21、本专利技术的积极进步效果在于:

22、(1)利用构建的文档元信息树启发式的检索出最相关的文档,该智能体可以有效的缩小内容向量检索的空间,更好的提升召回文档的相关性;同时可以减少因内容分片embedding信息损失所带来的无关内容的召回,可以更好的提升应答的准确性。

23、(2)针对单个文档召回最相关内容时,结合文档的元信息树采用启发式迭代分解子问题的策略,利用大模型最终召回最相关的子问题及其对应的内容,该智能体可以更准确的回答用户的提问,在应答准确率要求高的场景有着较强的应用价值。

...

【技术保护点】

1.基于智能体的汽车问题应答方法,其特征在于:所述方法包括如下步骤:

2.如权利要求1所述的基于智能体的汽车问题应答方法,其特征在于:所述步骤(1)中对于文档内已包结构化元信息树的文档,比如目录结构化元信息等,可以采用相应的文档解析器直接提取出文档元信息树。

3.如权利要求1所述的基于智能体的汽车问题应答方法,其特征在于:所述步骤(1)中而对于未包含结构化元信息树的文档,可以采用传统的NLP或NLU处理方法,结合文档内容的自然结构,生成文档的结构化元信息树。

4.如权利要求1所述的基于智能体的汽车问题应答方法,其特征在于:所述步骤(3)中的结果文档选取后,通过对结果文档进一步的进行启发式检索处理。

5.如权利要求4所述的基于智能体的汽车问题应答方法,其特征在于:所述启发式检索处理时,先从元信息召回集中取该文档召回的最低层级元信息,表示为<doci,doc_meta_tree_nodenode_y>。

6.如权利要求5所述的基于智能体的汽车问题应答方法,其特征在于:若node_y为该文档元信息树的最低层级,则进入步骤<1>。

7.如权利要求6所述的基于智能体的汽车问题应答方法,其特征在于:所述步骤<1>:直接检索其对应的内容分片向量集,取相似度TopN结果所对应的分片内容作为最终召回的内容;接着进入步骤<2>。

8.如权利要求7所述的基于智能体的汽车问题应答方法,其特征在于:所述步骤<2>:将召回的内容作为上下文,连同用户提问整合构建一个完整的prompt,获取大模型的输出作为智能体的应答结果;接着终止整个启发式应答流程。

9.如权利要求8所述的基于智能体的汽车问题应答方法,其特征在于:令node_x=node_y,进入步骤<3>:

10.如权利要求8所述的基于智能体的汽车问题应答方法,其特征在于:所述步骤<4>:若node_z是该元信息树的最底层级,则令node_y=node_z进入步骤<1>;否则令node_x=node_z,进入步骤<3>;循环迭代此过程直到进入步骤<1>为止。

...

【技术特征摘要】

1.基于智能体的汽车问题应答方法,其特征在于:所述方法包括如下步骤:

2.如权利要求1所述的基于智能体的汽车问题应答方法,其特征在于:所述步骤(1)中对于文档内已包结构化元信息树的文档,比如目录结构化元信息等,可以采用相应的文档解析器直接提取出文档元信息树。

3.如权利要求1所述的基于智能体的汽车问题应答方法,其特征在于:所述步骤(1)中而对于未包含结构化元信息树的文档,可以采用传统的nlp或nlu处理方法,结合文档内容的自然结构,生成文档的结构化元信息树。

4.如权利要求1所述的基于智能体的汽车问题应答方法,其特征在于:所述步骤(3)中的结果文档选取后,通过对结果文档进一步的进行启发式检索处理。

5.如权利要求4所述的基于智能体的汽车问题应答方法,其特征在于:所述启发式检索处理时,先从元信息召回集中取该文档召回的最低层级元信息,表示为<doci,doc_meta_tree_nodenode_y>。

6.如权利要求5所述的基于智能体的汽车问题应答方法,其特征在于:若node_y为该文档...

【专利技术属性】
技术研发人员:陈圣奇李伟肖超杨永峰郭杨
申请(专利权)人:北京易慧涌现智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1