基于检索增强的智能政策问答方法及系统技术方案

技术编号：43625358 阅读：20 留言：0更新日期：2024-12-11 15:04

本发明专利技术提供了一种基于检索增强的智能政策问答方法及系统，包括：步骤S1：令问题输入与纠错模块记录用户输入的问题，并纠正问题中的错误字词；步骤S2：令问答匹配生成模块查询或生成问题对应的答案；步骤S3：令答案输出与缓存模块接收并输出答案，将问题和对应答案存入问答缓存库。本发明专利技术由于更准确的用户输入纠错率，提高了内容检索质量。由于结合了知识图谱查询以及向量数据库查询结果重排序，提高了回答生成质量和生成结果内容的多样性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能机器人，具体地，涉及一种基于检索增强的智能政策问答方法及系统。

技术介绍

1、现有的通用输入纠错模型无法很好地针对政策类业务语句进行纠错，缺少一种通过整合错别字、同音错词、同义错词、混淆错词等词库，结合针对政策类语料训练而成的bert分词模型，以macbert中文自然语言预训练模型为基础训练改进政策语句纠错模型，提升纠错准确度。

2、目前rag的检索方法主要基于文本相似度，ann算法为了加快检索的速度通常会牺牲一些精度，造成top2至top5结果与查询语句的相关性效果相对随机，会影响最终生成的结果。

3、专利文献cn116610792b公开了一种基于ai服务的智能政策问答机器人及方法，涉及智能机器人
，该专利技术政策问答机器人包括政策问答虚拟机器人及用于控制政策问答虚拟机器人工作的政策问答虚拟机器人控制系统，通过对企业对应的政策问题解析，匹配企业对应的解答内容，若企业对应的政策问题无法解析，则筛选出企业对应提问的各关联词语，并引导企业进行选择，进而根据企业的类型选择解答场景风格进行政策问题的解答，在解答完成后，根据企业的评分，分析企业对应的体验效果。但该专利技术没有结合知识图谱查询以及向量数据库查询结果重排序。

技术实现思路

1、针对现有技术中的缺陷，本专利技术的目的是提供一种基于检索增强的智能政策问答方法及系统。

2、根据本专利技术提供的一种基于检索增强的智能政策问答方法，包括：

3、步骤s1：令问题输入与纠

4、步骤s2：令问答匹配生成模块查询或生成问题对应的答案；

5、步骤s3：令答案输出与缓存模块接收并输出答案，将问题和对应答案存入问答缓存库。

6、优选地，在所述步骤s1中：

7、问题输入与纠错模块：包含问题输入模块和问题纠错模块，问题输入模块记录用户输入的问题，问题纠错模块纠正问题中的错别字、同音错词、同义错词、混淆错词错误，经过纠错的问题被传递到问答匹配生成模块；问题纠错部分通过分析用户输入问题的形式和特征，进行纠错；

8、问题纠错模块通过问题纠错模型纠正用户提问中的错误，其中，问题纠错模型由macbert中文自然语言预训练模型训练得到，训练问题纠错模型的数据集由政策文件生成，先将政策文件按句号拆分成片段，对拆分的片段清洗去重，然后使用基于政策类语料训练而成的bert分词模型进行分词，由此得到的正确词汇作为训练模型的输出数据，再整合错别字、同音错词、同义错词、混淆错词词库，根据现有用户输入错误词语的统计概率，用词库中的错误字词替换样本中的正确词语得到训练模型的输入数据；

9、政策词汇识别部分使用基于rnn模型训练的政策词汇模型对问题进行政策词汇识别和合并；

10、文档重排序部分通过对向量数据库搜索结果进行文档重排序。

11、优选地，在所述步骤s2中：

12、问答匹配生成模块包含三条查询答案的路径：

13、路径一：将纠错后的问题转化为嵌入向量，以向量形式在问答缓存库中匹配是否存在相似历史问题，如果匹配成功，则将历史问题对应答案作为对当前问题的回答传递给答案缓存与输出模块，如果匹配失败，则使用路径二查询答案；

14、路径二：将纠错后的问题分词，对专有政策词汇进行识别和合并，进行问题意图匹配和知识图谱查询，如果匹配且查询成功，则将查询到的答案内容传递给答案缓存与输出模块，如果匹配或查询失败，则继续用路径三生成答案；

15、路径三：基于问题嵌入向量查询问题和政策文件片段的相似度，根据相似度结果选择top-k进行重排序，将重排序后的结果和prompt一起提交至大语言模型，通过大语言模型生成最终答案并传递给答案缓存与输出模块。

16、优选地，问答匹配生成模块的路径一包含问题embedding模块和缓存匹配模块：问题embedding模块将纠错后的问题通过cosent句向量模型转化为768维的嵌入向量，缓存匹配模块基于问题嵌入向量，在问答缓存库中匹配缓存问题；问答缓存库基于faiss向量数据库建立，存储已完成的问答；匹配过程采用余弦相似度公式计算当前问题和缓存问题的相似度，当相似度大于规定阈值时，匹配成功，缓存问题对应的答案为对当前问题的回答传递给答案缓存与输出模块；小于规定阈值时则认为匹配失败，将进入路径二检索问题答案；

17、问答匹配生成模块的路径二具体包含问题分词模块和知识图谱查询模块：问题分词模块利用前述经过训练的bert分词模型对经过纠错的问题进行分词，使用基于rnn模型训练的专有政策词汇模型对分词进行专有政策词汇识别与合并，知识图谱查询模块将经过识别合并的问题词汇与预定义的问题意图进行匹配，匹配成功后在基于neo4j建立的知识图谱中查询答案相关内容，如果查询成功，则将查询结果传递给答案缓存与输出模块；如果匹配或者查询失败，则进入路径三生成问题答案；

18、问答匹配生成模块的路径三具体包含文档片段查询及重排模块和大语言模型答案生成模块：文档片段查询及重排模块调用问题嵌入向量，在主向量数据库中匹配内容并进行重排序；主向量数据库基于pgvector建立，存储经过拆分、清洗的政策文档片段；匹配过程采用余弦相似度公式计算问题和政策文档片段的相似度；根据相似度计算结果，模块取相似度最高的30个片段返回，使用交叉编码模型bge reranker对相似度最高的30个结果进行重排序，并再取重排序结果的最高的5个传递给大语言模型答案生成模块，大语言模型答案生成模块中，相似度最高的5个政策文档片段与预设的prompt被提交至大语言模型，通过大语言模型生成最终答案并传递给答案缓存与输出模块。

19、优选地，在所述步骤s3中：

20、答案输出与缓存模块包含答案输出模块和问答缓存模块：答案输出模块接收到问答匹配生成模块的路径一传递的答案时，直接将答案输出给用户；答案输出模块接收到问答匹配生成模块的路径二传递的答案内容时，将内容填充至预设的回答模板再输出给用户，同时由问答缓存模块将问题和答案保存至问答缓存库；答案输出模块接收到问答匹配生成模块的路径三传递的答案时，将答案输出给用户并由问答缓存模块将问题和答案保存至问答缓存库。

21、根据本专利技术提供的一种基于检索增强的智能政策问答系统，包括：

22、问题输入与纠错模块：记录用户输入的问题，并纠正问题中的错误字词；

23、问答匹配生成模块：查询或生成问题对应的答案；

24、答案输出与缓存模块：接收并输出答案，将问题和对应答案存入问答缓存库。

25、优选地，在所述问题输入与纠错模块中：

26、包含问题输入模块和问题纠错模块，问题输入模块记录用户输入的问题，问题纠错模块纠正问题中的错别字、同音错词、同义错词、混淆错词错误，经过纠错的问题被传递到问答匹配生成模块；问题纠错部分通过分析用户输入问题的形式和特征，进行纠错；本文档来自技高网...

【技术保护点】

1.一种基于检索增强的智能政策问答方法，其特征在于，包括：

2.根据权利要求1所述的基于检索增强的智能政策问答方法，其特征在于，在所述步骤S1中：

3.根据权利要求1所述的基于检索增强的智能政策问答方法，其特征在于，在所述步骤S2中：

4.根据权利要求3所述的基于检索增强的智能政策问答方法，其特征在于：

5.根据权利要求1所述的基于检索增强的智能政策问答方法，其特征在于，在所述步骤S3中：

6.一种基于检索增强的智能政策问答系统，其特征在于，包括：

7.根据权利要求6所述的基于检索增强的智能政策问答系统，其特征在于，在所述问题输入与纠错模块中：

8.根据权利要求6所述的基于检索增强的智能政策问答系统，其特征在于，在所述问答匹配生成模块中：

9.根据权利要求8所述的基于检索增强的智能政策问答系统，其特征在于：

10.根据权利要求6所述的基于检索增强的智能政策问答系统，其特征在于，在所述答案输出与缓存模块中：

【技术特征摘要】

1.一种基于检索增强的智能政策问答方法，其特征在于，包括：

2.根据权利要求1所述的基于检索增强的智能政策问答方法，其特征在于，在所述步骤s1中：

3.根据权利要求1所述的基于检索增强的智能政策问答方法，其特征在于，在所述步骤s2中：

4.根据权利要求3所述的基于检索增强的智能政策问答方法，其特征在于：

5.根据权利要求1所述的基于检索增强的智能政策问答方法，其特征在于，在所述步骤s3中：

6.一种...

【专利技术属性】
技术研发人员：周扬眉，熊黎丽，张绪航，曾忠涛，李姗姗，蒋洪波，刘巧，沈俊宇，
申请(专利权)人：重庆市科学技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人