System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于政策问答,具体是基于大语言模型、反向索引和嵌入检索的政策问答系统。
技术介绍
1、在信息检索和问答系统领域,传统的反向索引方法和基于嵌入的检索方法各有优缺点。反向索引方法快速高效,但对语义理解较弱;嵌入检索方法具备较强的语义理解能力,但计算复杂度高。大语言模型由于其强大的生成和语义理解能力,但是大语言模型主要是根据问题预测答案,存在胡说、瞎联系等问题,并不具备检索功能。现有的政策问答系统往往无法同时兼顾检索效率和语义理解,导致回答的准确性和相关性不足。
技术实现思路
1、本专利技术旨在至少解决现有技术中存在的技术问题之一;为此,本专利技术提出了基于大语言模型、反向索引和嵌入检索的政策问答系统,用于解决现有的政策问答系统往往无法同时兼顾检索效率和语义理解,导致回答的准确性和相关性不足的技术问题,本专利技术通过反向索引快速筛选出候选政策文本,然后通过对若干政策文本和需求问题转化为两个高维向量并进行比较,根据比较结果的进行精细排序,大语言模型精细排序的若干候选政策文本为参考进行作答解决了上述问题。
2、为实现上述目的,本专利技术的第一方面提供了基于大语言模型、反向索引和嵌入检索的政策问答系统,包括:数据预处理模块、反向索引模块、嵌入检索模块、检索管理模块、问答生成模块以及用户接口模块;
3、所述数据预处理模块:用于获取政策文本和需求问题;以及,对政策文本中的文本进行清洗;其中,清洗方式包括、分词、去停用词以及词干提取;
4、所述反向索引模
5、所述嵌入检索模块:通过词嵌入模块将需求问题转化为问题高维向量;通过词嵌入模型将清洗后的政策文本转化为政策高维向量,并构建政策向量索引;
6、所述检索管理模块:将问题高维向量和若干政策高维向量进行匹配,得到匹配索引;其中,匹配索引由若干个带有先后顺序的候选政策文本组成;
7、所述问答生成模块:大语言模型根据匹配索引生成与需求问题相对应的答案;其中,大语言模型基于人工智能模型建立;
8、所述用户接口模块:用于输入需求问题;以及,展示与需求问题相对的答案和对应的政策文本。
9、需要说明的是:政策向量索引用于索引政策高维向量在政策文本中的位置,并且问答生成模块在生成答案时大模型根据匹配索引中政策文本的先后顺序以及政策向量索引生成。
10、优选的,所述大语言模型基于人工智能模型建立,包括:
11、获取质量微调数据集和训练数据集,通过llama3模型并在llama3模型的输出层加入动态权重调整以及引入自注意力机制构建待训练的大语言模型;
12、对待训练的大语言模型中的权重矩阵进行低秩分解;通过进行低秩分解能够将权重矩阵w分解为两个较小的矩阵a和b,而w约等于a×b;其中矩阵a和b的秩要远小于原始权重矩阵的维度,经过该种分解很大程度的减少了需要训练的参数量;
13、在模型的特定层插入低秩适配器;其中,特定层为模型的任何密集层,包括自注意力层的权重矩阵;
14、通过训练数据集对待训练的大语言模型进行训练,并通过质量微调数据集对完成训练的大语言模型进行检验,根据检验结果对完成训练的大语言模型进行调整,最终得到完成训练的大语言模型。
15、需要说明的是,该大语言模型能够输出未经过动态权重调整以及经过动态权重调整的答案。
16、优选的,所述基于文本索引结果构建词项-文档倒排列表,包括:
17、获取清洗后政策文本的反向索引的文本索引结果,统计文本索引结果中若干词项出现的次数,并获取对应词项所在政策文本的文档id以及在对应政策文本中的位置信息;将若干词项、词项对应所在政策文本的文档id以及对应政策文本中的位置绘制到排列表中,得到词项-文档倒排列表。
18、优选的,所述对需求问题进行反向索引之后与词项-文档倒排列表匹配,包括:
19、将需求问题进行清洗,并对清洗后的需求问题进行反向索引,得到问题索引结果;
20、将问题索引结果中的词项与词项-文档倒排列表中的词项进行匹配,得到匹配词项,将匹配词项在词项-文档倒排列表中记录的若干政策文本文档id标记为筛选政策文本;
21、从筛选政策文本中筛选出相关度最高的政策文本,并标记为候选政策文本。
22、优选的,所述将问题高维向量和若干政策高维向量进行匹配,包括:
23、分别计算问题高维与若干政策高维向量之间的欧几里得距离,并标记为li;其中,i=1,2,…n,n为政策高维向量的数量;
24、按照从大到小的方式将若干欧几里得距离li所对应的政策文本进行排序,得到匹配索引。
25、优选的,该系统还包括实施优化模块,所述用户接口模块:对匹配索引中的候选政策文本进行点击查看以及对需求问题相对应的答案进行反馈;其中反馈结果包括满意和不满意;
26、所述实施优化模块:用于获取用户对若干需求问题相对应的答案的反馈结果;基于若干反馈结果对匹配索引中若干候选政策文本的顺序进行调整。
27、优选的,所述基于若干反馈结果对匹配索引中若干候选政策文本的顺序进行调整,包括:
28、获取若干需求问题中未经过动态权重调整以及经过动态权重调整的答案所对应的反馈结果;将反馈结果中的满意和不满意分别赋值为a和b,且a大于b;
29、将未经过动态权重调整的赋值以及经过动态权重调整的赋值分别进行求和,得到未包裹值和包裹值;
30、判断未包裹值与包裹值之间的差值是否小于差异阈值;是,则保持候选政策文本的顺序;否,则将匹配索引中位于首位的政策文本排序至最后位置。
31、与现有技术相比,本专利技术的有益效果是:
32、1、本专利技术中,通过结合反向索引和嵌入检索的双阶段检索机制,首先通过反向索引快速筛选出候选政策文本,然后通过对若干政策文本和需求问题转化为两个高维向量并进行比较,根据比较结果的进行精细排序,大语言模型精细排序的若干候选政策文本为参考进行作答,能够实现提升检索结果的相关性和准确性。
33、2、本专利技术中,在llama3模型的输出层加入动态权重调整,并根据用户提出的多个需求问题进行上下文联系和优化匹配索引,从而能够使得后续提出的需求问题更为精准。
本文档来自技高网...【技术保护点】
1.基于大语言模型、反向索引和嵌入检索的政策问答系统,其特征在于,包括:数据预处理模块、反向索引模块、嵌入检索模块、检索管理模块、问答生成模块以及用户接口模块;
2.根据权利要求1所述的基于大语言模型、反向索引和嵌入检索的政策问答系统,其特征在于,所述大语言模型基于人工智能模型建立,包括:
3.根据权利要求1所述的基于大语言模型、反向索引和嵌入检索的政策问答系统,其特征在于,基于文本索引结果构建词项-文档倒排列表,包括:
4.根据权利要求1所述的基于大语言模型、反向索引和嵌入检索的政策问答系统,其特征在于,所述对需求问题进行反向索引之后与词项-文档倒排列表匹配,包括:
5.根据权利要求1所述的基于大语言模型、反向索引和嵌入检索的政策问答系统,其特征在于,所述将问题高维向量和若干政策高维向量进行匹配,包括:
6.根据权利要求1所述的基于大语言模型、反向索引和嵌入检索的政策问答系统,其特征在于,该系统还包括实施优化模块,所述用户接口模块:对匹配索引中的候选政策文本进行点击查看以及对需求问题相对应的答案进行反馈;其中反馈结果包
7.根据权利要求1所述的基于大语言模型、反向索引和嵌入检索的政策问答系统,其特征在于,基于若干反馈结果对匹配索引中若干候选政策文本的顺序进行调整,包括:
...【技术特征摘要】
1.基于大语言模型、反向索引和嵌入检索的政策问答系统,其特征在于,包括:数据预处理模块、反向索引模块、嵌入检索模块、检索管理模块、问答生成模块以及用户接口模块;
2.根据权利要求1所述的基于大语言模型、反向索引和嵌入检索的政策问答系统,其特征在于,所述大语言模型基于人工智能模型建立,包括:
3.根据权利要求1所述的基于大语言模型、反向索引和嵌入检索的政策问答系统,其特征在于,基于文本索引结果构建词项-文档倒排列表,包括:
4.根据权利要求1所述的基于大语言模型、反向索引和嵌入检索的政策问答系统,其特征在于,所述对需求问题进行反向索引之后与词项-文...
【专利技术属性】
技术研发人员:李玮,
申请(专利权)人:合肥人工智能与大数据研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。