System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及多级文档检索,更具体地说,本专利技术涉及一种多级文档检索方法。
技术介绍
1、随着人工智能技术的不断发展,特别是在自然语言处理(nlp)领域,多轮对话系统逐渐成为人机交互的重要组成部分。这类系统能够理解和处理用户的连续输入,并通过适当的响应提供高效的交流体验。然而,传统的对话系统往往面临着知识检索的挑战,尤其是在需要结合上下文信息进行多轮对话的场景中,常采用基于时间维度的指数衰减策略对多轮检索知识集进行更新,而过度依赖基于时间维度的指数衰减策略可能无法准确捕捉远轮次的关键信息,导致远轮次中关键信息的有效性逐渐降低,最终的知识检索出现误差,例如,用户与客服机器人进行对话,开始询问关于公司某款手机的故障问题。早在对话的第 1轮中,用户提到了手机的具体型号,并提问相关的故障信息。到了第 6 轮,用户忽然再次提到这个故障相关问题,但这次的提问是围绕配件保修政策,由于基于时间维度的指数衰减策略,系统将第 1 轮的对话权重大幅降低,因此在第 6 轮中,系统无法有效地回溯到第 1轮的具体型号信息,导致检索出的保修政策与手机型号不符,最终给用户的回复也无法解决用户的问题,且基于时间维度的指数衰减策略在涉及到实时的对话场景下以及大规模历史信息的卷积运算和检索时,系统的计算资源消耗将大幅增加,可能导致检索的响应时间延迟,甚至出现卡顿,由于无法更精准的给出用户提问的检索相关知识,严重影响用户的交互体验,用户因此可能会离开平台,导致降低平台的信任度。
技术实现思路
1、为了克服现有技术的上述
2、为实现上述目的,本专利技术提供如下技术方案:
3、一种多级文档检索方法,包括如下步骤:
4、步骤s1,根据基于ssm卷积模块的问题状态分类模型对用户的单轮提问进行问题状态识别,获取问题状态,并根据问题状态采用不同的知识检索策略,获取问题状态对应的单轮检索知识集;
5、步骤s2,获取问题状态分类模型进行问题状态识别过程的多项信息,构建卡顿影响评估模型,生成卡顿影响评估指数,确定问题状态分类模型是否存在卡顿隐患;
6、步骤s3,当问题状态分类模型不存在卡顿隐患时,对单轮检索知识集进行多轮知识滚动更新,采用预设的指数衰减策略获取知识影响力程度系数并结合轮内知识重要性排名系数对知识进行综合排序,获取知识排序表,用于向用户进行展示;
7、步骤s4,当问题状态分类模型存在卡顿隐患时,对预设的指数衰减策略进行自适应修正。
8、在一个优选地实施方式中,在步骤s1中,首先对用户当前轮提问的文本进行预处理,将提问文本进行分词,将每个词转化为对应的词向量,得到当前轮提问的语义向量;同时对用户的历史多轮提问的文本以及对应轮的检索知识集进行预处理以及分词转化词向量操作,分别得到历史多轮提问的语义向量以及检索知识集的语义向量矩阵;
9、基于当前轮提问的语义向量和历史多轮提问的语义向量构建提问文本语义向量矩阵,将提问文本语义向量矩阵输入问题ssm卷积模块,根据问题ssm卷积模块的卷积核对提问文本语义向量矩阵进行卷积化;
10、将检索知识集的语义向量矩阵输入检索知识ssm卷积模块,根据检索知识ssm卷积模块的卷积核对提问文本语义向量矩阵进行卷积化;
11、将问题ssm卷积模块和检索知识ssm卷积模块中提取的卷积输出特征向量进行横向拼接得到最终输出特征向量,将横向拼接后的最终输出特征向量传入到全连接层,获取全连接层输出;
12、将全连接层的输出传入softmax激活函数,获取问题状态的概率值,获取表达式如下,,其中表示用户当前轮提问的问题属于问题状态的概率值,,表示全连接层输出;
13、问题状态表示独立的新问题;
14、问题状态m2表示不独立且为上一轮问题的细节;
15、问题状态m3表示不独立且与上一轮问题有交集;
16、根据softmax激活函数输出的概率值,对用户当前轮提问的问题状态进行分类,具体如下:
17、若>且>,则将用户当前轮提问的问题状态标记为m1,获取用户当前轮提问的语义向量,并与知识库中现存知识的语义向量进行语义相似度匹配,根据语义相似度对知识库中现存知识进行由大到小进行排序,选择前top_k条知识作为单轮检索知识集;
18、若>且>,则将用户当前轮提问的问题状态标记为m2,直接使用上一轮提问的检索知识集作为当前轮的单轮检索知识集;
19、若>且>,则将用户当前轮提问的问题状态标记为m3,将上一轮提问与当前轮提问进行拼接,获取拼接文本的语义向量,再与知识库中现存知识的语义向量进行语义相似度匹配,根据语义相似度对知识库中现存知识进行由大到小进行排序,选择前top_k条知识作为单轮检索知识集。
20、在一个优选地实施方式中,在步骤s2中,所述的问题状态识别过程的多项信息包括模型执行时间异常系数、资源消耗状态系数、卷积层数异常波动系数、用户流失率。
21、在一个优选地实施方式中,模型执行时间异常系数的获取逻辑如下:
22、获取问题状态分类模型在每次用户提问时对问题状态分类的执行推理时间,g表示用户提问的次数编号,g={1,2,...,g},g为正整数;
23、计算执行推理时间平均值,表达式如下,根据执行推理时间平均值计算执行推理时间标准差,表达式如下;
24、将每次的执行推理时间与执行推理时间标准差进行比较,对执行推理时间进行异常标记,当执行推理时间大于等于执行推理时间标准差时,则将大于等于执行推理时间标准差的执行推理时间标记为异常执行推理时间;
25、计算模型执行时间异常系数,表达式如下,式中表示第h个异常执行推理时间,h={1,2,...,h},h为正整数。
26、在一个优选地实施方式中,资源消耗状态系数的获取逻辑如下:
27、获取问题状态分类模型在运行过程中的资源消耗数据,包括但不限于cpu使用率、gpu使用率、内存占比率、磁盘i/o使用率;
28、需将获取的cpu使用率、gpu使用率、内存占比率、磁盘i/o使用率进行归一化处理,并根据归一化后的cpu使用率、gpu使用率、内存占比率、磁盘i/o使用率计算资源消耗状态系数,表达式如下,式中分别表示归一化后的cpu使用率、gpu使用率、内存占比率、磁盘i/o使用率,、、、分别表示cpu使用率、gpu使用率、内存占比率、磁盘i/o使用率的最大可接受期望值,分别表示的预设比例系数,且均大于0。
29、在一个优选地实施方式中,卷积层数异常波动系数的获取逻辑如下:
30、获取问题状态分类模型在进行卷积操作时的卷积层数数据集,将卷积层数数据集标记为,表示问题状态分类模型第r次进行卷积操作时的卷积层数值,r={1,2,...,r},r为正整数;从卷积层数数据集中提取本文档来自技高网...
【技术保护点】
1.一种多级文档检索方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的一种多级文档检索方法,其特征在于:在步骤S1中,首先对用户当前轮提问的文本进行预处理,将提问文本进行分词,将每个词转化为对应的词向量,得到当前轮提问的语义向量;同时对用户的历史多轮提问的文本以及对应轮的检索知识集进行预处理以及分词转化词向量操作,分别得到历史多轮提问的语义向量以及检索知识集的语义向量矩阵;
3.根据权利要求1所述的一种多级文档检索方法,其特征在于:在步骤S2中,所述的问题状态识别过程的多项信息包括模型执行时间异常系数、资源消耗状态系数、卷积层数异常波动系数、用户流失率。
4.根据权利要求3所述的一种多级文档检索方法,其特征在于:模型执行时间异常系数的获取逻辑如下:
5.根据权利要求3所述的一种多级文档检索方法,其特征在于:资源消耗状态系数的获取逻辑如下:
6.根据权利要求3所述的一种多级文档检索方法,其特征在于:卷积层数异常波动系数的获取逻辑如下:
7.根据权利要求3所述的一种多级文档检索方法,其特征在于:用户流失率
8.根据权利要求3所述的一种多级文档检索方法,其特征在于:将获取的模型执行时间异常系数、资源消耗状态系数、卷积层数异常波动系数、用户流失率进行归一化处理,根据归一化处理后的模型执行时间异常系数、资源消耗状态系数、卷积层数异常波动系数、用户流失率构建卡顿影响评估模型,生成卡顿影响评估指数,其卡顿影响评估模型依据的公式如下,式中分别表示模型执行时间异常系数、资源消耗状态系数、卷积层数异常波动系数、用户流失率的预设比例系数,且均大于0;
9.根据权利要求1所述的一种多级文档检索方法,其特征在于:
10.根据权利要求1所述的一种多级文档检索方法,其特征在于:在步骤S4中,当问题状态分类模型存在卡顿隐患时,对预设的指数衰减策略进行自适应修正,具体如下:
...【技术特征摘要】
1.一种多级文档检索方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的一种多级文档检索方法,其特征在于:在步骤s1中,首先对用户当前轮提问的文本进行预处理,将提问文本进行分词,将每个词转化为对应的词向量,得到当前轮提问的语义向量;同时对用户的历史多轮提问的文本以及对应轮的检索知识集进行预处理以及分词转化词向量操作,分别得到历史多轮提问的语义向量以及检索知识集的语义向量矩阵;
3.根据权利要求1所述的一种多级文档检索方法,其特征在于:在步骤s2中,所述的问题状态识别过程的多项信息包括模型执行时间异常系数、资源消耗状态系数、卷积层数异常波动系数、用户流失率。
4.根据权利要求3所述的一种多级文档检索方法,其特征在于:模型执行时间异常系数的获取逻辑如下:
5.根据权利要求3所述的一种多级文档检索方法,其特征在于:资源消耗状态系数的获取逻辑如下:
6.根据权利要求3所述的一种多级...
【专利技术属性】
技术研发人员:于天星,杨赛,顾全林,孙梦婷,
申请(专利权)人:无锡锡商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。