多阶段文本检索方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:39058707 阅读:20 留言:0更新日期:2023-10-12 19:51
本发明专利技术公开了一种多阶段文本检索方法、装置、计算机设备及存储介质,其方法包括:对物业文本数据进行预处理,得到原始数据集;使用GPT

【技术实现步骤摘要】
多阶段文本检索方法、装置、计算机设备及存储介质


[0001]本专利技术涉及物业信息管理
,尤其涉及一种多阶段文本检索方法、装置、计算机设备及存储介质。

技术介绍

[0002]物业客服每天需要处理大量的电话来电,解决业主们的各种问题和需求,这不仅消耗大量的人力资源,而且对客服人员来说,提供高质量的咨询服务也是一项挑战。随着科技的快速发展,智能机器便应用到了物业小区中,业主可在24小时内随时随地通过智能机器提出诉求,为业主解决问题,从而为物业的工作人员减轻负担,但是目前的智能机器还存在一些问题,比如,面对海量的信息不能准确高效地识别出业主提出的问题,导致不能快速检索出需要的信息以及最优结果。

技术实现思路

[0003]本专利技术的目的是提供一种多阶段文本检索方法、装置、计算机设备及存储介质,旨在解决目前物业小区中对业主咨询问题的识别率不高的问题。
[0004]第一方面,本专利技术实施例提供一种多阶段文本检索方法,包括:
[0005]对物业文本数据进行预处理,得到包含多条对话文本的原始数据集;
[0006]针对所述原始数据集中的每一对话文本,利用GPT

3大语言模型生成对应的目标问题,将所述目标问题及对应的对话文本作为正样本;针对所述目标问题,在所述原始数据集中随机选择对话文本并构建为负样本;将所述正样本与负样本拼接成合成数据集;
[0007]将所述原始数据集作为语料库,对所述语料库进行语料扩充,利用BM25算法在所述语料库中对用户给定的目标问题进行粗略检索得到多个检索结果,利用monoT5模型和合成数据集对检索出的多个检索结果进行精细检索,得到多个预测结果,从所述多个预测结果中筛选出最优答案,以构建多阶段文本检索模型;
[0008]对所述多阶段文本检索模型进行部署并对用户输入的当前问题进行检索。
[0009]第二方面,本专利技术实施例还提供一种多阶段文本检索的装置,其包括:
[0010]数据提取单元,用于对物业文本数据进行预处理,得到包含多条对话文本的原始数据集。
[0011]数据合成单元,用于针对所述原始数据集中的每一对话文本,利用GPT

3大语言模型生成对应的目标问题,将所述目标问题及对应的对话文本作为正样本;针对所述目标问题,在所述原始数据集中随机选择对话文本并构建为负样本;将所述正样本与负样本拼接成合成数据集。
[0012]模型构建单元,用于将所述原始数据集作为语料库,对所述语料库进行语料扩充,利用BM25算法在所述语料库中对用户给定的目标问题进行粗略检索得到多个检索结果,利用monoT5模型和合成数据集对检索出的多个检索结果进行精细检索,得到多个预测结果,从所述多个预测结果中筛选出最优答案,以构建多阶段文本检索模型;
[0013]模型部署单元,用于对所述多阶段文本检索模型进行部署并对用户输入的当前问题进行检索。
[0014]第三方面,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的多阶段文本检索方法。
[0015]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的多阶段文本检索方法。
[0016]本专利技术实施例提供一种多阶段文本检索方法、装置、计算机设备及存储介质,其中方法包括:对物业文本数据进行预处理,得到包含多条对话文本的原始数据集;针对所述原始数据集中的每一对话文本,利用GPT

3大语言模型生成对应的目标问题,将所述目标问题及对应的对话文本作为正样本;针对所述目标问题,在所述原始数据集中随机选择对话文本并构建为负样本;将所述正样本与负样本拼接成合成数据集;将所述原始数据集作为语料库,对所述语料库进行语料扩充,利用BM25算法在所述语料库中对用户给定的目标问题进行粗略检索得到多个检索结果,利用monoT5模型和合成数据集对检索出的多个检索结果进行精细检索,得到多个预测结果,从所述多个预测结果中筛选出最优答案,以构建多阶段文本检索模型;对所述多阶段文本检索模型进行部署并对用户输入的当前问题进行检索。该方法采用GPT

3大语言模型将物业文本数据生成目标问题,再利用BM25算法在所述语料库中对用户给定的目标问题进行粗略检索,然后利用monoT5模型对目标问题进行精细检索,得到多个预测结果并筛选最优答案,从而构建多阶段文本检索模型,最后对多阶段文本检索模型进行部署并对用户问题进行检索,实现准确高效的对用户问题进行识别,从而快速检索出需要的信息以及最优结果。
附图说明
[0017]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本专利技术实施例提供的多阶段文本检索方法的流程示意图;
[0019]图2为本专利技术实施例提供的多阶段文本检索方法的子流程示意图;
[0020]图3为本专利技术实施例提供的多阶段文本检索方法的算法流程示意框图;
[0021]图4为本专利技术实施例提供的多阶段文本检索方法的又一子流程示意图;
[0022]图5为本专利技术实施例提供的多阶段文本检索方法的又一子流程示意图;
[0023]图6为本专利技术实施例提供的多阶段文本检索模型的流程示意图;
[0024]图7为本专利技术实施例提供的多阶段文本检索方法的又一子流程示意图;
[0025]图8为本专利技术实施例提供的多阶段文本检索装置的示意性框图;
[0026]图9为本专利技术实施例提供的多阶段文本检索装置的子单元示意性框图;
[0027]图10为本专利技术实施例提供的多阶段文本检索装置的另一子单元示意性框图;
[0028]图11为本专利技术实施例提供的多阶段文本检索装置的另一子单元示意性框图;
[0029]图12为本专利技术实施例提供的多阶段文本检索装置的另一子单元示意性框图;
[0030]图13为本专利技术实施例提供的计算机设备的示意性框图。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0033]还应当理解,在此本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多阶段文本检索方法,其特征在于,包括:对物业文本数据进行预处理,得到包含多条对话文本的原始数据集;针对所述原始数据集中的每一对话文本,利用GPT

3大语言模型生成对应的目标问题,将所述目标问题及对应的对话文本作为正样本;针对所述目标问题,在所述原始数据集中随机选择对话文本并构建为负样本;将所述正样本与负样本拼接成合成数据集;将所述原始数据集作为语料库,对所述语料库进行语料扩充,利用BM25算法在所述语料库中对用户给定的目标问题进行粗略检索得到多个检索结果,利用monoT5模型和合成数据集对检索出的多个检索结果进行精细检索,得到多个预测结果,从所述多个预测结果中筛选出最优答案,以构建多阶段文本检索模型;对所述多阶段文本检索模型进行部署并对用户输入的当前问题进行检索。2.根据权利要求1所述的多阶段文本检索方法,其特征在于,所述将所述原始数据集作为语料库,对所述语料库进行语料扩充,利用BM25算法在所述语料库中进行粗略检索得到多个检索结果,利用monoT5模型和训练集对检索出的多个检索结果进行精细检索,得到多个预测结果,将所述多个预测结果输入至GPT

3大语言模型,生成最优答案,以构建多阶段文本检索模型,包括:将所述原始数据集作为语料库,采用doc2query方法将所述目标问题添加到对应的对话文本之后完成扩充;对所述语料库中的语料进行基于BM25的倒排索引排名,取出排名靠前的多个检索结果;使用合成数据集中的样本对初始的monoT5模型进行训练和验证,得到最优的monoT5模型,利用最优的monoT5模型对所述多个检索结果进行概率预测,取概率值较高的若干检索结果作为多个预测结果;将所述多个预测结果输入至GPT

3大语言模型,得到最优答案。3.根据权利要求2所述的多阶段文本检索方法,其特征在于,所述使用合成数据集中的样本对初始的monoT5模型进行训练和验证,得到最优的monoT5模型,利用最优的monoT5模型对所述多个检索结果进行概率预测,取概率值较高的若干检索结果作为多个预测结果,包括:将所述合成数据集中的样本的目标问题及对应的对话文本以及相关度作为输入,经初始的monoT5模型进行处理后得到真或假的处理结果,并与真实值进行损失计算与梯度更新,从而得到最优的monoT5模型;其中,所述相关度指目标问题及对应的对话文本的相关度;针对用户给定的目标问题和多个检索结果,利用最优的monoT5模型对所述多个检索结果进行概率预测,得到多个检索结果为真或假的概率值,根据为真的概率值对若干检索结果进行排序,将排序较高的多个检索结果作为多个预测结果。4.根据权利要求1所述的多阶段文本检索方法,其特征在于,所述针对所述原始数据集中的每一对话文本,利用GPT

3大语言模型生成对应的目标问题,将所述目标问题及对应的对话文本作为正样本;针对所述目标问题,在所述原始数据集中随机选择对话文本并构建为负样本;将所述正样本与负样本拼接成合成数据集,包括:将所述原始数据集中的每一对话文本以及一个前缀作为输入,经过GPT

3大语言模型
的处理,生成每个所述对话文本对应的目标问题,并将所述目标问题及对应的对话文本作为正样本;其中,所述前缀包含若干条...

【专利技术属性】
技术研发人员:陈嘉维黄志远苏红梅郭威远
申请(专利权)人:深圳市万物云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1