多阶段文本检索方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：39058707 阅读：24 留言：0更新日期：2023-10-12 19:51

本发明专利技术公开了一种多阶段文本检索方法、装置、计算机设备及存储介质，其方法包括：对物业文本数据进行预处理，得到原始数据集；使用GPT

全部详细技术资料下载

【技术实现步骤摘要】
多阶段文本检索方法、装置、计算机设备及存储介质

[0001]本专利技术涉及物业信息管理
，尤其涉及一种多阶段文本检索方法、装置、计算机设备及存储介质。

技术介绍

[0002]物业客服每天需要处理大量的电话来电，解决业主们的各种问题和需求，这不仅消耗大量的人力资源，而且对客服人员来说，提供高质量的咨询服务也是一项挑战。随着科技的快速发展，智能机器便应用到了物业小区中，业主可在24小时内随时随地通过智能机器提出诉求，为业主解决问题，从而为物业的工作人员减轻负担，但是目前的智能机器还存在一些问题，比如，面对海量的信息不能准确高效地识别出业主提出的问题，导致不能快速检索出需要的信息以及最优结果。

技术实现思路

[0003]本专利技术的目的是提供一种多阶段文本检索方法、装置、计算机设备及存储介质，旨在解决目前物业小区中对业主咨询问题的识别率不高的问题。
[0004]第一方面，本专利技术实施例提供一种多阶段文本检索方法，包括：
[0005]对物业文本数据进行预处理，得到包含多条对话文本的原始数据集；
[0006]针对所述原始数据集中的每一对话文本，利用GPT
‑
3大语言模型生成对应的目标问题，将所述目标问题及对应的对话文本作为正样本；针对所述目标问题，在所述原始数据集中随机选择对话文本并构建为负样本；将所述正样本与负样本拼接成合成数据集；
[0007]将所述原始数据集作为语料库，对所述语料库进行语料扩充，利用BM25算法在所述语料库中对用户给定的目标问题进行...

【技术保护点】

【技术特征摘要】
1.一种多阶段文本检索方法，其特征在于，包括：对物业文本数据进行预处理，得到包含多条对话文本的原始数据集；针对所述原始数据集中的每一对话文本，利用GPT
‑
3大语言模型生成对应的目标问题，将所述目标问题及对应的对话文本作为正样本；针对所述目标问题，在所述原始数据集中随机选择对话文本并构建为负样本；将所述正样本与负样本拼接成合成数据集；将所述原始数据集作为语料库，对所述语料库进行语料扩充，利用BM25算法在所述语料库中对用户给定的目标问题进行粗略检索得到多个检索结果，利用monoT5模型和合成数据集对检索出的多个检索结果进行精细检索，得到多个预测结果，从所述多个预测结果中筛选出最优答案，以构建多阶段文本检索模型；对所述多阶段文本检索模型进行部署并对用户输入的当前问题进行检索。2.根据权利要求1所述的多阶段文本检索方法，其特征在于，所述将所述原始数据集作为语料库，对所述语料库进行语料扩充，利用BM25算法在所述语料库中进行粗略检索得到多个检索结果，利用monoT5模型和训练集对检索出的多个检索结果进行精细检索，得到多个预测结果，将所述多个预测结果输入至GPT
‑
3大语言模型，生成最优答案，以构建多阶段文本检索模型，包括：将所述原始数据集作为语料库，采用doc2query方法将所述目标问题添加到对应的对话文本之后完成扩充；对所述语料库中的语料进行基于BM25的倒排索引排名，取出排名靠前的多个检索结果；使用合成数据集中的样本对初始的monoT5模型进行训练和验证，得到最优的monoT5模型，利用最优的monoT5模型对所述多个检索结果进行概率预测，取概率值较高的若干检索结果作为多个预测结果；将所述多个预测结果输入至GPT
‑
3大语言模型，得到最优答案。3.根据权利要求2所述的多阶段文本检索方法，其特征在于，所述使用合成数据集中的样本对初始的monoT5模型进行训练和验证，得到最优的monoT5模型，利用最优的monoT5模型对所述多个检索结果进行概率预测，取概率值较高的若干检索结果作为多个预测结果，包括：将所述合成数据集中的样本的目标问题及对应的对话文本以及相关度作为输入，经初始的monoT5模型进行处理后得到真或假的处理结果，并与真实值进行损失计算与梯度更新，从而得到最优的monoT5模型；其中，所述相关度指目标问题及对应的对话文本的相关度；针对用户给定的目标问题和多个检索结果，利用最优的monoT5模型对所述多个检索结果进行概率预测，得到多个检索结果为真或假的概率值，根据为真的概率值对若干检索结果进行排序，将排序较高的多个检索结果作为多个预测结果。4.根据权利要求1所述的多阶段文本检索方法，其特征在于，所述针对所述原始数据集中的每一对话文本，利用GPT
‑
3大语言模型生成对应的目标问题，将所述目标问题及对应的对话文本作为正样本；针对所述目标问题，在所述原始数据集中随机选择对话文本并构建为负样本；将所述正样本与负样本拼接成合成数据集，包括：将所述原始数据集中的每一对话文本以及一个前缀作为输入，经过GPT
‑
3大语言模型
的处理，生成每个所述对话文本对应的目标问题，并将所述目标问题及对应的对话文本作为正样本；其中，所述前缀包含若干条...

【专利技术属性】
技术研发人员：陈嘉维，黄志远，苏红梅，郭威远，
申请(专利权)人：深圳市万物云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人