文本检索方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：24996087 阅读：40 留言：0更新日期：2020-07-24 17:58

本申请涉及一种文本检索方法、装置、计算机设备和存储介质。所述方法通过响应于文本检索请求，将文本检索请求中的检索语句在待检索文本集中通过TF‑IDF算法进行匹配，得到匹配的设定个数的候选文本，并通过语义表示学习模型获取检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量，并根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，进而根据目标个数的候选文本中每个候选文本相对于检索语句的历史关联度的大小对目标个数的候选文本进行排序，其通过两次筛选和排序从而实现基于语义理解的文本检索，不仅提高了文本检索的匹配度，且提高了检索效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本检索方法、装置、计算机设备和存储介质
本申请涉及文本检索
，特别是涉及一种文本检索方法、装置、计算机设备和存储介质。
技术介绍
随着文本检索技术的发展，越来越多的场合需要用到文本检索。传统技术中，文本检索通常是基于关键词的检索，其更强调字面内容的精确匹配，即待检索文本中必须包含与用户的检索语句完全一致的词汇，才能检索到匹配的目标文本。然而，目前基于关键词的检索的文本检索方式存在匹配度低的问题，从而严重影响了检索效率。
技术实现思路
基于此，有必要针对上述精确匹配导致检索效率低的问题，提供一种文本检索方法、装置、计算机设备和存储介质。根据本申请的第一方面，提供一种文本检索方法，所述方法包括：响应于文本检索请求，其中，文本检索请求中包括检索语句；将检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本；根据文本特征对候选文本进行拆分，得到拆分后的与每个候选文本对应的多个文本段，采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段；通过语义表示学习模型获取检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量，其中语义表示学习模型是基于语义表示预训练模型BERT的网络架构实现的；根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，所述目标个数小于设定个数；计算所述目标个数的候选文本中每个候选文本相对于所述检索语句的历...

【技术保护点】
1.一种文本检索方法，其特征在于，所述方法包括：/n响应于文本检索请求，所述文本检索请求中包括检索语句；/n将所述检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本；/n根据文本特征对所述候选文本进行拆分，得到拆分后的与每个候选文本对应的多个文本段，采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段；/n通过语义表示学习模型获取所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量，所述语义表示学习模型是基于语义表示预训练模型BERT的网络架构实现的；/n根据所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，所述目标个数小于设定个数；/n计算所述目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度，根据所述历史关联度的大小对所述目标个数的候选文本进行排序，所述历史关联度根据对应候选文本的历史点击率和历史下载率得到；/n将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本。/n

【技术特征摘要】
1.一种文本检索方法，其特征在于，所述方法包括：
响应于文本检索请求，所述文本检索请求中包括检索语句；
将所述检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本；
根据文本特征对所述候选文本进行拆分，得到拆分后的与每个候选文本对应的多个文本段，采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段；
通过语义表示学习模型获取所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量，所述语义表示学习模型是基于语义表示预训练模型BERT的网络架构实现的；
根据所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，所述目标个数小于设定个数；
计算所述目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度，根据所述历史关联度的大小对所述目标个数的候选文本进行排序，所述历史关联度根据对应候选文本的历史点击率和历史下载率得到；
将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本。

2.根据权利要求1所述的文本检索方法，其特征在于，所述将所述检索语句在待检索文本集中通过TF-IDF算法进行匹配，得到匹配的设定个数的候选文本，包括：
根据TF-IDF算法获取待检索文本集中每一个待检索文本与所述检索语句之间的TF-IDF值；
根据每一个待检索文本与所述检索语句之间的TF-IDF值的大小对所述待检索文本进行排序；
将排序靠前的设定个数的待检索文本作为匹配的候选文本。

3.根据权利要求1所述的文本检索方法，其特征在于，所述根据所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量之间的相似度，获取相似度较高的目标个数的候选文本，包括：
计算每一个所述候选文本中重要文本段的第二特征向量与所述检索语句的第一特征向量之间的相似度；
将所述候选文本中相似度最高的所述重要文本段的相似度确定为对应候选文本的相似度；
根据所述候选文本的相似度的大小对所述候选文本进行排序；
将排序结果中排序靠前的目标个数的候选文本确定为相似度较高的目标个数的候选文本。

4.根据权利要求1所述的文本检索方法，其特征在于，所述将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本之前，所述方法还包括：
获取历史检索数据，所述历史检索数据中包括历史检索语句以及与所述历史检索语句对应的历史目标检索文本；
若所述历史检索数据中不存在与所述检索语句匹配的历史检索语句，则将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本；
若所述历史检索数据中存在与所述检索语句匹配的历史检索语句，则将与所述历史检索语句对应的历史目标检索文本，确定为与所述检索语句对应的目标检索文本。

5.根据权利要求1所述的文本检索方法，其特征在于，所述计算所述目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度，包括：

【专利技术属性】
技术研发人员：时爱民，杨刚，叶俊锋，仲如星，
申请(专利权)人：太平金融科技服务上海有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人