文本检索方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24996087 阅读:40 留言:0更新日期:2020-07-24 17:58
本申请涉及一种文本检索方法、装置、计算机设备和存储介质。所述方法通过响应于文本检索请求,将文本检索请求中的检索语句在待检索文本集中通过TF‑IDF算法进行匹配,得到匹配的设定个数的候选文本,并通过语义表示学习模型获取检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量,并根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度,获取相似度较高的目标个数的候选文本,进而根据目标个数的候选文本中每个候选文本相对于检索语句的历史关联度的大小对目标个数的候选文本进行排序,其通过两次筛选和排序从而实现基于语义理解的文本检索,不仅提高了文本检索的匹配度,且提高了检索效率。

【技术实现步骤摘要】
文本检索方法、装置、计算机设备和存储介质
本申请涉及文本检索
,特别是涉及一种文本检索方法、装置、计算机设备和存储介质。
技术介绍
随着文本检索技术的发展,越来越多的场合需要用到文本检索。传统技术中,文本检索通常是基于关键词的检索,其更强调字面内容的精确匹配,即待检索文本中必须包含与用户的检索语句完全一致的词汇,才能检索到匹配的目标文本。然而,目前基于关键词的检索的文本检索方式存在匹配度低的问题,从而严重影响了检索效率。
技术实现思路
基于此,有必要针对上述精确匹配导致检索效率低的问题,提供一种文本检索方法、装置、计算机设备和存储介质。根据本申请的第一方面,提供一种文本检索方法,所述方法包括:响应于文本检索请求,其中,文本检索请求中包括检索语句;将检索语句在待检索文本集中通过TF-IDF算法进行匹配,得到匹配的设定个数的候选文本;根据文本特征对候选文本进行拆分,得到拆分后的与每个候选文本对应的多个文本段,采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段;通过语义表示学习模型获取检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量,其中语义表示学习模型是基于语义表示预训练模型BERT的网络架构实现的;根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度,获取相似度较高的目标个数的候选文本,所述目标个数小于设定个数;计算所述目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度,根据所述历史关联度的大小对所述目标个数的候选文本进行排序,所述历史关联度根据对应候选文本的历史点击率和历史下载率得到;将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本。在其中一个实施例中,将检索语句在待检索文本集中通过TF-IDF算法进行匹配,得到匹配的设定个数的候选文本,包括:根据TF-IDF算法获取待检索文本集中每一个待检索文本与检索语句之间的TF-IDF值;根据每一个待检索文本与检索语句之间的TF-IDF值的大小对待检索文本进行排序;将排序靠前的设定个数的待检索文本作为匹配的候选文本。在其中一个实施例中,根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度,获取相似度较高的目标个数的候选文本,包括:计算每一个候选文本中重要文本段的第二特征向量与检索语句的第一特征向量之间的相似度;将候选文本中相似度最高的重要文本段的相似度确定为对应候选文本的相似度;根据候选文本的相似度的大小对候选文本进行排序;将排序结果中排序靠前的目标个数的候选文本确定为相似度较高的目标个数的候选文本。在其中一个实施例中,将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本之前,所述方法还包括:获取历史检索数据,其中,历史检索数据中包括历史检索语句以及与历史检索语句对应的历史目标检索文本;若历史检索数据中不存在与检索语句匹配的历史检索语句,则将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本;若历史检索数据中存在与检索语句匹配的历史检索语句,则将与历史检索语句对应的历史目标检索文本,确定为与检索语句对应的目标检索文本。在其中一个实施例中,所述方法还包括:计算目标个数的候选文本中每个候选文本相对于检索语句的历史关联度,包括:根据检索语句在目标个数的候选文本中进行全词匹配,得到匹配的文本数量以及对应的候选文本;采用如下公式计算目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度,所述公式为:,其中,C为候选文本相对于检索语句的历史关联度,R为根据候选文本的历史点击率和历史下载率分别对应的权重得到的关联度系数,T为目标个数,D为匹配的文本数量。在其中一个实施例中,语义表示学习模型的生成方法包括:获取训练数据集,其中,训练数据集包括若干个保险领域的非结构化文本数据;根据文本特征对每一个非结构化文本数据进行文本拆分,得到拆分后的多个文本段,其中,文本特征包括文本的字体属性、字号属性以及内容标识属性;对每个文本段进行向量编码,得到与文本段对应的特征向量;根据特征向量训练初始语义表示预训练模型,得到语义表示学习模型。在其中一个实施例中,对每个文本段进行向量编码,得到与文本段对应的特征向量,包括:对每一个文本段分别进行字向量编码、文本向量编码以及位置向量编码,得到对应文本段的字向量、文本向量以及位置向量;将字向量、文本向量以及位置向量之和作为对应文本段的特征向量。根据本申请的第二方面,提供一种文本检索装置,包括:请求响应模块,用于响应于文本检索请求,其中文本检索请求中包括检索语句;第一匹配模块,用于将检索语句在待检索文本集中通过TF-IDF算法进行匹配,得到匹配的设定个数的候选文本;文本段处理模块,用于根据文本特征对所述候选文本进行拆分,得到拆分后的与每个候选文本对应的多个文本段,采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段;特征向量获取模块,用于通过语义表示学习模型获取检索语句的第一特征向量和每个候选文本的第二特征向量;目标检索文本确定模块,用于根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量,所述语义表示学习模型是基于语义表示预训练模型BERT的网络架构实现的;第二匹配模块,用于根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度,获取相似度较高的目标个数的候选文本,所述目标个数小于设定个数;排序模块,用于计算目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度,根据历史关联度的大小对目标个数的候选文本进行排序,所述历史关联度根据对应候选文本的历史点击率和历史下载率得到;目标检索文本确定模块,用于将排序后的目标个数的候选文本确定为与检索语句对应的目标检索文本。根据本申请的第三方面,提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面的任一项实施例中所述的文本检索方法。根据本申请的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面的任一项实施例中所述的文本检索方法。上述文本检索方法、装置、计算机设备和存储介质,通过响应于文本检索请求,将文本检索请求中的检索语句在待检索文本集中通过TF-IDF算法进行匹配,得到匹配的设定个数的候选文本,根据文本特征对候选文本进行拆分,得到拆分后的与每个候选文本对应的多个文本段,采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段,并通过语义表示学习模型获取检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量,进而根据检索语句的第一特征向量和每个候选文本中重要文本段的第二特征向量之间的相似度,获取相似度较高的目标个数的候选文本,计算目标个数的候选文本中每个候选文本相对于检索语句的历史关联度,根据历史关联本文档来自技高网...

【技术保护点】
1.一种文本检索方法,其特征在于,所述方法包括:/n响应于文本检索请求,所述文本检索请求中包括检索语句;/n将所述检索语句在待检索文本集中通过TF-IDF算法进行匹配,得到匹配的设定个数的候选文本;/n根据文本特征对所述候选文本进行拆分,得到拆分后的与每个候选文本对应的多个文本段,采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段;/n通过语义表示学习模型获取所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量,所述语义表示学习模型是基于语义表示预训练模型BERT的网络架构实现的;/n根据所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量之间的相似度,获取相似度较高的目标个数的候选文本,所述目标个数小于设定个数;/n计算所述目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度,根据所述历史关联度的大小对所述目标个数的候选文本进行排序,所述历史关联度根据对应候选文本的历史点击率和历史下载率得到;/n将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本。/n

【技术特征摘要】
1.一种文本检索方法,其特征在于,所述方法包括:
响应于文本检索请求,所述文本检索请求中包括检索语句;
将所述检索语句在待检索文本集中通过TF-IDF算法进行匹配,得到匹配的设定个数的候选文本;
根据文本特征对所述候选文本进行拆分,得到拆分后的与每个候选文本对应的多个文本段,采用XGBoost算法筛选每个候选文本对应的多个文本段中的重要文本段;
通过语义表示学习模型获取所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量,所述语义表示学习模型是基于语义表示预训练模型BERT的网络架构实现的;
根据所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量之间的相似度,获取相似度较高的目标个数的候选文本,所述目标个数小于设定个数;
计算所述目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度,根据所述历史关联度的大小对所述目标个数的候选文本进行排序,所述历史关联度根据对应候选文本的历史点击率和历史下载率得到;
将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本。


2.根据权利要求1所述的文本检索方法,其特征在于,所述将所述检索语句在待检索文本集中通过TF-IDF算法进行匹配,得到匹配的设定个数的候选文本,包括:
根据TF-IDF算法获取待检索文本集中每一个待检索文本与所述检索语句之间的TF-IDF值;
根据每一个待检索文本与所述检索语句之间的TF-IDF值的大小对所述待检索文本进行排序;
将排序靠前的设定个数的待检索文本作为匹配的候选文本。


3.根据权利要求1所述的文本检索方法,其特征在于,所述根据所述检索语句的第一特征向量和每个所述候选文本中重要文本段的第二特征向量之间的相似度,获取相似度较高的目标个数的候选文本,包括:
计算每一个所述候选文本中重要文本段的第二特征向量与所述检索语句的第一特征向量之间的相似度;
将所述候选文本中相似度最高的所述重要文本段的相似度确定为对应候选文本的相似度;
根据所述候选文本的相似度的大小对所述候选文本进行排序;
将排序结果中排序靠前的目标个数的候选文本确定为相似度较高的目标个数的候选文本。


4.根据权利要求1所述的文本检索方法,其特征在于,所述将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本之前,所述方法还包括:
获取历史检索数据,所述历史检索数据中包括历史检索语句以及与所述历史检索语句对应的历史目标检索文本;
若所述历史检索数据中不存在与所述检索语句匹配的历史检索语句,则将排序后的所述目标个数的候选文本确定为与所述检索语句对应的目标检索文本;
若所述历史检索数据中存在与所述检索语句匹配的历史检索语句,则将与所述历史检索语句对应的历史目标检索文本,确定为与所述检索语句对应的目标检索文本。


5.根据权利要求1所述的文本检索方法,其特征在于,所述计算所述目标个数的候选文本中每个候选文本相对于所述检索语句的历史关联度,包括:

【专利技术属性】
技术研发人员:时爱民杨刚叶俊锋仲如星
申请(专利权)人:太平金融科技服务上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1