相似文本的检索方法、装置和系统制造方法及图纸

技术编号：25041905 阅读：25 留言：0更新日期：2020-07-29 05:32

本发明专利技术实施例提供了一种相似文本的检索方法、装置和系统。其中，相似文本的检索方法包括：对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量；根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集；从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。通过本发明专利技术实施例，可以提升检索效率。

全部详细技术资料下载

【技术实现步骤摘要】
相似文本的检索方法、装置和系统
本专利技术实施例涉及计算机
，尤其涉及一种相似文本的检索方法、装置和系统。
技术介绍
随着科技的发展，相似文本检索的应用越来越广泛，如，应用在论文反抄袭、垃圾信息识别等领域。以短信、群聊等的垃圾信息识别为例，通常是采用人工离线标注垃圾数据，使用标注的垃圾数据对机器学习中的识别模型进行训练，将识别模型上线用于垃圾信息识别，定期更新识别模型的方式进行垃圾信息识别。由于垃圾信息变异速度快，这种方式只能定期更新模型，且需要人工离线标注数据导致无法快速地响应业务需求。另一种进行垃圾信息识别的方式，是采用字符匹配的方式识别垃圾信息，通过判别输入文本是否是已经出现过的垃圾样本来进行垃圾信息识别。但是，这种方式难以适应在线流量非常大(即高QPS)的情况，且由于候选的垃圾样本集非常大，使得处理速度非常慢，耗时长，无法有效的支持业务需求。因此，如何提升检索速度，应对这种在线流量较大、高并发的情况，成为亟需解决的问题。
技术实现思路
有鉴于此，本专利技术实施例提供一种相似文本的检索方案，以解决上述问题。根据本专利技术实施例的第一方面，提供了一种相似文本的检索方法，所述方法包括：对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量；根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集；从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的...

【技术保护点】
1.一种相似文本的检索方法，其特征在于，所述方法包括：/n对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量；/n根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集；/n从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。/n

【技术特征摘要】
1.一种相似文本的检索方法，其特征在于，所述方法包括：
对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量；
根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集；
从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。

2.根据权利要求1所述的方法，其特征在于：
对接收的所述查询文本进行预处理，获取所述查询文本中的词；
根据获取的所述词的词向量，生成与所述查询文本对应的所述文本向量。

3.根据权利要求2所述的方法，其特征在于：
对获取的所述词的词向量进行加权平均处理，根据所述加权平均处理的处理结果，生成与所述查询文本对应的所述文本向量。

4.根据权利要求1所述的方法，其特征在于：所述文本向量用于表示所述查询文本的语义；所述索引根据所述多个样本向量集中各自包含的所述至少一样本向量生成，所述样本向量用于表示其所对应的样本文本的语义。

5.根据权利要求1所述的方法，其特征在于：
根据所述查询文本对应的文本向量与所述样本向量集中的各所述样本向量间的相似度，确定与所述查询文本对应的文本向量相似度最高的N个相似的样本向量，N为正整数；
获得N个所述相似的样本向量所对应的样本文本，并将N个所述样本文本作为所述查询文本的相似文本。

6.根据权利要求5所述的方法，其特征在于：
使用第一相似度算法，计算所述文本向量与所述样本向量集中各所述样本向量间的第一相似度，根据所述第一相似度确定候选样本向量；
使用第二相似度算法，计算所述文本向量与所述候选样本向量间的第二相似度，根据所述第二相似度确定相似度最高的N个所述相似的样本向量；
所述第一相似度算法的计算量小于所述第二相似度算法的计算量。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：
对所述向量引擎中的所述索引以及所述索引对应样本向量集进行更新。

8.根据权利要求1所述的方法，其特征在于，当所述查询文本为短信或即时通信消息时，所述方法用于检索短信或即时通信消息的相似文本。

9.一种相似文本的检索装置，其特征在于，所述装置包括：
文本向量获取模块，用于对接收的查询文本进行对应的处理，获取与所述查询文本对应的文本向量；
向量集获取模块，用于根据向量引擎中的索引，从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集；
文本获取模块，用于从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量，并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。

10.根据权利要求9所述的装置，其特征在于，所述文本向量获取模块包括：
预处理模块，用于对接收的所述查询文本进行预处理，获取所述查询文本中与所述查询文本对应的词；
生成模块，用于根据获取的所述词的词向量，生成与所述查询文本对应的所述文本向量。

11.根据权利要求10所述的装置，其特征在于，所述生成模块具体用于：对获取的所述词的词向量进行加权平均处理，根据所述加权平均处理的处理结果，生成与所述查询文本对应的所述文本向量。

12.根据权利要求9所述的装置，其特征在于，所述文本向量用于表示所述查询文本的语义；所述索引根据所述多个样本向量集中各自包含的所述至少一样本向量生成，所述样本向量用于表...

【专利技术属性】
技术研发人员：康杨杨，周笑添，孙常龙，刘晓钟，司罗，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人