相似文本的检索方法、装置和系统制造方法及图纸

技术编号:25041905 阅读:25 留言:0更新日期:2020-07-29 05:32
本发明专利技术实施例提供了一种相似文本的检索方法、装置和系统。其中,相似文本的检索方法包括:对接收的查询文本进行对应的处理,获取与所述查询文本对应的文本向量;根据向量引擎中的索引,从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集;从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量,并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。通过本发明专利技术实施例,可以提升检索效率。

【技术实现步骤摘要】
相似文本的检索方法、装置和系统
本专利技术实施例涉及计算机
,尤其涉及一种相似文本的检索方法、装置和系统。
技术介绍
随着科技的发展,相似文本检索的应用越来越广泛,如,应用在论文反抄袭、垃圾信息识别等领域。以短信、群聊等的垃圾信息识别为例,通常是采用人工离线标注垃圾数据,使用标注的垃圾数据对机器学习中的识别模型进行训练,将识别模型上线用于垃圾信息识别,定期更新识别模型的方式进行垃圾信息识别。由于垃圾信息变异速度快,这种方式只能定期更新模型,且需要人工离线标注数据导致无法快速地响应业务需求。另一种进行垃圾信息识别的方式,是采用字符匹配的方式识别垃圾信息,通过判别输入文本是否是已经出现过的垃圾样本来进行垃圾信息识别。但是,这种方式难以适应在线流量非常大(即高QPS)的情况,且由于候选的垃圾样本集非常大,使得处理速度非常慢,耗时长,无法有效的支持业务需求。因此,如何提升检索速度,应对这种在线流量较大、高并发的情况,成为亟需解决的问题。
技术实现思路
有鉴于此,本专利技术实施例提供一种相似文本的检索方案,以解决上述问题。根据本专利技术实施例的第一方面,提供了一种相似文本的检索方法,所述方法包括:对接收的查询文本进行对应的处理,获取与所述查询文本对应的文本向量;根据向量引擎中的索引,从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集;从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量,并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。根据本专利技术实施例的第二方面,提供了一种相似文本的检索装置,所述装置包括:文本向量获取模块,用于对接收的查询文本进行对应的处理,获取与所述查询文本对应的文本向量;向量集获取模块,用于根据向量引擎中的索引,从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集;文本获取模块,用于从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量,并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。根据本专利技术实施例的第三方面,提供一种相似文本的检索系统,其包括第一分发单元、预处理单元、向量生成单元和向量引擎;所述第一分发单元,用于将接收到的查询文本,发送至所述预处理单元;所述预处理单元,用于对接收的所述查询文本进行预处理,并将与所述查询文本对应的预处理结果发送至所述第一分发单元;所述向量生成单元,用于根据从所述第一分发单元获取的与所述查询文本对应的预处理结果,生成与所述查询文本对应的文本向量,并将所述文本向量发送至所述第一分发单元;所述向量引擎,用于根据从所述第一分发单元获取的文本向量,进行检索,获得匹配的样本向量集,并从所述匹配的样本向量集中获得与所述文本向量相似度最高的N个相似的样本向量,将N个所述相似的样本向量对应的样本文本作为相似文本发送至所述第一分发单元;所述第一分发单元,还用于将所述向量引擎发送的相似文本发送至所述用户单元。根据本专利技术实施例提供的相似文本的检索方案,通过将样本向量分为多个样本向量集,并生成所述多个样本向量集对应的索引,检索时先检索出与所述查询文本对应的文本向量匹配的样本向量集,再从匹配的样本向量集中检索出相似的样本向量,最终根据所述相似的样本向量获得相似文本,通过这种检索方式提升了检索效率,满足了高并发场景的性能需求。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为根据本专利技术实施例一的一种相似文本的检索方法的步骤流程图;图2为根据本专利技术实施例二的一种相似文本的检索方法的步骤流程图;图3为根据本专利技术实施例四的一种相似文本的检索方法的步骤流程图;图4为根据本专利技术实施例五的一种相似文本的检索方法的步骤流程图;图5为根据本专利技术实施例六的一种相似文本的检索装置的结构框图;图6为根据本专利技术实施例七的一种相似文本的检索装置的结构框图;图7为根据本专利技术实施例八的一种电子设备的结构示意图;图8为本专利技术一实施例九的一种相似文本检索系统的结构示意图。具体实施方式为了使本领域的人员更好地理解本专利技术实施例中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术实施例一部分实施例,而不是全部的实施例。基于本专利技术实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本专利技术实施例保护的范围。下面结合本专利技术实施例附图进一步说明本专利技术实施例具体实现。实施例一参照图1,示出了根据本专利技术实施例一的一种相似文本的检索方法的步骤流程图。本实施例的相似文本的检索方法包括以下步骤:步骤S102:对接收的查询文本进行对应的处理,获取与所述查询文本对应的文本向量。具体地,所述查询文本可以是任何需要进行检索的文本,根据使用场景的不同,所述查询文本可以存在差别。例如,在论文反抄袭的使用场景中,所述查询文本可以是待检测的论文中的文本;在垃圾信息识别的使用场景中,所述查询文本可以是待识别的垃圾信息中的文本;在搜索工具的使用场景中,所述查询文本可以是用户输入的查询信息中的文本,等等。针对不同的使用场景,由于其场景特点不同,所述相似文本的检索方法相应地也具有不同的性能要求。在本实施例具体应用中,以所述方法应用在具有样本量巨大(可以到千万级甚至亿级)、变异样本多、并发量高等特点的使用场景中为例进行说明。其中,所述变异样本是指语义相同或相近,但文本中包含的字符不同或差异较大的文本。如“A**公司上市了”和“A**公司于2004年在纳斯达克敲钟了”互为变异文本。高并发量是指每秒需要正确处理并返回结果的请求量高,如,每秒需要处理上万的请求。当然,根据不同的使用场景,高并发量的请求数量可以不同。当然,在其他实施例中,所述方法可以应用在任何需要进行相似文本检索的使用场景中。由于向量查询的简便性和高效性,为了适应前述使用场景的特点,满足使用场景的性能需求,确保检索效率,适应高并发场景的性能需求,对接收的所述查询文本进行对应的处理,以获取所述查询文本对应的文本向量,以此保证在后续使用所述文本向量进行检索时能够使检索效率更高。在本实施例中,文本向量为K维实数向量。当然,对于本领域技术人员而言,其可以采用任何匹配的处理方式获得所述文本向量,不同的处理方式获得的所述文本向量的维度和形式可能不同,本实施对此不作限定。步骤S104:根据向量引擎中的索引,从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集。所述向量引擎可以通过硬件实现,也可以通过编写代码实现只要能够从多个样本向量集中检索出与所述文本向量匹配的样本向量集即可。向量引本文档来自技高网...

【技术保护点】
1.一种相似文本的检索方法,其特征在于,所述方法包括:/n对接收的查询文本进行对应的处理,获取与所述查询文本对应的文本向量;/n根据向量引擎中的索引,从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集;/n从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量,并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。/n

【技术特征摘要】
1.一种相似文本的检索方法,其特征在于,所述方法包括:
对接收的查询文本进行对应的处理,获取与所述查询文本对应的文本向量;
根据向量引擎中的索引,从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集;
从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量,并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。


2.根据权利要求1所述的方法,其特征在于:
对接收的所述查询文本进行预处理,获取所述查询文本中的词;
根据获取的所述词的词向量,生成与所述查询文本对应的所述文本向量。


3.根据权利要求2所述的方法,其特征在于:
对获取的所述词的词向量进行加权平均处理,根据所述加权平均处理的处理结果,生成与所述查询文本对应的所述文本向量。


4.根据权利要求1所述的方法,其特征在于:所述文本向量用于表示所述查询文本的语义;所述索引根据所述多个样本向量集中各自包含的所述至少一样本向量生成,所述样本向量用于表示其所对应的样本文本的语义。


5.根据权利要求1所述的方法,其特征在于:
根据所述查询文本对应的文本向量与所述样本向量集中的各所述样本向量间的相似度,确定与所述查询文本对应的文本向量相似度最高的N个相似的样本向量,N为正整数;
获得N个所述相似的样本向量所对应的样本文本,并将N个所述样本文本作为所述查询文本的相似文本。


6.根据权利要求5所述的方法,其特征在于:
使用第一相似度算法,计算所述文本向量与所述样本向量集中各所述样本向量间的第一相似度,根据所述第一相似度确定候选样本向量;
使用第二相似度算法,计算所述文本向量与所述候选样本向量间的第二相似度,根据所述第二相似度确定相似度最高的N个所述相似的样本向量;
所述第一相似度算法的计算量小于所述第二相似度算法的计算量。


7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述向量引擎中的所述索引以及所述索引对应样本向量集进行更新。


8.根据权利要求1所述的方法,其特征在于,当所述查询文本为短信或即时通信消息时,所述方法用于检索短信或即时通信消息的相似文本。


9.一种相似文本的检索装置,其特征在于,所述装置包括:
文本向量获取模块,用于对接收的查询文本进行对应的处理,获取与所述查询文本对应的文本向量;
向量集获取模块,用于根据向量引擎中的索引,从多个样本向量集中检索出与所述查询文本对应的文本向量匹配的样本向量集;
文本获取模块,用于从所述样本向量集中获取与所述查询文本对应的文本向量相似的样本向量,并将所述相似的样本向量对应的样本文本作为所述查询文本的相似文本。


10.根据权利要求9所述的装置,其特征在于,所述文本向量获取模块包括:
预处理模块,用于对接收的所述查询文本进行预处理,获取所述查询文本中与所述查询文本对应的词;
生成模块,用于根据获取的所述词的词向量,生成与所述查询文本对应的所述文本向量。


11.根据权利要求10所述的装置,其特征在于,所述生成模块具体用于:对获取的所述词的词向量进行加权平均处理,根据所述加权平均处理的处理结果,生成与所述查询文本对应的所述文本向量。


12.根据权利要求9所述的装置,其特征在于,所述文本向量用于表示所述查询文本的语义;所述索引根据所述多个样本向量集中各自包含的所述至少一样本向量生成,所述样本向量用于表...

【专利技术属性】
技术研发人员:康杨杨周笑添孙常龙刘晓钟司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1