一种文本相似度确定方法及装置制造方法及图纸

技术编号:15616569 阅读:109 留言:0更新日期:2017-06-14 03:29
本申请实施例中提供了一种文本相似度确定方法及装置,该方法包括:获取第一文本与第二文本;确定第一文本与第二文本的相似字符串;确定相似字符串与第二文本的结构相似度;根据相似字符串与第一文本或第二文本的结构相似度,确定第一文本与第二文本的相似度。本申请实施例中的方案,能够解决现有技术中的本相似度的确定方法不够准确的问题。

【技术实现步骤摘要】
一种文本相似度确定方法及装置
本申请涉及大数据处理技术,具体涉及一种文本相似度确定方法及装置。
技术介绍
在现有技术中,文本相似度确定方法如下:将待进行相似度比较的文本分别向量化;分别计算文本向量的余弦相似度,并将两个文本向量的余弦相似度作为两个文本之间的相似度。现有技术中的文本相似度确定方法,由于是通过两个文本向量的余弦相似度来判断文本相似度,因此,偏向于将文字上重合度较高的文本认为是更相似的地址,但是,在待比较的文本为地址时,可能出现不够准确的情况,例如,采用现有技术中的方法,得到的结果可能是“XX省XX市淘宝城”与“淘宝城”的相似度要低于其与“XX省XX市”的相似度,准确性低。
技术实现思路
本申请实施例中提供了一种文本相似度确定方法及装置,用于解决现有技术中的文本相似度的确定方法准确性低的问题。根据本申请实施例的一个方面,提供了一种文本相似度确定方法,包括:获取第一文本与第二文本;确定第一文本与第二文本的相似字符串;确定相似字符串与第二文本的结构相似度;根据相似字符串与第二文本的结构相似度,确定第一文本与第二文本的相似度。根据本申请实施例的另一个方面,提供了一种文本相似度确定装置,包括:获取模块,用于获取第一文本与第二文本;相似字符串确定模块,用于确定第一文本与第二文本的相似字符串;字符串与文本相似度确定模块,用于确定相似字符串与第二文本的结构相似度;文本相似度确定模块,用于根据相似字符串与第二文本的结构相似度,确定第一文本与第二文本的相似度。采用本申请实施例中的方案,先确定第一文本和第二文本之间的相似字符串,并根据相似字符串与所述第二文本的结构相似度来确定第一文本与第二文本的相似度,由于考虑两个文本之间相似字符串与第二文本的结构相似度,与现有技术中根据两个文本向量的余弦相似度来判断文本相似度的方法相比,提高了确定结果的准确度。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例一所示的文本相似度确定方法的流程图;图2为本申请实施例一中确定第一地址和第二地址的相似字符串的方法流程图;图3为本申请实施例二所示的结构示意图。具体实施方式为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。在实现本申请的过程中,申请人发现,现有技术中的文本相似度确定方法,由于是通过两个文本向量的余弦相似度来判断文本相似度,因此,偏向于将文字上重合度较高的文本认为是更相似的地址,但是,在待比较的文本为地址时,可能出现不够准确的情况,例如,采用现有技术中的方法,得到的结果可能是“XX省XX市淘宝城”与“淘宝城”的相似度要低于其与“XX省XX市”的相似度,不够准确。针对上述问题,本申请实施例中提供了一种文本相似度确定方法及装置,先确定第一文本和第二文本之间的相似字符串,并根据相似字符串与第一文本或第二文本的结构相似度来确定第一文本与第二文本的相似度,由于考虑两个文本之间相似字符串与第二文本的结构相似度,与现有技术中根据两个文本向量的余弦相似度来判断文本相似度的方法相比,提高了准确度。本申请实施例中的方案可以应用于电商平台的商品搜索中,也可以应用于车联网的车主档案搜索中,还可以应用于如高德地图、百度地图等的多种地图产品的地址搜索中。本申请实施例中的文本相似度确定方法可以使用如面向对象的程序设计语言java语言等的计算机语言实现。图1为本申请实施例一所示的文本相似度确定方法的流程图。如图1所示,根据本申请实施例一所示的文本相似度确定方法包括以下步骤:S102,获取第一文本与第二文本;S104,确定第一文本与第二文本的相似字符串;S106,确定相似字符串与第一文本或第二文本的结构相似度;S108,根据相似字符串与第二文本的结构相似度,确定第一文本与第二文本的相似度。在具体实施时,该第一文本和第二文本可以是如地址、商品名称的短文本,也可以是如车主档案等的长文本,本申请对此不作限制。在本申请实施例中,结构相似度可以是指字符串的内容结构与文本的相似程度,更具体地,可以是指字符串在文本中出现的条件概率。采用本申请实施例中的文本相似度确定方法,先确定第一文本和第二文本之间的相似字符串,并根据相似字符串与所述第二文本的结构相似度来确定第一文本与第二文本的相似度,由于考虑两个文本之间相似字符串与第二文本的结构相似度,与现有技术中根据两个文本向量的余弦相似度来判断文本相似度的方法相比,准确度较高。后续实施例中,以第一文本和第二文本分别为待搜索地址和候选地址为例,对本申请实施例进行进一步描述。在具体实施时,可以是第一文本为待搜索地址,第二文本为候选地址;也可以是第一文本为候选地址,第二文本为待搜索地址,本申请对此不作限制。在具体实施时,待搜索地址可以是用户输入的,想要搜索的地址。候选地址可以是地址库中与用户输入的待搜索地址相关的地址。在用户进行地址搜索时,有时会出现用户输入的地址和地址库中的地址不能完全匹配的情况。比如用户在搜索引擎中输入:“XX市淘宝城”,但是地址库中存储的、与用户输入的地址相关的候选地址可能是:“XX省XX区XXX号XXX淘宝城”或者“XX区XXX号XXX淘宝城”。此时,需要确定待搜索地址和候选地址之间的相似度来找出与用户输入的待搜索地址相似度最大的几个候选地址供用户参考和选择。在现有技术中,确定参考地址的方法如下:从地址库中查询与用户输入的地址近似的多条候选地址;将用户输入的地址及该多条候选地址分别向量化;分别计算用户输入的地址向量和该多条地址向量的余弦相似度,并将两个地址向量的余铉相似度作为两个地址之间的相似度;然后按计算得到的余弦相似度从大到小排序,然后根据策略,取与用户输入地址相似度大于预定阈值的前N个地址供用户参考。采用上述方法,由于是通过两个地址向量的余弦相似度来判断地址相似度,因此,偏向于将文字上重合度较高的地址认为是更相似的地址,例如,采用现有技术中的方法,得到的结果可能是“XX省XX市淘宝城”与“淘宝城”的相似度要低于其与“XX省XX市”的相似度,不够准确。而采用本申请实施例中的方案以后,由于是先确定待搜索地址与候选地址的相似字符串,再根据相似字符串与某一地址的结构相似度来确定地址之间的相似度,即,考虑两个文本之间相似字符串与第二文本的结构相似度,与现有技术中根据两个文本向量的余弦相似度来判断文本相似度的方法相比,准确度较高。优选地,获取第一文本与第二文本具体包括:接收用户输入的字符,其中,字符包括待搜索地址;从用户输入的字符中提取待搜索地址;获取地址库中与待搜索地址相关的候选地址。在具体实施时,可以通过终端上的输入模块接收用户输入的字符;在包括待搜索地址之外,还可以包括用户输入的其他字符,例如,用户输入的字符为“我想去淘宝城”,则可以从该字符中提取待搜索地址为“淘宝城”。具体的地址提取方法可以采用现有技术中的常用方法,此处不赘述。优选地,获取地址库中与所述待搜索地址相关的候选地址本文档来自技高网...
一种文本相似度确定方法及装置

【技术保护点】
一种文本相似度确定方法,其特征在于,包括:获取第一文本与第二文本;确定所述第一文本与所述第二文本的相似字符串;确定所述相似字符串与所述第一文本或第二文本的结构相似度;根据所述结构相似度,确定所述第一文本与所述第二文本的相似度。

【技术特征摘要】
1.一种文本相似度确定方法,其特征在于,包括:获取第一文本与第二文本;确定所述第一文本与所述第二文本的相似字符串;确定所述相似字符串与所述第一文本或第二文本的结构相似度;根据所述结构相似度,确定所述第一文本与所述第二文本的相似度。2.根据权利要求1所述的方法,其特征在于,所述第一文本和所述第二文本分别为待搜索地址和候选地址。3.根据权利要求2所述的方法,其特征在于,获取第一文本与第二文本具体包括:接收用户输入的字符,其中,所述字符包括待搜索地址;从用户输入的字符中提取所述待搜索地址;获取地址库中与所述待搜索地址相关的候选地址。4.根据权利要求3所述的方法,其特征在于,获取地址库中与所述待搜索地址相关的候选地址具体包括:确定所述待搜索地址中的最小单元;在所述地址库中查询所述最小单元对应的节点,并将所述节点下的所有分支地址作为搜索结果;其中,所述地址库中的地址按地址范围从小到大以树形结构存储;将搜索结果作为候选地址。5.根据权利要求2所述的方法,其特征在于,确定所述第一文本与所述第二文本的相似字符串具体包括:获取所述第一文本的字符串长度L第一文本与第二文本字符串长度L第二文本;判断所述L第一文本与所述L第二文本的大小;根据所述L第一文本与所述L第二文本的大小确定第一地址和第二地址;确定所述第一地址和所述第二地址的相似字符串。6.根据权利要求5所述的方法,其特征在于,根据所述L第一文本与所述L第二文本的大小确定第一地址和第二地址具体包括:当所述L第一文本>L第二文本时,将所述第一文本作为第一地址,所述第二文本作为第二地址;当所述L第一文本≤L第二文本时,将所述第一文本作为第二地址,所述第二文本作为第一地址。7.根据权利要求6所述的方法,其特征在于,确定第一地址和第二地址的相似字符串具体包括:对所述第二地址中的每个字符执行以下步骤:S1,判断所述第二地址的第x个字符是否包含在所述第一地址中,其中,x=L第二地址;如果所述第二地址的第x个字符未包含在所述第一地址中,则执行步骤S2;如果所述第二地址的第x个字符包含在所述第一地址中,则执行步骤S4:S2,令X=X-1,执行步骤S3;S3,判断x是否等于0;如果等于,则结束;如果不等于,则执行步骤S1:S4,令循环计数i=1,其中,当i=1时,执行步骤S5;S5,判断x是否等于1;如果等于,则结束;如果不等于,则执行步骤S6:S6,判断所述第二地址的第x-1个字符是否包含在所述第一地址中;如果包含,则执行步骤S7;如果未包含,则执行步骤S8;S7,令x=x-1,i=i+1,并执行步骤S5;S8,将所述第x个字符至所述第x-i+1个字符作为所述第二地址与所述第一地址的相似字符串;并执行步骤S9;S9,令x=x-i;执行步骤5。8.根据权利要求6所述的方法,其特征在于,确定所述相似字符串与所述第一文本或第二文本的结构相似度具体包括:确定所述相似字符串在所述第二地址中出现的条件概率;根据所述条件概率确定所述相似字符串与所述第二地址的相似度。9.根据权利要求8所述的方法,其特征在于,确定所述相似字符串在所述第二地址中出现的条件概率具体包括:根据下式得到所述相似字符串在所述第二地址中出现的条件概率:其中,posB为所述相似字符串的最后一个字符在所述第二地址中的位置;end_point为所述相似字符串的第一个字符在所述第二地址中的位置;L第二地址为所述第二地址的长度;posA为所述相似字符串的最后一个字符在所述第一地址中的位置;L第一地址为所述第一地址的长度,w依次取小于等于相似字符串个数的整数。10.根据权利要求9所述的方法,其特征在于,根据所述结构相似度,确定所述第一文本与所述第二文本的相似度具体包括:确定所述第一文本和所述第二文本的相似度为max{s1,s2,……sw},其中,所述s1,s2,……sw分别为所述第一文本与所述第二文本的多个相似字符串与所述第二地址的结构相似度。11.一种文本相似度确定装置,其特征在于,包括:获取模块,用于获取第一文本与第二文本;相似字符...

【专利技术属性】
技术研发人员:兰红云
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1