【技术实现步骤摘要】
一种文本相似度确定方法及装置
本申请涉及大数据处理技术,具体涉及一种文本相似度确定方法及装置。
技术介绍
在现有技术中,文本相似度确定方法如下:将待进行相似度比较的文本分别向量化;分别计算文本向量的余弦相似度,并将两个文本向量的余弦相似度作为两个文本之间的相似度。现有技术中的文本相似度确定方法,由于是通过两个文本向量的余弦相似度来判断文本相似度,因此,偏向于将文字上重合度较高的文本认为是更相似的地址,但是,在待比较的文本为地址时,可能出现不够准确的情况,例如,采用现有技术中的方法,得到的结果可能是“XX省XX市淘宝城”与“淘宝城”的相似度要低于其与“XX省XX市”的相似度,准确性低。
技术实现思路
本申请实施例中提供了一种文本相似度确定方法及装置,用于解决现有技术中的文本相似度的确定方法准确性低的问题。根据本申请实施例的一个方面,提供了一种文本相似度确定方法,包括:获取第一文本与第二文本;确定第一文本与第二文本的相似字符串;确定相似字符串与第二文本的结构相似度;根据相似字符串与第二文本的结构相似度,确定第一文本与第二文本的相似度。根据本申请实施例的另一个方面,提供了一种文本相似度确定装置,包括:获取模块,用于获取第一文本与第二文本;相似字符串确定模块,用于确定第一文本与第二文本的相似字符串;字符串与文本相似度确定模块,用于确定相似字符串与第二文本的结构相似度;文本相似度确定模块,用于根据相似字符串与第二文本的结构相似度,确定第一文本与第二文本的相似度。采用本申请实施例中的方案,先确定第一文本和第二文本之间的相似字符串,并根据相似字符串与所述第二文本的结构相似度 ...
【技术保护点】
一种文本相似度确定方法,其特征在于,包括:获取第一文本与第二文本;确定所述第一文本与所述第二文本的相似字符串;确定所述相似字符串与所述第一文本或第二文本的结构相似度;根据所述结构相似度,确定所述第一文本与所述第二文本的相似度。
【技术特征摘要】
1.一种文本相似度确定方法,其特征在于,包括:获取第一文本与第二文本;确定所述第一文本与所述第二文本的相似字符串;确定所述相似字符串与所述第一文本或第二文本的结构相似度;根据所述结构相似度,确定所述第一文本与所述第二文本的相似度。2.根据权利要求1所述的方法,其特征在于,所述第一文本和所述第二文本分别为待搜索地址和候选地址。3.根据权利要求2所述的方法,其特征在于,获取第一文本与第二文本具体包括:接收用户输入的字符,其中,所述字符包括待搜索地址;从用户输入的字符中提取所述待搜索地址;获取地址库中与所述待搜索地址相关的候选地址。4.根据权利要求3所述的方法,其特征在于,获取地址库中与所述待搜索地址相关的候选地址具体包括:确定所述待搜索地址中的最小单元;在所述地址库中查询所述最小单元对应的节点,并将所述节点下的所有分支地址作为搜索结果;其中,所述地址库中的地址按地址范围从小到大以树形结构存储;将搜索结果作为候选地址。5.根据权利要求2所述的方法,其特征在于,确定所述第一文本与所述第二文本的相似字符串具体包括:获取所述第一文本的字符串长度L第一文本与第二文本字符串长度L第二文本;判断所述L第一文本与所述L第二文本的大小;根据所述L第一文本与所述L第二文本的大小确定第一地址和第二地址;确定所述第一地址和所述第二地址的相似字符串。6.根据权利要求5所述的方法,其特征在于,根据所述L第一文本与所述L第二文本的大小确定第一地址和第二地址具体包括:当所述L第一文本>L第二文本时,将所述第一文本作为第一地址,所述第二文本作为第二地址;当所述L第一文本≤L第二文本时,将所述第一文本作为第二地址,所述第二文本作为第一地址。7.根据权利要求6所述的方法,其特征在于,确定第一地址和第二地址的相似字符串具体包括:对所述第二地址中的每个字符执行以下步骤:S1,判断所述第二地址的第x个字符是否包含在所述第一地址中,其中,x=L第二地址;如果所述第二地址的第x个字符未包含在所述第一地址中,则执行步骤S2;如果所述第二地址的第x个字符包含在所述第一地址中,则执行步骤S4:S2,令X=X-1,执行步骤S3;S3,判断x是否等于0;如果等于,则结束;如果不等于,则执行步骤S1:S4,令循环计数i=1,其中,当i=1时,执行步骤S5;S5,判断x是否等于1;如果等于,则结束;如果不等于,则执行步骤S6:S6,判断所述第二地址的第x-1个字符是否包含在所述第一地址中;如果包含,则执行步骤S7;如果未包含,则执行步骤S8;S7,令x=x-1,i=i+1,并执行步骤S5;S8,将所述第x个字符至所述第x-i+1个字符作为所述第二地址与所述第一地址的相似字符串;并执行步骤S9;S9,令x=x-i;执行步骤5。8.根据权利要求6所述的方法,其特征在于,确定所述相似字符串与所述第一文本或第二文本的结构相似度具体包括:确定所述相似字符串在所述第二地址中出现的条件概率;根据所述条件概率确定所述相似字符串与所述第二地址的相似度。9.根据权利要求8所述的方法,其特征在于,确定所述相似字符串在所述第二地址中出现的条件概率具体包括:根据下式得到所述相似字符串在所述第二地址中出现的条件概率:其中,posB为所述相似字符串的最后一个字符在所述第二地址中的位置;end_point为所述相似字符串的第一个字符在所述第二地址中的位置;L第二地址为所述第二地址的长度;posA为所述相似字符串的最后一个字符在所述第一地址中的位置;L第一地址为所述第一地址的长度,w依次取小于等于相似字符串个数的整数。10.根据权利要求9所述的方法,其特征在于,根据所述结构相似度,确定所述第一文本与所述第二文本的相似度具体包括:确定所述第一文本和所述第二文本的相似度为max{s1,s2,……sw},其中,所述s1,s2,……sw分别为所述第一文本与所述第二文本的多个相似字符串与所述第二地址的结构相似度。11.一种文本相似度确定装置,其特征在于,包括:获取模块,用于获取第一文本与第二文本;相似字符...
【专利技术属性】
技术研发人员:兰红云,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。