一种文本相似度的计算方法和装置制造方法及图纸

技术编号：13375801 阅读：105 留言：0更新日期：2016-07-20 23:08

本申请提供一种文本相似度的计算方法和装置。所述方法包括：对初始文本进行分词划分，得到所述初始文本包含的初始词；为所述初始文本中的初始词获取对应的相似词；分别根据所述初始文本包含的初始词和所述初始词对应的所述相似词，为所述初始文本生成对应的扩展文本；根据扩展文本之间的相似度，确定所述扩展文本对应的初始文本之间的相似度。通过本申请的技术方案，可以有效提高文本相似度计算的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及信息处理
，尤其涉及一种文本相似度的计算方法和装置。
技术介绍
随着互联网技术的发展，越来越多的人们通过网络获取信息，比如：可以通过搜索引擎进行信息搜索，也可以通过相关问答系统以提问的方式获取信息。以问答系统为例，目前，常用的解决方案是根据用户输入的问题，查找一些相似的文本，然后分别计算各个相似文本和用户输入的问题的相似度，选择相似度最高的文本的回答内容返回给用户。在这个过程中，相似度计算的准确度将直接影响问答系统的准确率。
技术实现思路
有鉴于此，本申请提供一种文本相似度的计算方法和装置，能够有效解决相关技术中文本相似度计算不够准确的问题。具体地，本申请是通过如下技术方案实现的：一种文本相似度的计算方法，所述方法包括：对初始文本进行分词划分，得到所述初始文本包含的初始词；为所述初始文本中的初始词获取对应的相似词；分别根据所述初始文本包含的初始词和所述初始词对应的所述相似词，为所述初始文本生成对应的扩展文本；根据扩展文本之间的相似度，确定所述扩展文本对应的初始文本之间的相似度。进一步地，所述为所述初始文本中的初始词获取对应的相似词，包括：判断所述初始词是否为结果相关初始词；如果所述初始词是结果相关初始词，则为所述初始词获取对应的相似词。进一步地，所述为所述初始词获取对应的相似词，包括：将所述初始词的相似词按照相似度降序排列；判断所

【技术保护点】
一种文本相似度的计算方法，其特征在于，所述方法包括：对初始文本进行分词划分，得到所述初始文本包含的初始词；为所述初始文本中的初始词获取对应的相似词；分别根据所述初始文本包含的初始词和所述初始词对应的所述相似词，为所述初始文本生成对应的扩展文本；根据扩展文本之间的相似度，确定所述扩展文本对应的初始文本之间的相似度。

【技术特征摘要】
1.一种文本相似度的计算方法，其特征在于，所述方法包括：
对初始文本进行分词划分，得到所述初始文本包含的初始词；
为所述初始文本中的初始词获取对应的相似词；
分别根据所述初始文本包含的初始词和所述初始词对应的所述相似词，
为所述初始文本生成对应的扩展文本；
根据扩展文本之间的相似度，确定所述扩展文本对应的初始文本之间的
相似度。
2.根据权利要求1所述的方法，其特征在于，
所述为所述初始文本中的初始词获取对应的相似词，包括：
判断所述初始词是否为结果相关初始词；
如果所述初始词是结果相关初始词，则为所述初始词获取对应的相似词。
3.根据权利要求2所述的方法，其特征在于，
所述为所述初始词获取对应的相似词，包括：
将所述初始词的相似词按照相似度降序排列；
判断所述排列中第N个相似词的相似度是否大于等于阈值；
如果所述排列中第N个相似词的相似度大于等于阈值，则从所述排列中
选取前N个相似词，N为大于等于1的自然数。
4.根据权利要求3所述的方法，其特征在于，
如果所述排列中第N个相似词的相似度小于阈值，则从所述排列中选取
相似度大于等于所述阈值的所有相似词。
5.根据权利要求1所述的方法，其特征在于，
所述分别根据所述初始文本中的初始词和所述初始词对应的所述相似词，
为所述初始文本生成对应的扩展文本，包括：
将所述初始文本中的初始词放入所述初始文本对应的扩展文本中，所述
初始词在所述扩展文本中的当前权重为所述初始词在所述初始文本中的权重；
分别判断获取到的所述初始文本中的初始词的相似词是否已存在于所述
扩展文本中；
如果所述相似词已存在于所述扩展文本中，则将所述扩展文本中所述相
似词的当前权重加上所述相似词的相似度，以更新所述扩展文本中的所述相似
词的当前权重；
如果所述相似词不存在于所述扩展文本中，则在所述扩展文本中加入所
述相似词，所述扩展文本中所述相似词的初始权重为所述相似词的相似度。
6.一...

【专利技术属性】
技术研发人员：陈超，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人