文本信息相似度的计算方法、装置及服务器制造方法及图纸

技术编号:13132879 阅读:140 留言:0更新日期:2016-04-06 18:55
本公开提供一种文本信息相似度的计算方法、装置及服务器,所述方法的一具体实施方式包括:判断第一文本信息与第二文本信息的结构类型是否相同;若结构类型不同,则确定第一文本信息与第二文本信息的相似度为0;若结构类型相同,则获取第一文本信息与第二文本信息的主题近似度;获取第一文本信息与第二文本信息的内容近似度;基于所述主题近似度以及所述内容近似度确定第一文本信息与第二文本信息的相似度。该实施方式提高了计算两个文本信息之间相似度的准确性。

【技术实现步骤摘要】

本公开涉及计算机
,特别涉及一种文本信息相似度的计算方法、装置及服务器
技术介绍
随着科技的不断发展,计算机人工智能技术变得日益完善和成熟,人工智能技术的发展使人们的生活越来越便利。例如,服务提供商可以对用户接收到的通知类型的文本信息进行聚类分析,以根据聚类分析的结果向用户提供一些服务,从而提高用户体验。而确定文本信息两两之间的相似度是进行聚类分析的基础,因此,如何更准确的确定两个文本信息之间的相似度变得尤为重要。
技术实现思路
本公开提供一种文本信息相似度的计算方法、装置及服务器,以解决计算两个文本信息之间相似度的准确性低的问题。根据本公开实施例的第一方面,提供一种文本信息相似度的计算方法,包括:判断第一文本信息与第二文本信息的结构类型是否相同;若结构类型不同,则确定第一文本信息与第二文本信息的相似度为0;若结构类型相同,则获取第一文本信息与第二文本信息的主题近似度;获取第一文本信息与第二文本信息的内容近似度;基于所述主题近似度以及所述内容近似度确定第一文本信息与第二文本信息的相似度。可选的,所述方法还包括:分别将所述第一文本信息以及所述第二文本信息作为待分析文本信息,对所述待分析文本信息执行结构分析的操作,以确定所述第一文本信息以及所述第二文本信息的结构类型。可选的,所述对待分析文本信息执行结构分析的操作,包括:从所述待分析文本信息中查找出预定的符号和/或关键词;确定所述预定的符号和/或关键词在所述待分析文本信息中的排布形式;查找出与所述排布形式匹配的结构类型,作为所述待分析文本信息的结构类型。可选的,所述获取第一文本信息与第二文本信息的主题近似度,包括:获取所述第一文本信息的主题向量作为第一向量;获取所述第二文本信息的主题向量作为第二向量;基于所述第一向量以及第二向量确定所述主题近似度。可选的,所述基于所述第一向量以及第二向量确定所述主题近似度,包括:计算出所述第一向量与所述第二向量所成的夹角的余弦值,作为所述主题近似度。可选的,所述获取第一文本信息与第二文本信息的内容近似度,包括:基于N元语法N-gram模型确定所述第一文本信息与所述第二文本信息的内容近似度,其中,N为大于等于2的整数。可选的,所述基于N-gram模型确定所述第一文本信息与所述第二文本信息的内容近似度,包括:从所述第一文本信息中获取N元词组的集合作为第一集合;从所述第二文本信息中获取N元词组的集合作为第二集合;确定所述第一集合与所述第二集合的交集的元素个数;确定所述第一集合与所述第二集合的并集的元素个数;计算出所述交集的元素个数除以所述并集的元素个数的商值,作为所述内容近似度。可选的,所述基于所述主题近似度以及所述内容近似度确定第一文本信息与第二文本信息的相似度,包括:计算出所述主题近似度与所述内容近似度的加权平均值,作为所述第一文本信息与第二文本信息的相似度。根据本公开实施例的第二方面,提供一种文本信息相似度的计算装置,包括:判断模块,被配置为判断第一文本信息与第二文本信息的结构类型是否相同;第一确定模块,被配置为在结构类型不同时,确定第一文本信息与第二文本信息的相似度为0;主题近似度获取模块,被配置为在结构类型相同时,获取第一文本信息与第二文本信息的主题近似度;内容近似度获取模块,被配置为获取第一文本信息与第二文本信息的内容近似度;第二确定模块,被配置为基于所述主题近似度以及所述内容近似度确定第一文本信息与第二文本信息的相似度。可选的,所述装置还包括:结构分析模块,被配置为分别将所述第一文本信息以及所述第二文本信息作为待分析文本信息,对所述待分析文本信息执行结构分析的操作,以确定所述第一文本信息以及所述第二文本信息的结构类型。可选的,所述结构分析模块包括:查找子模块,被配置为从所述待分析文本信息中查找出预定的符号和/或关键词;排布形式确定子模块,被配置为确定所述预定的符号和/或关键词在所述待分析文本信息中的排布形式;匹配子模块,被配置为查找出与所述排布形式匹配的结构类型,作为所述待分析文本信息的结构类型。可选的,所述主题近似度获取模块包括:第一向量获取子模块,被配置为获取所述第一文本信息的主题向量作为第一向量;第二向量获取子模块,被配置为获取所述第二文本信息的主题向量作为第二向量;主题近似度确定子模块,被配置为基于所述第一向量以及第二向量确定所述主题近似度。可选的,所述主题近似度确定子模块包括:余弦值计算子模块,被配置为计算出所述第一向量与所述第二向量所成的夹角的余弦值,作为所述主题近似度。可选的,所述内容近似度获取模块包括:确定子模块,被配置为基于N元语法N-gram模型确定所述第一文本信息与所述第二文本信息的内容近似度,其中,N为大于等于2的整数。可选的,所述确定子模块包括:第一集合获取子模块,被配置为从所述第一文本信息中获取N元词组的集合作为第一集合;第二集合获取子模块,被配置为从所述第二文本信息中获取N元词组的集合作为第二集合;交集元素个数确定子模块,被配置为确定所述第一集合与所述第二集合的交集的元素个数;并集元素个数确定子模块,被配置为确定所述第一集合与所述第二集合的并集的元素个数;商值计算子模块,被配置为计算出所述交集的元素个数除以所述并集的元素个数的商值,作为所述内容近似度。可选的,所述第二确定模块,包括:计算子模块,被配置为计算出所述主题近似度与所述内容近似度的加权平均值,作为所述第一文本信息与第二文本信息的相似度。根据本公开实施例的第三方面,提供一种服务器,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:判断第一文本信息与第二文本信息的结构类型是否相同;若结构类型不同,则确定第一文本信息与第二文本信息的相似度为0;若结构类型相同,则获取第一文本信息与第二文本信息的主题近似度;获取第一文本信息与第二文本信息的内容近似度;基于所述主题近似度以及所述内容近似度确定第一文本信息与第二文本信息的相似度。本公开的实施例提供的技术方案可以包括以下有益效果:本公开的上述实施例提供的一种文本信息相似度的计算方法,在判断出第一文本信息与第二文本信息的结构类型不同本文档来自技高网...

【技术保护点】
一种文本信息相似度的计算方法,其特征在于,所述方法包括:判断第一文本信息与第二文本信息的结构类型是否相同;若结构类型不同,则确定第一文本信息与第二文本信息的相似度为0;若结构类型相同,则获取第一文本信息与第二文本信息的主题近似度;获取第一文本信息与第二文本信息的内容近似度;基于所述主题近似度以及所述内容近似度确定第一文本信息与第二文本信息的相似度。

【技术特征摘要】
1.一种文本信息相似度的计算方法,其特征在于,所述方法包括:
判断第一文本信息与第二文本信息的结构类型是否相同;
若结构类型不同,则确定第一文本信息与第二文本信息的相似度为0;
若结构类型相同,则获取第一文本信息与第二文本信息的主题近似度;
获取第一文本信息与第二文本信息的内容近似度;
基于所述主题近似度以及所述内容近似度确定第一文本信息与第二文本
信息的相似度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
分别将所述第一文本信息以及所述第二文本信息作为待分析文本信息,
对所述待分析文本信息执行结构分析的操作,以确定所述第一文本信息以及
所述第二文本信息的结构类型。
3.根据权利要求2所述的方法,其特征在于,所述对待分析文本信息执
行结构分析的操作,包括:
从所述待分析文本信息中查找出预定的符号和/或关键词;
确定所述预定的符号和/或关键词在所述待分析文本信息中的排布形式;
查找出与所述排布形式匹配的结构类型,作为所述待分析文本信息的结
构类型。
4.根据权利要求1所述的方法,其特征在于,所述获取第一文本信息与
第二文本信息的主题近似度,包括:
获取所述第一文本信息的主题向量作为第一向量;
获取所述第二文本信息的主题向量作为第二向量;
基于所述第一向量以及第二向量确定所述主题近似度。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一向量以
及第二向量确定所述主题近似度,包括:
计算出所述第一向量与所述第二向量所成的夹角的余弦值,作为所述主

\t题近似度。
6.根据权利要求1所述的方法,其特征在于,所述获取第一文本信息与
第二文本信息的内容近似度,包括:
基于N元语法N-gram模型确定所述第一文本信息与所述第二文本信息
的内容近似度,其中,N为大于等于2的整数。
7.根据权利要求6所述的方法,其特征在于,所述基于N-gram模型确
定所述第一文本信息与所述第二文本信息的内容近似度,包括:
从所述第一文本信息中获取N元词组的集合作为第一集合;
从所述第二文本信息中获取N元词组的集合作为第二集合;
确定所述第一集合与所述第二集合的交集的元素个数;
确定所述第一集合与所述第二集合的并集的元素个数;
计算出所述交集的元素个数除以所述并集的元素个数的商值,作为所述
内容近似度。
8.根据权利要求1所述的方法,其特征在于,所述基于所述主题近似度
以及所述内容近似度确定第一文本信息与第二文本信息的相似度,包括:
计算出所述主题近似度与所述内容近似度的加权平均值,作为所述第一
文本信息与第二文本信息的相似度。
9.一种文本信息相似度的计算装置,其特征在于,所述装置包括:
判断模块,被配置为判断第一文本信息与第二文本信息的结构类型是否
相同;
第一确定模块,被配置为在结构类型不同时,确定第一文本信息与第二
文本信息的相似度为0;
主题近似度获取模块,被配置为在结构类型相同时,获取第一文本信息
与第二文本信息的主题近似度;
内容近似度获取模块,被配置为获取第一文本信息与第二文本信息的内
容近似度...

【专利技术属性】
技术研发人员:汪平仄张涛陈志军
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1