当前位置: 首页 > 专利查询>复旦大学专利>正文

中文词语语义相似度度量方法技术

技术编号:4012693 阅读:663 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于自然语言处理技术领域,具体为一种中文词语语义相似度度量方法。该方法首先利用知网的KDML语言来提取知网的丰富语义信息;然后采用优化的义原相似度计算公式计算义原相似度;最后采用最大匹配算法公式计算概念之间的相似度,即得到中文词语词义相似度;与其它的传统方法相比,本发明专利技术对于语义相似度有更好的区分度,并且计算结果更符合人的主观感觉。

【技术实现步骤摘要】

【技术保护点】
一种中文词语词义相似度的计算方法,其特征在于具体步骤为:首先利用知网的KDML语言来提取知网的丰富语义信息;然后采用义原相似度计算公式计算义原相似度;最后采用最大匹配算法公式计算概念之间的相似度,即得到中文词语词义相似度;其中:所述义原相似度的计算公式为:Sim(S↓[1],S↓[2])=α×min(Depth(S↓[1]),Depth(S↓[2]))/α×min(Depth(S↓[1]),Depth(S↓[2]))+Dist(S↓[1],S↓[2])(1)其中,S↓[1]与S↓[2]分别表示两个义原;Dist(S↓[1],S↓[2])表示两个义原之间的路径长度;α为调节参数,表示相似度为0.5时的路径长度;Depth(S↓[1])与Depth(S↓[2])分别表示义原S↓[1]与S↓[2]的层次深度;min(Depth(S↓[1]),Depth(S↓[2]))表示取两个义原层次深度中较小者;所述最大匹配算法的公式为:Sim(W↓[1],W↓[2])=maxSim(C↓[1i],C↓[2j])i=1…n,j=1…m(2)其中,W↓[1]表示词语1且具有n个概念,W↓[2]表示词语2且具有m个概念,C↓[1i]是W↓[1]的第i项概念,C↓[2j]是W↓[2]的第j项概念;根据KDML的结构特性,概念语义相似度分为三个部分进行计算:Sim(C↓[1],C↓[2])=w↓[1]*P↓[1]+w↓[2]*P↓[2]+w↓[3]*P↓[3](3)其中,P↓[1]为两个概念主类义原之间的相似度;P↓[2]为整个语义表达式的相似度;P↓[3]是针对两个DEF主类义原框架相似度的计算;w↓[1]、w↓[2]与w↓[3]分别为三个部分所对应的权值,满足约束条件w↓[1]+w↓[2]+w↓[3]=1且w↓[2]>w↓[1],w↓[2]>w↓[3]。...

【技术特征摘要】

【专利技术属性】
技术研发人员:张玥杰彭琳金城薛向阳
申请(专利权)人:复旦大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1