中文词语语义相似度度量方法技术

技术编号：4012693 阅读：663 留言：0更新日期：2012-04-11 18:40

本发明专利技术属于自然语言处理技术领域，具体为一种中文词语语义相似度度量方法。该方法首先利用知网的ＫＤＭＬ语言来提取知网的丰富语义信息；然后采用优化的义原相似度计算公式计算义原相似度；最后采用最大匹配算法公式计算概念之间的相似度，即得到中文词语词义相似度；与其它的传统方法相比，本发明专利技术对于语义相似度有更好的区分度，并且计算结果更符合人的主观感觉。

全部详细技术资料下载

【技术实现步骤摘要】

【技术保护点】
一种中文词语词义相似度的计算方法，其特征在于具体步骤为：首先利用知网的ＫＤＭＬ语言来提取知网的丰富语义信息；然后采用义原相似度计算公式计算义原相似度；最后采用最大匹配算法公式计算概念之间的相似度，即得到中文词语词义相似度；其中：所述义原相似度的计算公式为：Ｓｉｍ（Ｓ↓［１］，Ｓ↓［２］）＝α×ｍｉｎ（Ｄｅｐｔｈ（Ｓ↓［１］），Ｄｅｐｔｈ（Ｓ↓［２］））／α×ｍｉｎ（Ｄｅｐｔｈ（Ｓ↓［１］），Ｄｅｐｔｈ（Ｓ↓［２］））＋Ｄｉｓｔ（Ｓ↓［１］，Ｓ↓［２］）（１）其中，Ｓ↓［１］与Ｓ↓［２］分别表示两个义原；Ｄｉｓｔ（Ｓ↓［１］，Ｓ↓［２］）表示两个义原之间的路径长度；α为调节参数，表示相似度为０．５时的路径长度；Ｄｅｐｔｈ（Ｓ↓［１］）与Ｄｅｐｔｈ（Ｓ↓［２］）分别表示义原Ｓ↓［１］与Ｓ↓［２］的层次深度；ｍｉｎ（Ｄｅｐｔｈ（Ｓ↓［１］），Ｄｅｐｔｈ（Ｓ↓［２］））表示取两个义原层次深度中较小者；所述最大匹配算法的公式为：Ｓｉｍ（Ｗ↓［１］，Ｗ↓［２］）＝ｍａｘＳｉｍ（Ｃ↓［１ｉ］，Ｃ↓［２ｊ］）ｉ＝１…ｎ，ｊ＝１…ｍ（２）其中，Ｗ↓［１］表示词语１且具有ｎ个概念，Ｗ↓［２］表示词语２且具...

【技术特征摘要】

【专利技术属性】
技术研发人员：张玥杰，彭琳，金城，薛向阳，
申请(专利权)人：复旦大学，
类型：发明
国别省市：31[中国|上海]

全部详细技术资料下载我是这个专利的主人