基于融合策略的中文词语相似度计算方法技术

技术编号:21513940 阅读:21 留言:0更新日期:2019-07-03 09:03
本发明专利技术涉及一种基于融合策略的中文词语相似度计算方法,基于HowNet、同义词词林、Word2Vec训练的中文维基百科语料以及百度词典四者相结合来计算词语相似度,对于输入的两个词语,首先判断其在HowNet或者同义词词林中是否存在,如果存在,则利用HowNet或者同义词词林来计算相似度,否则,判断其是否在维基百科语料或者百度词典中存在,如果存在,则利用word2vec或者百度词典来计算词语的相似度。本发明专利技术提供的基于融合策略的中文词语相似度计算方法,融合策略综合考虑了知网、同义词词林、word2vec和百度词典,形成了策略之间的优势互补,计算得出的斯皮尔曼相关系数和皮尔逊相关系数比其他方法高,提高了词语相似度计算结果的准确性,可以很好地满足实际应用的需要。

Chinese Word Similarity Computing Method Based on Fusion Strategy

【技术实现步骤摘要】
基于融合策略的中文词语相似度计算方法
本专利技术属于文本处理
,具体涉及一种基于融合策略的中文词语相似度计算方法。
技术介绍
词语相似度计算是中文信息处理的基础研究课题,其在自然语言处理、自动问答、知识图谱、文本分类、文本聚类、信息检索、信息抽取、词义排歧和机器翻译等领域有着广泛而深入的应用,因而被越来越多的学者研究和关注。目前的词语相似度计算可以分为三种:基于已有的知识本体的方法、大规模语料库统计的方法和基于语料库的词嵌入方法。第一种基于知识本体的方法利用词语在知识树中的层次、密度以及词语间的距离来计算词语之间的相似度。第二种词语相似度的计算方法是基于大规模语料库的统计。该方法假设相似的词也出现在相似的上下文中,即利用词语的相关性来计算词语的相似性,通过训练大规模的语料库来获得每个词语相关的上下文向量的表示,然后利用这些向量之间的相似度作为两个词之间的相似度。第三种词语相似度的计算方法是基于语料库的词嵌入方法。该方法利用神经网络训练大规模语料库,从而得到词语在空间上的分布式表示,然后利用余弦计算词语之间的相似度。基于知识本体的方法的缺点是受语义词典的限制,不能处理未登录(oov)词,而且在本体构建的过程中词语的分类不当,也会导致词语的相似度计算出现误差;基于大规模语料库统计的方法以及词嵌入的方法受限于训练所用的语料库的规模,而且计算量比较大,计算速度较慢,受语料稀疏和语料中的噪声的干扰比较大。与本领域现有技术相关的知识内容介绍如下:HowNet(即知网)是一个揭示概念与概念之间的关系以及概念所具有的属性之间的关系为基本内容的常识知识库,其中富含丰富的词汇语义知识,是自然语言处理领域研究的基础性资源。HowNet中包含“概念”、“义原”、“义项”、“知识描述语言”等概念,其中,“概念”是对词语的一种描述,一个词语可以有多个“概念”(也即多义词),“概念”通过知识描述语言(KDML)来描述,知识描述语言描述“概念”的表达式称为“义项”,知识描述语言所用的词汇叫做义原,义原是描述“概念”的最小基本单位。义原之间存在着复杂的关系,包括上下位关系、同义关系、反义关系、对义关系、属性-宿主关系、部件-整体关系、材料-成品关系、事件-角色关系等8种关系,通过这8种关系,把义原组成了一个树状层次结构(如图1),每一个义原都是这个树状结构中的一个节点,树状的义原层次结构构成了词语相似度计算的基础。《同义词词林》是梅家驹等人于1983年编纂而成,这本词典中不仅包含了同义词语,也包含了一定数量的同类词。由于《同义词词林》的时间比较久远,而且之后一直没有更新,对此,哈尔滨工业大学信息检索研究室投入了大量的人力和物力,完成了一部新的《哈工大信息检索研究室同义词词林扩展版》,剔除了14706个罕用词,为了适应时代的发展,又加入了一些新词,最终包含了77343条词语。这些词语被划分成了12个大类,97个种类和1400个小类,小类下面又进一步划分为词群和原子词群,这样,同义词词林就构成了一个五层的树状结构,如图2所示。与知网的义原树状层次结构不同,知网中的每个节点都代表着一个义原,而在同义词词林中,叶子节点才是一个个的词条,上面的四层都是抽象的分类。词林根据词条所属的类别,对每个词条进行了编码,如表1所示。表1同义词词林中词语的编码结构其中,第一层大类和第四层词群用大写英文字母表示,第二层中类用小写英文字母表示,第三层小类和第五层原子词群用二位十进制整数表示。编码位有8位,是按照从左到右的顺序排列,第8位编码有三种情况,分别是“=”、“#”、“@”。“=”代表“相等”、“同义”;“#”代表“不等”、“同类”,属于相关词语;“@”代表“自我封闭”、“独立”,它在词典中既没有同义词,也没有相关词。Word2Vec是一个深度学习工具,是Google于2013年推出该开源工具包。Mikolovetal.等在2013年提出两种词语向量化的表示:CBOW(ContinuousBag-of-WordsModel)和Skip-gram两种模型。CBOW模型是一种学习框架,它从语料库中学习连续词袋模型。主要基于上下文信息来预测当前词语的概率,通过当前词的前k个词和后k个词来预测该词语,即预测p(wt|wt-(k-1),wt+1,wt+2…,wt+k),其模型图如图3所示。其中w(t)是当前要求的词语向量,w(t-2),w(t-1),w(t+1),w(t+2)是当前词语的上下文向量,上下文词语的窗口大小为2k+1,SUM是累加和;INPUT是输入层,输入每个词的向量表示,PROJECTION是隐层,将这些输入的词语向量进行累加操作,OUTPUT是输出层,输出w(t)。Skip-Gram模型与CBOW模型恰好相反,它是基于当前词语来预测上下文词语的概率,即p(wt-k,wt-(k-1)…,wt-1,wt+1,wt+2…wt+k|wt),其模型如图4所示。百度词典是百度公司提供的在线即时的词语解释服务,词典搜索的数据来源于译典通和汉典网站,里面同时也集成了百度百科的查询服务,词典里的内容大多是通过互联网收集的,使用百度词典,不仅可以查询常用的词语,而且还可以查询一些新词、未登录词以及网络用语,因此可以满足一些常见的查询解释服务。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于提供一种可避免出现上述技术缺陷的基于融合策略的中文词语相似度计算方法。为了实现上述专利技术目的,本专利技术提供的技术方案如下:一种基于融合策略的中文词语相似度计算方法,基于HowNet、同义词词林、Word2Vec训练的中文维基百科语料以及百度词典四者相结合来计算词语相似度。进一步地,对于输入的两个词语,首先判断其在HowNet或者同义词词林中是否存在,如果存在,则利用HowNet或者同义词词林来计算相似度,否则,判断其是否在维基百科语料或者百度词典中存在,如果存在,则利用word2vec或者百度词典来计算词语的相似度。进一步地,利用基于知网的词汇语义相似度作为计算方法,其公式如下:其中,Sim(W1,W2)表示词W1和W2基于HowNet的相似度;S11,S12,...,S1n表示词W1的义项(概念);S21,S22,...,S2m表示词W2的义项(概念);在知网中,词语的表达式利用义原和特殊符号组成的知识描述式,义原是由一个树状的层次体系构成,其相似度的计算方法公式如下:其中p1,p2代表义原;distance(p1,p2)表示义原p1和p2在义原层次树中的距离;α是一个可调节的参数,其含义是相似度为0.5时的义原距离值;知网中词语的义项描述有四项,可分为第一义原描述、其他基本义原描述、关系义原描述以及关系符号描述。其中其他义原描述式是由义原组成的集合结构;关系义原描述和关系符号描述都是特征结构。特征结构为key-value键值对的集合,其中key是关系义原或者关系符号,value是基本义原或者具体词;对于特征结构相似度的计算,首先要建立key相同的特征之间的一一对应关系,如果key没有相对应的特征,则该key的对应为空,然后再计算相应的key之间的value的相似度;对于集合相似度的计算:首先计算两个集合中所有元素两两之间的相似度,从中选取相似度最大的一个,并本文档来自技高网
...

【技术保护点】
1.一种基于融合策略的中文词语相似度计算方法,其特征在于,基于HowNet、同义词词林、Word2Vec训练的中文维基百科语料以及百度词典四者相结合来计算词语相似度。

【技术特征摘要】
1.一种基于融合策略的中文词语相似度计算方法,其特征在于,基于HowNet、同义词词林、Word2Vec训练的中文维基百科语料以及百度词典四者相结合来计算词语相似度。2.根据权利要求1所述的中文词语相似度计算方法,其特征在于,对于输入的两个词语,首先判断其在HowNet或者同义词词林中是否存在,如果存在,则利用HowNet或者同义词词林来计算相似度,否则,判断其是否在维基百科语料或者百度词典中存在,如果存在,则利用word2vec或者百度词典来计算词语的相似度。3.根据权利要求1-2所述的中文词语相似度计算方法,其特征在于,利用基于知网的词汇语义相似度作为计算方法,其公式如下:其中,Sim(W1,W2)表示词W1和W2基于HowNet的相似度;S11,S12,...,S1n表示词W1的义项(概念);S21,S22,...,S2m表示词W2的义项(概念);在知网中,词语的表达式利用义原和特殊符号组成的知识描述式,义原是由一个树状的层次体系构成,其相似度的计算方法公式如下:其中p1,p2代表义原;distance(p1,p2)表示义原p1和p2在义原层次树中的距离;α是一个可调节的参数,其含义是相似度为0.5时的义原距离值;知网中词语的义项描述有四项,可分为第一义原描述、其他基本义原描述、关系义原描述以及关系符号描述。其中其他义原描述式是由义原组成的集合结构;关系义原描述和关系符号描述都是特征结构。特征结构为key-value键值对的集合,其中key是关系义原或者关系符号,value是基本义原或者具体词;对于特征结构相似度的计算,首先要建立key相同的特征之间的一一对应关系,如果key没有相对应的特征,则该key的对应为空,然后再计算相应的key之间的value的相似度;对于集合相似度的计算:首先计算两个集合中所有元素两两之间的相似度,从中选取相似度最大的一个,并将这两个元素对应起来,然后从集合删除这些对应的元素,重复以上步骤,直到没有元素对应关系为止,对于没有建立对应关系的元素,则让其与空元素对应;最后,对于集合相似度计算元素对的相似度的加权平均值;计算词语的整体相似度,公式如下:C1,C2表示实词概念或者义原,sim1(C1,C2)到sim4(C1,C2)分别表示四种义项描述的相似度,β1到β4表示每种义项相似度对应的权重。4.根据权利要求1-3所述的中文词语相似度计算方法,其特征在于,基于同义词词林的词语相似度计算,包括:对于给定的两个词语,首先在词林中查找其对应的编号,然后判断这两个编号在哪一层不同;从第一层开始判断,相同则乘1,否则乘以相应的分支系数,然后乘以调节参数其中n是分支层的节点总数,然后再乘以控制参数(n-k+1)/n,其...

【专利技术属性】
技术研发人员:吕学强董志安游新冬
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1