当前位置: 首页 > 专利查询>广州大学专利>正文

一种结合词向量多特征融合的新词发现方法技术

技术编号:32967203 阅读:16 留言:0更新日期:2022-04-09 11:25
本发明专利技术公开了一种结合词向量多特征融合的新词发现方法,该方法步骤包括:对语料进行特征标注,计算属性对互信息矩阵和自信息矩阵,计算候选特征属性对得分;聚类词向量,找到对应的最近邻类中心向量,并找出该类中心向量对应的词作为词向量特征属性,遍历所有词向量特征属性对,计算词向量特征属性对自信息矩阵和互信息矩阵,计算所有词向量特征属性对得分;对所有候选特征属性对得分配置优化权重系数后求和计算总得分;总得分超过新词阈值时提取候选词对对应得分向量到样本集合;更新权重系数并迭代训练至损失函数收敛获得最终的权重系数;重新计算候选词对总得分,输出超过新词阈值的新词。本发明专利技术实现更合理的新词评价方法,更加有效地挖掘潜在的新词。更加有效地挖掘潜在的新词。更加有效地挖掘潜在的新词。

【技术实现步骤摘要】
一种结合词向量多特征融合的新词发现方法


[0001]本专利技术涉及新词挖掘与划分
,具体涉及一种结合词向量多特征融合的新词发现方法。

技术介绍

[0002]随着互联网的快速发展,各种新词(特别是网络用语)层出不穷。与拉丁系语言不同,汉语、日语、韩语等词语之间没有特定的分隔符,在进行下游任务(文本分类、信息抽取、语义搜索、机器翻译等)需要对其先进行分词处理,否则容易丢失大量实体、词性等信息而造成下游任务效果下降。而在分词处理中,未登录词(也称为新词)对分词的影响最大。
[0003]在现有技术中,最常用的是一种基于自信息与互信息的方法的无监督新词发现方法,通过两个方面去衡量两个子词(字)是否该组成新词:1、互信息:两个子词(字)的共现程度,2、自信息:两个子词(字)的左右词丰富程度;
[0004]除了以上基本的分词(字)特征的新词发现算法外,有相关的自然语言研究者提出了基于词性或者依存句法分析等多特征融合的改进方法;
[0005]随着深度学习和神经网络的研究,词向量作为自然语言处理的最基础元素获得了越来越多的关注。词向量作为大规模语料上训练出来的中间产物,对比one

hot具有维度更低、富含更多的语法语义信息等特点。现有技术还有从词向量特征角度出来,通过词向量之间的相似度得分计算n

gram的片段频繁模式,并且通过最后添加剪枝算法对候选新词进一步过滤,还有的提出一种基于条件随机场CRF与词向量相结合的识别方法。
[0006]在上述现有技术中,它们的共同想法是从单一(或者两个)简单特征出发,或者深挖掘该特征的其他潜在能够帮助提升挖掘效果的因子(例如通过TextRank算法获取种子词典或者后剪枝算法等),均没有从广度上去尽可能综合所有的特征例如词性、依存句法关系甚至有不少自然语言处理工具提供其他特征如命名实体识别等。同时,现有技术中,局限于一种特征,往往该特征的局限性决定着新词发现准确率的天花板,而它们的各种优化方法、调节参数方法,只能逼近这个理论上的天花板。
[0007]其次,目前所选择的特征例如词性与分词粒度大小相差较大。结合<"110kv","发电站">的例子,虽然加入词性进行考虑可以挖掘出<"数字/字母","名词">这种高频词性模式,从而<"50kv","发电站">有更多的机会被判断为新词,但是词性特征权重过大,也可能存在如例子<"1993","年">也可能被错误地划分为新词。出现以上的原因,除了比例的分配错误外,还有粒度的差距过大等。如词性,一般只有数十种属性如“名词”、“动词”、形容词等之类,而分词的粒度则可能成千上万,过于宽泛的特征往往也可能带来一定的噪音。
[0008]在另一个方面,尽管有些技术结合了一到两个特征,但是其比例分配依然依赖人工调节。随着特征的增加,调节参数的复杂度将呈几何级增加。
[0009]最后,当前的新词发现评价指标,大多数为Top K评价模式。具体是指,通过新词发现算法挖掘新词集合S后,人工判断前k个置信度或者分数最高的新词中合理的词的占比(不限于f1,召回或者精确度等指标)。这类评价方法往往包含很多分数很高但是已经普遍
存在的词,例如词“非常”,该词虽然分数很高,但是对于新词发现并没有什么贡献。

技术实现思路

[0010]为了克服现有技术存在的缺陷与不足,针对现有方法局限于单一或者少量特征、特征之间粒度相差较大以及特征参数难以准确调节等特点,本专利技术提供一种结合词向量多特征融合的新词发现方法,结合尽可能多的特征(词性、依存句法)等统计语言特征,提高新词挖掘准确率;对词向量进行聚类,加入聚类中心特征,衔接不同特征的粒度大小,提升新词发现质量;小样本监督学习特征权重系数,带来更大的领域相关的新词发现质量;实现更合理的新词评价方法,更加有效地挖掘潜在的新词。
[0011]本专利技术的第二目的在于提供一种结合词向量多特征融合的新词发现系统。
[0012]本专利技术的第三目的在于提供一种存储介质。
[0013]本专利技术的第四目的在于提供一种计算设备。
[0014]为了达到上述目的,本专利技术采用以下技术方案:
[0015]本专利技术提供一种结合词向量多特征融合的新词发现方法,包括下述步骤:
[0016]统计自然语言特征得分计算:对语料进行特征标注,遍历所有属性对,计算属性对的互信息矩阵和自信息矩阵,计算所有候选特征的属性对得分;
[0017]基于词向量特征得分计算:对词向量进行k

means聚类,根据词向量对应的词典,对语料中所有分词找到对应的词向量,进而找到对应的最近邻类中心向量,并找出该类中心向量对应的词作为词向量特征属性,遍历所有词向量特征属性,计算词向量特征属性对的自信息矩阵和互信息矩阵,计算所有词向量特征属性对的得分;
[0018]对候选特征的属性对得分配置权重系数后求和,通过逻辑回归优化权重系数,计算总得分;
[0019]初始化权重系数并设置新词阈值,总得分超过新词阈值时,设定随机概率提取候选词对对应的得分向量到样本集合,对样本集合进行标记得到标签集合;
[0020]基于随机梯度下降SGD更新权重系数,迭代训练直至损失函数收敛,获得最终的权重系数;
[0021]重新计算所有候选词对的总得分,输出超过新词阈值的新词。
[0022]作为优选的技术方案,所述对语料进行特征标注,所述特征包括分词、词性和依存句法关系。
[0023]作为优选的技术方案,所述计算所有候选特征的属性对得分,具体表示为:
[0024]MS
m
[x
i
][x
j
]=α
m
MI
m
[x
i
][x
j
]+β
m
MH
m
[x
i
][x
j
][0025]其中,MS
m
[x
i
][x
j
]表示候选特征的属性对得分,MI
m
[x
i
][x
j
]表示属性对的互信息矩阵,MH
m
[x
i
][x
j
]表示属性对的自信息矩阵,α
m
表示第m个特征的互信息比例参数,β
m
第m个特征的自信息比例参数。
[0026]作为优选的技术方案,所述计算所有候选类中心对的得分,表示为:
[0027]MS[v
i
][v
j
]=αMI[v
i
][v
j
]+βMH[v
i
][v
j
][0028]其中,MS[v
i
][v
...

【技术保护点】

【技术特征摘要】
1.一种结合词向量多特征融合的新词发现方法,其特征在于,包括下述步骤:统计自然语言特征得分计算:对语料进行特征标注,遍历所有属性对,计算属性对的互信息矩阵和自信息矩阵,计算所有候选特征的属性对得分;基于词向量特征得分计算:对词向量进行k

means聚类,根据词向量对应的词典,对语料中所有分词找到对应的词向量,进而找到对应的最近邻类中心向量,并找出该类中心向量对应的词作为词向量特征属性,遍历所有词向量特征属性,计算词向量特征属性对的自信息矩阵和互信息矩阵,计算所有词向量特征属性对的得分;对所有候选特征属性对的得分配置权重系数后求和,通过逻辑回归优化权重系数,计算总得分;初始化权重系数并设置新词阈值,总得分超过新词阈值时,设定随机概率提取候选词对对应的得分向量到样本集合,对样本集合进行标记得到标签集合;基于随机梯度下降SGD更新权重系数,迭代训练直至损失函数收敛,获得最终的权重系数;重新计算所有候选词对的总得分,输出超过新词阈值的新词。2.根据权利要求1所述的结合词向量多特征融合的新词发现方法,其特征在于,所述对语料进行特征标注,所述特征包括分词、词性和依存句法关系。3.根据权利要求1所述的结合词向量多特征融合的新词发现方法,其特征在于,所述计算所有候选特征的属性对得分,具体表示为:MS
m
[x
i
][x
j
]=α
m
MI
m
[x
i
][x
j
]+β
m
MH
m
[x
i
][x
j
]其中,MS
m
[x
i
][x
j
]表示候选特征的属性对得分,MI
m
[x
i
][x
j
]表示属性对的互信息矩阵,MH
m
[x
i
][x
j
]表示属性对的自信息矩阵,α
m
表示第m个特征的互信息比例参数,β
m
第m个特征的自信息比例参数。4.根据权利要求1所述的结合词向量多特征融合的新词发现方法,其特征在于,所述计算所有词向量特征属性对的得分,表示为:MS[v
i
][v
j
]=αMI[v
i
][v
j
]+βMH[v
i
][v
j
]其中,MS[v
i
]...

【专利技术属性】
技术研发人员:顾钊铨梁栩健杨举王乐韩伟红唐可可李默涵仇晶李树栋张登辉
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1