【技术实现步骤摘要】
一种结合词向量多特征融合的新词发现方法
[0001]本专利技术涉及新词挖掘与划分
,具体涉及一种结合词向量多特征融合的新词发现方法。
技术介绍
[0002]随着互联网的快速发展,各种新词(特别是网络用语)层出不穷。与拉丁系语言不同,汉语、日语、韩语等词语之间没有特定的分隔符,在进行下游任务(文本分类、信息抽取、语义搜索、机器翻译等)需要对其先进行分词处理,否则容易丢失大量实体、词性等信息而造成下游任务效果下降。而在分词处理中,未登录词(也称为新词)对分词的影响最大。
[0003]在现有技术中,最常用的是一种基于自信息与互信息的方法的无监督新词发现方法,通过两个方面去衡量两个子词(字)是否该组成新词:1、互信息:两个子词(字)的共现程度,2、自信息:两个子词(字)的左右词丰富程度;
[0004]除了以上基本的分词(字)特征的新词发现算法外,有相关的自然语言研究者提出了基于词性或者依存句法分析等多特征融合的改进方法;
[0005]随着深度学习和神经网络的研究,词向量作为自然语言处理的最基础元素获得了越来越多的关注。词向量作为大规模语料上训练出来的中间产物,对比one
‑
hot具有维度更低、富含更多的语法语义信息等特点。现有技术还有从词向量特征角度出来,通过词向量之间的相似度得分计算n
‑
gram的片段频繁模式,并且通过最后添加剪枝算法对候选新词进一步过滤,还有的提出一种基于条件随机场CRF与词向量相结合的识别方法。
[0006]在上述现有技术中,它
【技术保护点】
【技术特征摘要】
1.一种结合词向量多特征融合的新词发现方法,其特征在于,包括下述步骤:统计自然语言特征得分计算:对语料进行特征标注,遍历所有属性对,计算属性对的互信息矩阵和自信息矩阵,计算所有候选特征的属性对得分;基于词向量特征得分计算:对词向量进行k
‑
means聚类,根据词向量对应的词典,对语料中所有分词找到对应的词向量,进而找到对应的最近邻类中心向量,并找出该类中心向量对应的词作为词向量特征属性,遍历所有词向量特征属性,计算词向量特征属性对的自信息矩阵和互信息矩阵,计算所有词向量特征属性对的得分;对所有候选特征属性对的得分配置权重系数后求和,通过逻辑回归优化权重系数,计算总得分;初始化权重系数并设置新词阈值,总得分超过新词阈值时,设定随机概率提取候选词对对应的得分向量到样本集合,对样本集合进行标记得到标签集合;基于随机梯度下降SGD更新权重系数,迭代训练直至损失函数收敛,获得最终的权重系数;重新计算所有候选词对的总得分,输出超过新词阈值的新词。2.根据权利要求1所述的结合词向量多特征融合的新词发现方法,其特征在于,所述对语料进行特征标注,所述特征包括分词、词性和依存句法关系。3.根据权利要求1所述的结合词向量多特征融合的新词发现方法,其特征在于,所述计算所有候选特征的属性对得分,具体表示为:MS
m
[x
i
][x
j
]=α
m
MI
m
[x
i
][x
j
]+β
m
MH
m
[x
i
][x
j
]其中,MS
m
[x
i
][x
j
]表示候选特征的属性对得分,MI
m
[x
i
][x
j
]表示属性对的互信息矩阵,MH
m
[x
i
][x
j
]表示属性对的自信息矩阵,α
m
表示第m个特征的互信息比例参数,β
m
第m个特征的自信息比例参数。4.根据权利要求1所述的结合词向量多特征融合的新词发现方法,其特征在于,所述计算所有词向量特征属性对的得分,表示为:MS[v
i
][v
j
]=αMI[v
i
][v
j
]+βMH[v
i
][v
j
]其中,MS[v
i
]...
【专利技术属性】
技术研发人员:顾钊铨,梁栩健,杨举,王乐,韩伟红,唐可可,李默涵,仇晶,李树栋,张登辉,
申请(专利权)人:广州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。