基于有向有权图发现新词的方法技术

技术编号:14158954 阅读:225 留言:0更新日期:2016-12-12 01:43
本发明专利技术公开一种基于有向有权图发现新词的方法,本发明专利技术通过分词开源工具对语料进行分词,对分词的结果进行停用词过滤;根据分词结果建立词之间的关联关系以及权重,生成有向有权图;采用边权重门限阀值对有向有权图的边进行筛选,保留语料中同现频率比较高的词项搭配;筛选有向权重图中的孤立点以及自环,生成子图;根据子图中相邻节点间的边权重以及节点强度建立假设检验模型,从子图中筛选出可能的新词;根据词性标注规则对可能的新词进行筛选,生成最终的新词。本发明专利技术能够从语料库中准确地发现新词,减少了人工维护新词库的工作量,具有很好的可用性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,特别涉及一种基于有向有权图发现新词的方法
技术介绍
新词发现作为自然语言处理领域的一项基础研究,深受学术界乃至企业界的关注。随着互联网以及各种社交媒体的发展,涌现了大量的新词,大量新词的出现使得现有的分词工具准确率下降,据统计,大约60%的分词错误是由于新词导致的。相比传统媒体,互联网媒体成为人们关注时事热点,发表观点的主要平台,互联网媒体(比如微博)传播速度迅速,传播群体广泛,与之涌现的新词也呈病毒传染的态势传播,其中如“马航”,“敬业福”,“微信收费”等,反映了民众的态度与看法。通过有效地发现新词,及时把握热点事件的关键词,对于热点事件发现以及热点事件预警监控具有重大的意义。P2P借贷是新兴的一个金融服务行业,在美国,LeadingClub成立于2007年,目前已经是世界第一大借贷平台。P2P借贷行业作为新兴的行业,包含大量新词,同时更新频率快,其中如“羊毛党”,“微众银行”,“e租宝”,“跑路”等,这些新词反映了P2P借贷行业的发展,在该领域进行新词发现具有一定的挑战性。在学术界,对于新词还没有一个明确的概念,在中文分词领域,有新词和未登录词两种概念,未登录词就是当前词库中“未登录”的词,新词属于未登录词的一种。目前新词发现的研究大体可以分为三种,其一是基于规则的方法,其二是基于统计的方法,其三是基于规则与统计相结合的方法。基于规则的方法准确率比较高,针对性强,但是维护规则的工作量比较大。基于统计的方法通过现有的分词工具对语料进行分词,根据分词结果进行统计从而发现新词,对语料的依赖性小,适应性比较强,然而准确率不高。基于规则与统计相结合的方法发挥了组合优势,目前大部分研究人员都采用规则与统计相结合的方法来发现新词。综上,新词的涌现一般与事件热点的趋势是相适应的,有效地发现新词可以正确分析事件发展的脉络,以及有效地把握事件舆情动态,对于舆情预警监控具有重大的意义。新词发现一直是自然语言处理领域一项基础研究,目前对于新词发现已经有大量的研究。本专利技术根据P2P借贷资讯的内容,准确有效地发现新词,有效地把握P2P行业的热点,具有很好的可用性。
技术实现思路
本专利技术要解决的技术问题在于,提供一种基于有向有权图发现新词的方法,使更加准确地发现语料中的新词。为解决上述技术问题,本专利技术提供如下技术方案:一种基于有向有权图发现新词的方法,包括以下步骤:S1、获取语料,且采用分词开源工具对语料进行分词,过滤停用词;S2、根据过滤后的分词结果,对滑动窗口范围内的词项建立有向边以及权重,根据有向边以及权重生成有向有权图;S3、采用边权重门限阀值对有向有权图的边进行过滤,且保留语料中同现频率较高的词项搭配;S4、根据过滤后的有向有权图,筛选有向有权图中的孤立点以及自环,生成有向有权图的子图;S5、根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配;S6、根据词性标注规则对新词搭配进行筛选,生成最终的新词。进一步地,所述步骤S1中的停用词包括语气词和标点符号。进一步地,所述步骤S1中的分词结果,其表现形式为W=(W1,W2,...Wi...,Wn)以及T=(T1,T2,...Ti...,Tn),其中W表示词项集合,T表示词性集合。进一步地,所述步骤S2中的有向有权图,其表现形式为G=<V,E>,其中V表示节点vi集合,所述词项搭配对应节点vi的标签属性,E表示有向边集合,所述词项搭配之间的同现关系组成所述有向边集合。进一步地,所述步骤S2的具体方式为:(5a)遍历有向有权图G=<V,E>,在集合V中查询是否存在节点vi的标签为Wi,如果存在节点vi的标签为Wi,返回节点vi,否则在有向图中创建节点vi,并标注其标签为Wi,返回节点vi;(5b)设置滑动窗口长度l,或默认长度l设为1,重复步骤(5a),依次查询Wi+1、Wi+2、...、Wi+l是否存在于有向图中,若存在,返回有向有权图中对应的节点vi+1、vi+2、...、vi+l;(5c)建立节点vi与节点vi+1、vi+2、...、vi+k、...、vi+l的有向边,若节点vi与节点vi+k在有向有权图中存在有向边,则节点vi与节点vi+k的边权重加1,否则,建立节点vi与节点vi+k的有向边,权重为1。进一步地,所述步骤S4中的孤立点是指在有向有权图中度数为零时的节点,若有向有权图中存在某些边的权重低于门限阀值,则这些边在被过滤后产生孤立点。进一步地,所述步骤S4中的自环是指所述有向有权图中一条边的起始节点和终止节点是同一个节点,所述自环由所述语料中的叠词产生。进一步地,所述步骤S5的具体过程为:(8a)计算相邻节点vi、节点vj的分布均值μ,计算方法如下:μ=sisj/S2式中,si为所述子图中节点vi的强度,sj为所述子图中节点vj的强度,S为所述子图中的节点总强度;(8b)计算节点vi和节点vj的样本均值和样本方差s2,计算方法如下: x ‾ = w i j / S ]]> s 2 = x ‾ × ( 1 - x ‾ ) ]]>其中,wij为子图中节点vi和节点vj的边权重;(8c)做零假设H0,(8d)计算t检验值,具体计算方法如下: t = ( x ‾ - μ ) / s 2 / S ; ]]>(8e)检验零假设H0,具体检验过程如下:判断t检验值的绝对值是否大于t分布α的临界值,若大于,则接受零假设H0,即节点vi和节点vj对应的标签属性属于新词搭配;否则,则拒绝零假设H0,即节点vi和节点vj对应的标签属性不属于新词搭配。进一步地,所述α=0.005,所述临界值设为2.576。进一步地,所述步骤S6中的词性标注规则是指句法结构中的词性搭配规则,包括ANN、NN、ANN以及NPN,其中A表示形容词,N表示名词,P表示前置词。采用上述技术方案后,本专利技术至少具有如下有益效果:1、本专利技术在开源工具分词结果的基础上,对停用词进行过滤,降低了有向有权图的耦合度,提高了新词发现的准确性,同时提高了效率。2、本专利技术设置滑动窗口长度,对固定滑动窗口范围内的词项建立关联关系,考虑了中文词项搭配的特征。3、本专利技术采用边权重门限阀值对有向有权图的边进行过滤,降低了有向有权图的耦合度,提高了效率,同时减少次要词项搭配对新词发现的噪声影响,提高了新词发现的准确性。4、本专利技术根据子图中相邻节点之间的边权重以及节点度数,采用统计学的t分布来本文档来自技高网
...
基于有向有权图发现新词的方法

【技术保护点】
一种基于有向有权图发现新词的方法,其特征在于,所述方法包括以下步骤:S1、获取语料,且采用分词开源工具对语料进行分词,过滤停用词;S2、根据过滤后的分词结果,对滑动窗口范围内的词项建立有向边以及权重,根据有向边以及权重生成有向有权图;S3、采用边权重门限阀值对有向有权图的边进行过滤,且保留语料中同现频率较高的词项搭配;S4、根据过滤后的有向有权图,筛选有向有权图中的孤立点以及自环,生成有向有权图的子图;S5、根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配;S6、根据词性标注规则对新词搭配进行筛选,生成最终的新词。

【技术特征摘要】
1.一种基于有向有权图发现新词的方法,其特征在于,所述方法包括以下步骤:S1、获取语料,且采用分词开源工具对语料进行分词,过滤停用词;S2、根据过滤后的分词结果,对滑动窗口范围内的词项建立有向边以及权重,根据有向边以及权重生成有向有权图;S3、采用边权重门限阀值对有向有权图的边进行过滤,且保留语料中同现频率较高的词项搭配;S4、根据过滤后的有向有权图,筛选有向有权图中的孤立点以及自环,生成有向有权图的子图;S5、根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配;S6、根据词性标注规则对新词搭配进行筛选,生成最终的新词。2.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S1中的停用词包括语气词和标点符号。3.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S1中的分词结果,其表现形式为W=(W1,W2,...Wi...,Wn)以及T=(T1,T2,...Ti...,Tn),其中W表示词项集合,T表示词性集合。4.根据权利要求3所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S2中的有向有权图,其表现形式为G=<V,E>,其中V表示节点vi集合,所述词项搭配对应节点vi的标签属性,E表示有向边集合,所述词项搭配之间的同现关系组成所述有向边集合。5.根据权利要求4所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S2的具体方式为:(5a)遍历有向有权图G=<V,E>,在集合V中查询是否存在节点vi的标签为Wi,如果存在节点vi的标签为Wi,返回节点vi,否则在有向图中创建节点vi,并标注其标签为Wi,返回节点vi;(5b)设置滑动窗口长度l,或默认长度l设为1,重复步骤(5a),依次查询Wi+1、Wi+2、...、Wi+l是否存在于有向图中,若存在,返回有向有权图中对应的节点vi+1、vi+2、...、vi+l;(5c)建立节点vi与节点vi+1、vi+2、...、vi+k、...、vi+l的有向边,若节点vi与节点vi+k在有向有权图中存在有向边,则节点vi与节点vi+k的边权重加1,否则,建立节点vi与节点vi+k的有向边,权重为1。6.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S4中的孤立点是指在有向有权图中度数为零时的节点,若有向有权图中存在某些边的权重低于门限阀值,则这些边在被过滤后产生...

【专利技术属性】
技术研发人员:郭泽豪王振宇李风环戴瑾如
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1