【技术实现步骤摘要】
本专利技术涉及自然语言处理
,特别涉及一种基于有向有权图发现新词的方法。
技术介绍
新词发现作为自然语言处理领域的一项基础研究,深受学术界乃至企业界的关注。随着互联网以及各种社交媒体的发展,涌现了大量的新词,大量新词的出现使得现有的分词工具准确率下降,据统计,大约60%的分词错误是由于新词导致的。相比传统媒体,互联网媒体成为人们关注时事热点,发表观点的主要平台,互联网媒体(比如微博)传播速度迅速,传播群体广泛,与之涌现的新词也呈病毒传染的态势传播,其中如“马航”,“敬业福”,“微信收费”等,反映了民众的态度与看法。通过有效地发现新词,及时把握热点事件的关键词,对于热点事件发现以及热点事件预警监控具有重大的意义。P2P借贷是新兴的一个金融服务行业,在美国,LeadingClub成立于2007年,目前已经是世界第一大借贷平台。P2P借贷行业作为新兴的行业,包含大量新词,同时更新频率快,其中如“羊毛党”,“微众银行”,“e租宝”,“跑路”等,这些新词反映了P2P借贷行业的发展,在该领域进行新词发现具有一定的挑战性。在学术界,对于新词还没有一个明确的概念,在中文分词领域,有新词和未登录词两种概念,未登录词就是当前词库中“未登录”的词,新词属于未登录词的一种。目前新词发现的研究大体可以分为三种,其一是基于规则的方法,其二是基于统计的方法,其三是基于规则与统计相结合的方法。基于规则的方法准确率比较高,针对性强,但是维护规则的工作量比较大。基于统计的方法通过现有的分词工具对语料进行分词,根据分词结果进行统计从而发现新词,对语料的依赖性小,适应性比较强,然而准确率 ...
【技术保护点】
一种基于有向有权图发现新词的方法,其特征在于,所述方法包括以下步骤:S1、获取语料,且采用分词开源工具对语料进行分词,过滤停用词;S2、根据过滤后的分词结果,对滑动窗口范围内的词项建立有向边以及权重,根据有向边以及权重生成有向有权图;S3、采用边权重门限阀值对有向有权图的边进行过滤,且保留语料中同现频率较高的词项搭配;S4、根据过滤后的有向有权图,筛选有向有权图中的孤立点以及自环,生成有向有权图的子图;S5、根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配;S6、根据词性标注规则对新词搭配进行筛选,生成最终的新词。
【技术特征摘要】
1.一种基于有向有权图发现新词的方法,其特征在于,所述方法包括以下步骤:S1、获取语料,且采用分词开源工具对语料进行分词,过滤停用词;S2、根据过滤后的分词结果,对滑动窗口范围内的词项建立有向边以及权重,根据有向边以及权重生成有向有权图;S3、采用边权重门限阀值对有向有权图的边进行过滤,且保留语料中同现频率较高的词项搭配;S4、根据过滤后的有向有权图,筛选有向有权图中的孤立点以及自环,生成有向有权图的子图;S5、根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配;S6、根据词性标注规则对新词搭配进行筛选,生成最终的新词。2.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S1中的停用词包括语气词和标点符号。3.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S1中的分词结果,其表现形式为W=(W1,W2,...Wi...,Wn)以及T=(T1,T2,...Ti...,Tn),其中W表示词项集合,T表示词性集合。4.根据权利要求3所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S2中的有向有权图,其表现形式为G=<V,E>,其中V表示节点vi集合,所述词项搭配对应节点vi的标签属性,E表示有向边集合,所述词项搭配之间的同现关系组成所述有向边集合。5.根据权利要求4所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S2的具体方式为:(5a)遍历有向有权图G=<V,E>,在集合V中查询是否存在节点vi的标签为Wi,如果存在节点vi的标签为Wi,返回节点vi,否则在有向图中创建节点vi,并标注其标签为Wi,返回节点vi;(5b)设置滑动窗口长度l,或默认长度l设为1,重复步骤(5a),依次查询Wi+1、Wi+2、...、Wi+l是否存在于有向图中,若存在,返回有向有权图中对应的节点vi+1、vi+2、...、vi+l;(5c)建立节点vi与节点vi+1、vi+2、...、vi+k、...、vi+l的有向边,若节点vi与节点vi+k在有向有权图中存在有向边,则节点vi与节点vi+k的边权重加1,否则,建立节点vi与节点vi+k的有向边,权重为1。6.根据权利要求1所述的基于有向有权图发现新词的方法,其特征在于,所述步骤S4中的孤立点是指在有向有权图中度数为零时的节点,若有向有权图中存在某些边的权重低于门限阀值,则这些边在被过滤后产生...
【专利技术属性】
技术研发人员:郭泽豪,王振宇,李风环,戴瑾如,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。