基于最大置信度的中文复合新词发现方法技术

技术编号:14458099 阅读:561 留言:0更新日期:2017-01-19 15:09
本发明专利技术涉及中文信息处理领域,提供一种基于最大置信度的中文复合新词发现方法,该方法包括步骤:文本内容抽取及数据预处理;序列频繁模式挖掘;复合新词发现。本发明专利技术提出的技术方案在保持准确率的同时,显著地提升了抽取结果的召回率和准确率。

【技术实现步骤摘要】

本专利技术属于中文信息处理领域,特别涉及一种基于最大置信度的中文复合新词发现方法
技术介绍
在中文文本信息处理工作中,复合新词是指那些由两个以上单字组成的词,这些词有如下特征:已经在媒体上广泛使用,但是公认的字词典还未收录,例如“海淘”,“高铁”等。在某个领域内非常活跃,在领域外则不容易为人知晓,例如“中东呼吸综合症”(卫生,媒体领域),“港式茶餐厅”(旅游餐饮领域),以及“对外交流与合作中心”(政府管理领域)。显然,这些通过词单元复合而成的新词或者领域词都不存在于分词软件的词典中。因而,在传统的分词方法中,很容易将复合新词错分为粒度更小的词元素,例如“中东呼吸综合症”可能被分解成“中东”、“呼吸”和“综合症”三个元素。这样,分词的准确性就直接影响最后信息的挖掘。针对这一问题,研究表明复合新词发现是影响分词结果准确性的重要因素。目前,发现复合新词主要有人工编撰方法、基于统计的方法、基于规则的方法,以及基于统计和规则相结合的方法。人工编撰的方法效率低下,不符合大数据背景下的信息处理。而且复合新词包含范围广,组合方式多样,人工编撰词典的方式无法涵盖所有的复合新词。基于统计的方法是指利用词共现、构词率、互信息等统计指标来筛选复合新词。它具有计算迅速、不受语料背景限制、容易实现等特点,符合未来大数据条件下的信息处理需要,因而研究者众多。基于规则的方法则是利用复合新词组合的语法规则或者词性组合规则来识别复合新词。为了降低失误率,同时提高计算效率,复合新词识别采用较多的是统计和规则相结合的方式。分析发现,大多数复合新词是由两个及以上的序列语义词单元构成,并且语义词单元序列共现分布呈交叉支持度模式。
技术实现思路
【要解决的技术问题】本专利技术的目的是提供一种新的无需词典、无需前期语料库训练、基于统计的复合新词发现方法。【技术方案】本专利技术是通过以下技术方案实现的。本专利技术涉及一种基于最大置信度的中文复合新词发现方法,包括步骤:A、文本内容抽取及数据预处理从目标网站中抓取网络文本信息数据,对网络文本信息数据进行预处理,形成数据集T,T={t1,...,ti,...t|T|本文档来自技高网
...

【技术保护点】
一种基于最大置信度的中文复合新词发现方法,其特征在于包括步骤:A、文本内容抽取及数据预处理从目标网站中抓取网络文本信息数据,对网络文本信息数据进行预处理,形成数据集T,T={t1,...,ti,...t|T|},词向量ti为数据集T中第i条切分文本,其中ti由mi个有序的语义词单元tij构成,j=1,...,mi,|T|表示切分后文本数量,元素tij是数据集T中第i条切分文本中的第j个语义词,所述预处理至少包括对文本信息数据进行分词、标注标点符号和停用词标注;B、序列频繁模式挖掘找出满足最小支持度min supp的1‑项序列频繁项FP(1)(T)和2‑项序列频繁项FP(2)(T),其中,数据集T中的任意p‑项频繁集表示为:FP(p)(T)={X(p)|supp(X(p))≥min supp},min表示取最小值,supp(X(p))表示包含项集X(p)的事务在数据集中的数量;C、复合新词发现该步骤包括步骤:C1、对于数据集T中任意词语义词单元序列tijtij+1∈T,i=1,...,n,j=1,...,mi,如果序列满足θx≥θ0,则抽取该序列;C2、将所有抽取的语义词单元序列替换成新的语义词单元,重新整顿序列序号,再次扫描语料内容并更新数据集T,返回步骤C1进行新一轮复合新词抽取,反复循环步骤C1和步骤C2,直至数据集T中没有满足θx≥θ0的语义词单元序列,步骤C中,θx为2‑项序列频繁集X={ti1ti2}的最大置信度,θ0为预设的抽取阈值,所述新的语义词单元由被替换的语义词单元序列合并而成。...

【技术特征摘要】
1.一种基于最大置信度的中文复合新词发现方法,其特征在于包括步骤:A、文本内容抽取及数据预处理从目标网站中...

【专利技术属性】
技术研发人员:袁华钱宇徐华林
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1