基于中文短语串的细粒度主题信息抽取方法技术

技术编号:13766568 阅读:118 留言:0更新日期:2016-09-28 20:38
本发明专利技术提出了一种基于中文短语串的细粒度主题信息抽取方法,首先对输入的原始文本集进行预处理,主要分为中文分词、停用词处理和词性标注。在进行预处理的同时,进行扩展词汇输入,从而提高中文分词的准确度。预处理阶段完成后,得到处理后的结构化文本集合。然后进行基于词性的正则表达式匹配,得到一个初步的短语筛选结果。然后统计每个词语的串频信息,选取种子词,对短语进行扩展,最终得到短语抽取结果。通过实验证明,该文本抽取方法能够有效且精炼地抽取文本短语,具有一定的可靠性和应用性。

【技术实现步骤摘要】

本专利技术一般涉及文本挖掘领域,具体涉及基于中文短语串的细粒度主题信息抽取方法
技术介绍
随着互联网时代的不断发展,信息呈现爆炸式的增长。近几年,“大数据”和云计算技术一直被炒得很热,也在一些领域中得到了不同的应用。本方法是基于中文短语串的主题信息抽取,属于文本挖掘技术。在信息爆炸的时代,人们被动地接受大量的无效信息,如电子邮件、广告以及互联网上的虚假消息等,浪费了人们大量的时间和精力。虽然搜索引擎在一定程度上能够帮助人们获取到特定的信息,但还是不能更深入地挖掘出背后隐藏的有用信息。故人们迫切地需要在网络中搜索到精确的信息,提供更全面的网络话题挖掘服务。从而人们在知道网络所覆盖主题的一般性描述的同时,也能够学习其他人的评价和讨论话题的具体细节。由于中文文字的复杂性和缺乏对中文文本挖掘技术的研究,导致国内的文本挖掘技术发展比较晚。主要分为两类:一是基于词语规则的方法基于词语规则方法本质是总结并分析不同词语之间相互关系来进行规则归纳,并对待处理文本执行后续工作;二是基于文本语义的规则方法,基于语义方法本质是搜索通用知识库来进行文本语义信息的抽取。
技术实现思路
本专利技术以文本短语为基本语义信息单位,针对中文短语抽取进行研究。本专利技术提供了基于中文短语串的细粒度主题信息抽取方法。本专利技术的目的在于通过提供的文本集合,能够有效地挖掘和提炼出里面潜在的信息,从而提供决策支持。本专利技术的目的通过如下技术方案实现。一种基于中文短语串的细粒度主题信息抽取方法,其包括以下步骤:(a)对原始文本进行常规的文本分析的预处理步骤,包括中文分词、停用词处理和词性标注;(b)针对语料中存在的大量专有名词引入另外的扩展词库来进行处理,从而得到结构化的文本集合;(c)利用步骤(a,b)中得到的结构化文本集合,进行基于词性长度的正则表达式匹配,以7个词语作为短语长度的上限;(d)利用步骤(c)过滤得到的短语抽取的中间结果,进行词语串频信息统计,包括前缀短语串频集合和后缀短语串频集合的信息统计;(e)基于步骤(d)统计得到的信息进行词语串频信息参数分析;基于步骤(e)进行候选种子词选取与短语扩展向前进行短语扩展和向后进行短语扩展。进一步地,在文本预处理阶段,对原始文本进行处理的步骤主要是中文分词、停用词处理和词性标注。由于中文的词与词之间不像英文那样有固定的间隔符,所以对原始文本第一步操作是中文分词和停用词处理,本文使用的是基于词库的分词算法,正向最大匹配、逆向匹配和逐词遍历匹配法。在进行预处理的同时,由于大量专有名词主体的存在,本文引入额外的扩展词库,为了提高中文分词的准确度和精密度,扩展词库需要不断地更新维护。之后进行词性标注,主要分为四种词性,名词n、动词v、形容词adj和副词adv。进一步地,通过对搜狗语料库的新闻文章进行调查,主要的中文短语含词的数目在4个和5个,90%以上的中文短语含词数目不超过7个,故本方法的上限为7个词。对其中的语料短语进行结构上的分析,短语的词性包括4种词性:名词n,动词v,形容词adj和副词adv。参考目前中文语法范畴,主要分为以下四种类型的短语:(1)并列短语:n+n/v+v/adj+adj/adv+adv(2)偏正短语:adj+n/adv+adj/adv+v(3)动宾短语:v+n/v+v/v+adj(4)主谓结构:n+v/n+adj正则表达式(Regular Expressions)的本质核心是通过语法格式匹配字符,现在已经是公认的ISO标准,且被广泛地应用到各种信息
许多计算机应用平台和脚本语言现在都已经支持正则表达式。根据中文短语7个词最长匹配原则,下面将列举按照词性有效长度的词性短语组成的正则表达式:a.1种词性有效长度的短语(1)n+b.2个词性有效长度的短语(1)n+adv*v+(2)v+adv*v+(3)n+adv*adj+(4)v+adj*n+(5)adj+n+c.3个词性有效长度的短语(1)n+adv*v+adj*n+(2)n+adv*v+adv*adj+(3)adj+n+adv*v+(4)adj+n+adv*adj+(5)adv+adj+n+(6)adv+v+adv*v+(7)adv+v+adj*n+d.4个词性有效长度的短语(1)n+adv*v+adv*adj+(2)adj+n+adv*v+adj*n+(3)adj+n+adv*v+adv*adj+(4)adv+adj+n+adv*adj+(5)adv+adj+n+adv*v+e.5个词性有效长度的词语(1)adv+adj+n+adv*v+adv*adj+(2)adv+adj+n+adv*v+adj*n+以上基本包含了7个词语长度以下5个词性有效长度以下的短语结构的组成方式。进一步地,步骤(d)中,词语串频信息包括前缀词语串频集合和后缀词语串频集合。前缀词语串频集合是指候选种子词的前缀词语所组成的集合,包括前缀词语的词语内容以及出现频次。同理后缀词语串频集合是指候选种子词的后缀词语所组成的集合,也包括后缀词语的词语内容以及出现频次。本方法用数学集合进行表示,对于某一种子词t,前缀词语串频集合pre_s(prefix‐set)定义如下:pre_st={(ew1,ef1),(ew2,ef2),...,(ewn,efn)本文档来自技高网
...

【技术保护点】
一种基于中文短语串的细粒度主题信息抽取方法,其特征在于,包括以下步骤:(a)对原始文本进行常规的文本分析的预处理步骤,包括中文分词、停用词处理和词性标注;(b)针对语料中存在的大量专有名词引入另外的扩展词库来进行处理,从而得到结构化的文本集合;(c)利用步骤(a),(b)中得到的结构化文本集合,进行基于词性长度的正则表达式匹配,以7个词语作为短语长度的上限;(d)利用步骤(c)过滤得到的短语抽取的中间结果,进行词语串频信息统计,包括前缀短语串频集合和后缀短语串频集合的信息统计;(e)基于步骤(d)统计得到的信息进行词语串频信息参数分析;(f)基于步骤(e)进行候选种子词选取与短语扩展向前进行短语扩展和向后进行短语扩展。

【技术特征摘要】
1.一种基于中文短语串的细粒度主题信息抽取方法,其特征在于,包括以下步骤:(a)对原始文本进行常规的文本分析的预处理步骤,包括中文分词、停用词处理和词性标注;(b)针对语料中存在的大量专有名词引入另外的扩展词库来进行处理,从而得到结构化的文本集合;(c)利用步骤(a),(b)中得到的结构化文本集合,进行基于词性长度的正则表达式匹配,以7个词语作为短语长度的上限;(d)利用步骤(c)过滤得到的短语抽取的中间结果,进行词语串频信息统计,包括前缀短语串频集合和后缀短语串频集合的信息统计;(e)基于步骤(d)统计得到的信息进行词语串频信息参数分析;(f)基于步骤(e)进行候选种子词选取与短语扩展向前进行短语扩展和向后进行短语扩展。2.根据权利要求1所述基于中文短语串的细粒度主题信息抽取方法,其特征在于:步骤(c)中分析结构化文本集合其中的语料短语的结构,主要是4种词性的词语:动词v,名词n,形容词adj和副词adv;参考目前中文语法范畴,主要分为以下四种类型的短语:(1)并列短语:n+n/v+v/adj+adj/adv+adv(2)偏正短语:adj+n/adv+adj/adv+v(3)动宾短语:v+n/v+v/v+adj(4)主谓结构:n+v/n+adj;基于中文短语以7个字为上限的长度,对词性长度进行统计,主要分为...

【专利技术属性】
技术研发人员:黄翰丁东辉林伟佳郝志峰杨晓伟
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1