基于中文短语串的细粒度主题信息抽取方法技术

技术编号：13766568 阅读：142 留言：0更新日期：2016-09-28 20:38

本发明专利技术提出了一种基于中文短语串的细粒度主题信息抽取方法，首先对输入的原始文本集进行预处理，主要分为中文分词、停用词处理和词性标注。在进行预处理的同时，进行扩展词汇输入，从而提高中文分词的准确度。预处理阶段完成后，得到处理后的结构化文本集合。然后进行基于词性的正则表达式匹配，得到一个初步的短语筛选结果。然后统计每个词语的串频信息，选取种子词，对短语进行扩展，最终得到短语抽取结果。通过实验证明，该文本抽取方法能够有效且精炼地抽取文本短语，具有一定的可靠性和应用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术一般涉及文本挖掘领域，具体涉及基于中文短语串的细粒度主题信息抽取方法。
技术介绍
随着互联网时代的不断发展，信息呈现爆炸式的增长。近几年，“大数据”和云计算技术一直被炒得很热，也在一些领域中得到了不同的应用。本方法是基于中文短语串的主题信息抽取，属于文本挖掘技术。在信息爆炸的时代，人们被动地接受大量的无效信息，如电子邮件、广告以及互联网上的虚假消息等，浪费了人们大量的时间和精力。虽然搜索引擎在一定程度上能够帮助人们获取到特定的信息，但还是不能更深入地挖掘出背后隐藏的有用信息。故人们迫切地需要在网络中搜索到精确的信息，提供更全面的网络话题挖掘服务。从而人们在知道网络所覆盖主题的一般性描述的同时，也能够学习其他人的评价和讨论话题的具体细节。由于中文文字的复杂性和缺乏对中文文本挖掘技术的研究，导致国内的文本挖掘技术发展比较晚。主要分为两类：一是基于词语规则的方法基于词语规则方法本质是总结并分析不同词语之间相互关系来进行规则归纳，并对待处理文本执行后续工作；二是基于文本语义的规则方法，基于语义方法本质是搜索通用知识库来进行文本语义信息的抽取。
技术实现思路
本专利技术以文本短语为基本语义信息单位，针对中文短语抽取进行研究。本专利技术提供了基于中文短语串的细粒度主题信息抽取方法。本专利技术的目的在于通过提供的文本集合，能够有效地挖掘和提炼出里面潜在的信息，从而提供决策支持。本专利技术的目的通过如下技术方案实现。一种基于中文短语串的细粒度主题信息抽取方法，其包括以下步骤：(a)对原始文本进行常规的文本分析的预处理步骤，包括中文分词、停用词处理和词性标注；(b)...

【技术保护点】
一种基于中文短语串的细粒度主题信息抽取方法，其特征在于，包括以下步骤：(a)对原始文本进行常规的文本分析的预处理步骤，包括中文分词、停用词处理和词性标注；(b)针对语料中存在的大量专有名词引入另外的扩展词库来进行处理，从而得到结构化的文本集合；(c)利用步骤(a),(b)中得到的结构化文本集合，进行基于词性长度的正则表达式匹配，以7个词语作为短语长度的上限；(d)利用步骤(c)过滤得到的短语抽取的中间结果，进行词语串频信息统计，包括前缀短语串频集合和后缀短语串频集合的信息统计；(e)基于步骤(d)统计得到的信息进行词语串频信息参数分析；(f)基于步骤(e)进行候选种子词选取与短语扩展向前进行短语扩展和向后进行短语扩展。

【技术特征摘要】
1.一种基于中文短语串的细粒度主题信息抽取方法，其特征在于，包括以下步骤：(a)对原始文本进行常规的文本分析的预处理步骤，包括中文分词、停用词处理和词性标注；(b)针对语料中存在的大量专有名词引入另外的扩展词库来进行处理，从而得到结构化的文本集合；(c)利用步骤(a),(b)中得到的结构化文本集合，进行基于词性长度的正则表达式匹配，以7个词语作为短语长度的上限；(d)利用步骤(c)过滤得到的短语抽取的中间结果，进行词语串频信息统计，包括前缀短语串频集合和后缀短语串频集合的信息统计；(e)基于步骤(d)统计得到的信息进行词语串频信息参数分析；(f)基于步骤(e)进行候选种子词选取与短语扩展向前进行短语扩展和向后进行短语扩展。2.根据权利要求1所述基于中文短语串的细粒度主题信息抽取方法，其特征在于：步骤(c)中分析结构化文本集合其中的语料短语的结构，主要是4种词性的词语:动词v，名词n，形容词adj和副词adv；参考目前中文语法范畴，主要分为以下四种类型的短语：(1)并列短语：n+n/v+v/adj+adj/adv+adv(2)偏正短语：adj+n/adv+adj/adv+v(3)动宾短语：v+n/v+v/v+adj(4)主谓结构：n+v/n+adj；基于中文短语以7个字为上限的长度，对词性长度进行统计，主要分为...

【专利技术属性】
技术研发人员：黄翰，丁东辉，林伟佳，郝志峰，杨晓伟，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人