一种基于领域词典和语义角色的评价对象抽取方法技术

技术编号：10866742 阅读：190 留言：0更新日期：2015-01-07 07:58

本发明专利技术涉及一种基于领域词典和语义角色的评价对象抽取方法，属于自然语言处理应用技术领域，包括以下步骤：首先根据词性、依存和语义角色信息，构建评价对象的领域词典DL，然后充分挖掘词汇、依存、相对位置和语义角色四方面的特征，与DL一起利用条件随机场(CRFs)进行模型训练和预测，从而完成评价对象的抽取工作。对比现有技术，根据中文句子特别是微博、论坛评论信息结构灵活多样、构成方法变化多、句子特征较少的特点，充分利用不同层级句法和语义信息，结合基于规则和机器学习的评价对象抽取方法的优点，自动快速而且准确地找到语料中置信度较高的评价对象，提高了中文句子评价对象抽取的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于领域词典和语义角色的评价对象抽取方法
本专利技术涉及一种中文句子评价对象抽取方法,特别涉及一种基于领域词典和语义角色的评价对象抽取方法，属于自然语言处理应用

技术介绍
随着互联网特别是web2.0的发展，越来越多的人不仅仅通过网络获取信息，而且还更多的参与到网络的交流。博客、微博、论坛的形成发展极大地改变了人们的使用互联网的方式。伴随着互联网的发展，通过人工的方式了解网络的海量信息，对网络上的信息进行整合分析变得越来越困难。对网络文本的抓取和分析技术就是这样的应用背景下应运而生。由于越来越多的网络文本信息，如何使用自然语言处理技术来分析网络的文本是当前研究的一个主题。情感要素抽取是对文本中重要的情感要素比如评价词，评价对象，评价者等进行提取，是细粒度的情感挖掘，也变得越来越重要。大数据时代的到来，对网络上的信息进行有效的整合分析已经是研究者一个十分重要的研究课题。情感信息抽取，特别是细粒度的情感要素抽取，在近几年得到了越来越多的重视。情感要素抽取对情感信息抽取技术的研究有着十分重要的研究意义，在网络评论信息分析处理、舆情监控、信息预测等领域发挥了越来越重要的影响。评价对象抽取技术的研究，对上层情感信息检索、分类以及专家系统等进一步的研究，有着十分重要的学术价值。评价对象抽取(OpinionTargetsExtraction/Identification)是对句子中观点的指向词进行识别。评价对象指的是句子中表述观点和发表评论所针对的对象；评价词是句子中发表观点所用的词汇，也称为情感词。随着评价对象抽取任务的提出，相继出现了不同的抽取算法，主...
一种基于领域词典和语义角色的评价对象抽取方法

【技术保护点】
一种基于领域词典和语义角色的评价对象抽取方法，其特征在于，包括以下步骤：步骤一、语料预处理：对语料集S的每一个句子按照规则(Rules)进行过滤，然后对过滤后的句子集合进行分词、词性标注，得到语料集T；Rules的具体内容如下：规则1：去除纯英文句子；规则2：对句子进行“//”划分，并且使分句顺序倒置；规则3：对句子中用户名和网址进行删除；规则4：对连续出现的多个相同标点符号，用第一个标点符号进行替换，同时去除表情标示符；规则5：对于微博中特殊的“#内容#”，则把较短内容直接作为候选评价对象，较长内容作为一个单独的句子另行分析；规则6：对句子中的代词，选择其前句或后句中的名词性主语将其替换；步骤二、领域词典(DL)构建：首先通过对语料集T进行分析，总结出词性序列模板集合(posT)，并将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配，得到评价对象集合A；然后对T中的每一个句子进行依存结果类型分析，通过分析评价对象与评价词之间的依存关系类型，得到评价对象集合B；接下来通过一个基于语义角色的评价对象提取算法，得到评价对象集合C；最后，对集合A、B、C取并集，得到集合D...

【技术特征摘要】
1.一种基于领域词典和语义角色的评价对象抽取方法，其特征在于，包括以下步骤：步骤一、语料预处理：对语料集S的每一个句子按照规则Rules进行过滤，然后对过滤后的句子集合进行分词、词性标注，得到语料集T；Rules的具体内容如下：规则1：去除纯英文句子；规则2：对句子进行“//”划分，并且使分句顺序倒置；规则3：对句子中用户名和网址进行删除；规则4：对连续出现的多个相同标点符号，用第一个标点符号进行替换，同时去除表情标示符；规则5：对于微博中特殊的“#内容#”，则把较短内容直接作为候选评价对象，较长内容作为一个单独的句子另行分析；规则6：对句子中的代词，选择其前句或后句中的名词性主语将其替换；步骤二、领域词典DL构建：首先通过对语料集T进行分析，总结出词性序列模板集合posT，并将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配，得到评价对象集合A；然后对T中的每一个句子进行依存结果类型分析，通过分析评价对象与评价词之间的依存关系类型，得到评价对象集合B；接下来通过一个基于语义角色的评价对象提取算法，得到评价对象集合C；最后，对集合A、B、C取并集，得到集合D，作为最终的DL；所述posT的获取过程如下：首先对语料集T中的词性标注进行替换，将属于比较词、主张词和程度副词的词语的词性标注改成cmp，aw和adv；对于T中的每一个句子，提取其评价对象前两个、前一个、后两个、后一个词与评价对象的词性一起作为模板提取出来，如果评价对象不是一个单独的词，而是由多个词的组合，则将这些组合词的词性，组合起来形成模板；按照这种规则处理T中的所有句子，并计算每一个模板的出现概率；最后，将出现概率最高的m个模板提取出来作为posT，m是一个大于零的自然数；所述集合A的获取过程如下：将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配，将匹配得到的所有词性序列中词性为名词的词提取出来，去掉重复，构成...

【专利技术属性】
技术研发人员：冯冲，廖纯，杨森，黄河燕，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人