本发明专利技术涉及一种基于领域词典和语义角色的评价对象抽取方法,属于自然语言处理应用技术领域,包括以下步骤:首先根据词性、依存和语义角色信息,构建评价对象的领域词典DL,然后充分挖掘词汇、依存、相对位置和语义角色四方面的特征,与DL一起利用条件随机场(CRFs)进行模型训练和预测,从而完成评价对象的抽取工作。对比现有技术,根据中文句子特别是微博、论坛评论信息结构灵活多样、构成方法变化多、句子特征较少的特点,充分利用不同层级句法和语义信息,结合基于规则和机器学习的评价对象抽取方法的优点,自动快速而且准确地找到语料中置信度较高的评价对象,提高了中文句子评价对象抽取的准确率。
【技术实现步骤摘要】
一种基于领域词典和语义角色的评价对象抽取方法
本专利技术涉及一种中文句子评价对象抽取方法,特别涉及一种基于领域词典和语义角色的评价对象抽取方法,属于自然语言处理应用
技术介绍
随着互联网特别是web2.0的发展,越来越多的人不仅仅通过网络获取信息,而且还更多的参与到网络的交流。博客、微博、论坛的形成发展极大地改变了人们的使用互联网的方式。伴随着互联网的发展,通过人工的方式了解网络的海量信息,对网络上的信息进行整合分析变得越来越困难。对网络文本的抓取和分析技术就是这样的应用背景下应运而生。由于越来越多的网络文本信息,如何使用自然语言处理技术来分析网络的文本是当前研究的一个主题。情感要素抽取是对文本中重要的情感要素比如评价词,评价对象,评价者等进行提取,是细粒度的情感挖掘,也变得越来越重要。大数据时代的到来,对网络上的信息进行有效的整合分析已经是研究者一个十分重要的研究课题。情感信息抽取,特别是细粒度的情感要素抽取,在近几年得到了越来越多的重视。情感要素抽取对情感信息抽取技术的研究有着十分重要的研究意义,在网络评论信息分析处理、舆情监控、信息预测等领域发挥了越来越重要的影响。评价对象抽取技术的研究,对上层情感信息检索、分类以及专家系统等进一步的研究,有着十分重要的学术价值。评价对象抽取(OpinionTargetsExtraction/Identification)是对句子中观点的指向词进行识别。评价对象指的是句子中表述观点和发表评论所针对的对象;评价词是句子中发表观点所用的词汇,也称为情感词。随着评价对象抽取任务的提出,相继出现了不同的抽取算法,主要分为基于规则的方法和基于机器学习的方法。通常基于规则的方法主要是采用句子中词、词性等模板特征,例如基于关联规则的方法。基于规则的方法对特定领域的效果较好,但是领域适应性较差。基于机器学习的方法在近年来才得以在评价对象抽取任务上进行研究。当前主要有CRFs、HMM、LDA等机器学习模型。基于机器学习的方法,受到目前句子短、特征少、语料库不足等影响,不能满足当前实际使用的需要。
技术实现思路
本专利技术的目的是为了解决现有基于规则的评价对象抽取方法领域适应性差、基于机器学习的方法对有限的中文标注语料库不能充分挖掘出特征的问题,提出一种基于领域词典和语义角色的中文句子评价对象抽取方法。为实现上述目的,本专利技术所采用的技术方案如下:本专利技术技术方案的思想是首先根据词性、依存和语义角色信息,构建评价对象的领域词典DL,然后充分挖掘词汇、依存、相对位置和语义角色四方面的特征,与DL一起利用条件随机场(CRFs)进行模型训练和预测,从而完成评价对象的抽取工作。一种基于领域词典和语义角色的评价对象抽取方法,该方法包括以下步骤:步骤一、语料预处理:对语料集S的每一个句子按照规则(Rules)进行过滤,然后对过滤后的句子集合进行分词、词性标注得到语料集T;步骤二、领域词典(DL)构建:首先通过对语料集T进行分析,总结出词性序列模板集合(posT),并将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配,得到评价对象集合A;然后对T中的每一个句子进行依存结果类型分析,通过分析评价对象与评价词之间的依存关系类型,得到评价对象集合B;接下来通过一个基于语义角色的评价对象提取算法,得到评价对象集合C;最后,对集合A、B、C取并集,得到集合D,作为最终的DL;步骤三、CRFs特征选择:使用词汇特征、依存特征、相对位置特征和语义角色特征作为CRFs的特征;所述词汇特征部分,选择当前词及其词性作为此部分特征;所述依存特征部分,选取当前词与中心词是否存在依存关系、该依存关系的类型、当前词的父节点以及父节点的词性作为此部分特征;所述相对位置特征部分,以当前词与评价词之间的距离是否小于n作为本部分特征,n是一个大于零的自然数;所述语义角色特征部分,选取语义角色名字和评价词词性作为该部分的特征;步骤四、利用CRFs进行评价对象抽取:首先对语料集T进行B,I,O标注,然后将步骤三提取的四部分特征、步骤二构建的DL及BIO标注一起加入CRFs进行训练;并使用此训练后的CRFs对步骤三提取的四部分特征和步骤二构建的DL进行评价对象识别,给出BIO分类结果;步骤五、抽取完成,输出抽取结果OT集合,即分类结果为B或以B开头后跟若干个I的词的集合。所述Rules包含以下六项内容:规则1:去除纯英文句子;规则2:对句子进行“//”划分,并且使分句顺序倒置;规则3:对句子中用户名和网址进行删除;规则4:对连续出现的多个相同标点符号,用第一个标点符号进行替换,同时去除表情标示符;规则5:对于微博中特殊的“#内容#”,则把较短内容直接作为候选评价对象,较长内容作为一个单独的句子另行分析;规则6:对句子中的代词,选择其前句或后句中的名词性主语将其替换。所述posT的获取过程如下:首先对语料集T中的词性标注进行替换,将属于比较词、主张词和程度副词的词语的词性标注改成cmp,aw和adv;对于T中的每一个句子,提取其评价对象前两个、前一个、后两个、后一个词与评价对象的词性一起作为模板提取出来,如果评价对象不是一个单独的词,而是由多个词的组合,则将这些组合词的词性,组合起来形成模板;按照这种规则处理T中的所有句子,并计算每一个模板的出现概率;最后,将出现概率最高的m个模板提取出来作为posT,m是一个大于零的自然数。所述集合A的获取过程如下:将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配,将匹配得到的所有词性序列中词性为n的词提取出来,去掉重复,构成集合A。所述集合B的获取过程如下:对语料集T中的每个句子进行依存分析,找出与评价词集合O中的词存在ATT或SBV关系的词作为评价对象,加入集合B,然后再选取与已知评级对象B中现存词的关系为COO的词,也添加入B,形成最终的集合B。所述基于语义角色的评价对象提取算法具体内容如下:对于句子中的评价词,如果评价词词性为动词,则选取受事者(即该动作的承受者)作为评价对象,而如果评价词词性为形容词,则选取施事者(即该动作的发出者)作为评价对象。所述BIO标注的具体过程如下:首先对于每一个句子,找出对应的评价对象;然后遍历该句子分词结果中的每一个词,如果其是该句所对应的评价对象中的第一个词,则标注为B;若其是该句所对应的评价对象中的其他词,则标注为I;其他情况,全部标注为O。有益效果本专利技术对比现有技术,根据中文句子特别是微博、论坛评论信息结构灵活多样、构成方法变化多、句子特征较少的特点,利用基于规则的句子过滤方法,去掉了部分冗余的信息,然后通过挖掘句子词汇、句法和语义各方面的信息,通过规则的方法建立评价对象的领域词典;并将其和语义角色特征,辅以其他三种常用特征一起使用CRFs进行识别,充分利用了不同层级句法和语义信息,使用户能够更快速而且准确地找到语料中置信度较高的评价对象,提高了中文句子评价对象抽取的准确率。附图说明图1为本专利技术方法的流程图。具体实施方式下面结合实施例对本专利技术做进一步说明。本实施例选取第六届中文倾向性分析评测(TheSixthChineseOpinionAnalysisEvaluation,简称COAE2014)任务四提供的数本文档来自技高网...
【技术保护点】
一种基于领域词典和语义角色的评价对象抽取方法,其特征在于,包括以下步骤:步骤一、语料预处理:对语料集S的每一个句子按照规则(Rules)进行过滤,然后对过滤后的句子集合进行分词、词性标注,得到语料集T;Rules的具体内容如下:规则1:去除纯英文句子;规则2:对句子进行“//”划分,并且使分句顺序倒置;规则3:对句子中用户名和网址进行删除;规则4:对连续出现的多个相同标点符号,用第一个标点符号进行替换,同时去除表情标示符;规则5:对于微博中特殊的“#内容#”,则把较短内容直接作为候选评价对象,较长内容作为一个单独的句子另行分析;规则6:对句子中的代词,选择其前句或后句中的名词性主语将其替换;步骤二、领域词典(DL)构建:首先通过对语料集T进行分析,总结出词性序列模板集合(posT),并将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配,得到评价对象集合A;然后对T中的每一个句子进行依存结果类型分析,通过分析评价对象与评价词之间的依存关系类型,得到评价对象集合B;接下来通过一个基于语义角色的评价对象提取算法,得到评价对象集合C;最后,对集合A、B、C取并集,得到集合D,作为最终的DL;所述posT的获取过程如下:首先对语料集T中的词性标注进行替换,将属于比较词、主张词和程度副词的词语的词性标注改成cmp,aw和adv;对于T中的每一个句子,提取其评价对象前两个、前一个、后两个、后一个词与评价对象的词性一起作为模板提取出来,如果评价对象不是一个单独的词,而是由多个词的组合,则将这些组合词的词性,组合起来形成模板;按照这种规则处理T中的所有句子,并计算每一个模板的出现概率;最后,将出现概率最高的m个模板提取出来作为posT,m是一个大于零的自然数;所述集合A的获取过程如下:将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配,将匹配得到的所有词性序列中词性为n(名词)的词提取出来,去掉重复,构成集合A;所述集合B的获取过程如下:对语料集T中的每个句子进行依存分析,找出与评价词集合O中的词存在ATT或SBV关系的词作为评价对象,加入集合B,然后再选取与已知评级对象B中现存词的关系为COO的词,也添加入B,形成最终的集合B;所述基于语义角色的评价对象提取算法具体内容如下:对于句子中的评价词,如果评价词词性为动词,则选取受事者(即该动作的承受者)作为评价对象,而如果评价词词性为形容词,则选取施事者(即该动作的发出者)作为评价对象;步骤三、CRFs特征选择:使用词汇特征、依存特征、相对位置特征和语义角色特征作为CRFs的特征;所述词汇特征部分,选择当前词及其词性作为此部分特征;所述依存特征部分,选取当前词与中心词是否存在依存关系、该依存关系的类型、当前词的父节点以及父节点的词性作为此部分特征;所述相对位置特征部分,以当前词与评价词之间的距离是否小于n作为本部分特征,n是一个大于零的自然数;所述语义角色特征部分,选取语义角色名字和评价词词性作为该部分的特征;步骤四、利用CRFs进行评价对象抽取:首先对语料集T进行B,I,O标注,然后将步骤三提取的CRFs特征、步骤二构建的DL以及BIO标注一起加入CRFs进行训练;并使用此训练后的CRFs对步骤三提取的四部分特征和步骤二构建的DL进行评价对象识别,给出BIO分类结果;所述BIO标注的具体过程如下:首先对于每一个句子,找出对应的评价对象;然后遍历该句子分词结果中的每一个词,如果其是该句所对应的评价对象中的第一个词,则标注为B;若其是该句所对应的评价对象中的其他词,则标注为I;其他情况,全部标注为O;步骤五、抽取完成,输出抽取结果OT集合,即分类结果为B或以B开头后跟若干个I的词的组合的集合。...
【技术特征摘要】
1.一种基于领域词典和语义角色的评价对象抽取方法,其特征在于,包括以下步骤:步骤一、语料预处理:对语料集S的每一个句子按照规则Rules进行过滤,然后对过滤后的句子集合进行分词、词性标注,得到语料集T;Rules的具体内容如下:规则1:去除纯英文句子;规则2:对句子进行“//”划分,并且使分句顺序倒置;规则3:对句子中用户名和网址进行删除;规则4:对连续出现的多个相同标点符号,用第一个标点符号进行替换,同时去除表情标示符;规则5:对于微博中特殊的“#内容#”,则把较短内容直接作为候选评价对象,较长内容作为一个单独的句子另行分析;规则6:对句子中的代词,选择其前句或后句中的名词性主语将其替换;步骤二、领域词典DL构建:首先通过对语料集T进行分析,总结出词性序列模板集合posT,并将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配,得到评价对象集合A;然后对T中的每一个句子进行依存结果类型分析,通过分析评价对象与评价词之间的依存关系类型,得到评价对象集合B;接下来通过一个基于语义角色的评价对象提取算法,得到评价对象集合C;最后,对集合A、B、C取并集,得到集合D,作为最终的DL;所述posT的获取过程如下:首先对语料集T中的词性标注进行替换,将属于比较词、主张词和程度副词的词语的词性标注改成cmp,aw和adv;对于T中的每一个句子,提取其评价对象前两个、前一个、后两个、后一个词与评价对象的词性一起作为模板提取出来,如果评价对象不是一个单独的词,而是由多个词的组合,则将这些组合词的词性,组合起来形成模板;按照这种规则处理T中的所有句子,并计算每一个模板的出现概率;最后,将出现概率最高的m个模板提取出来作为posT,m是一个大于零的自然数;所述集合A的获取过程如下:将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配,将匹配得到的所有词性序列中词性为名词的词提取出来,去掉重复,构成...
【专利技术属性】
技术研发人员:冯冲,廖纯,杨森,黄河燕,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。