一种基于局部信息表示的细粒度情感元素抽取方法技术

技术编号：16885854 阅读：322 留言：0更新日期：2017-12-27 03:39

本发明专利技术为了解决现有的细粒度情感元素抽取方法当抽取评价对象时，不能很好地利用紧随其后的单词，导致短语词性判断错误、抽取结果缺漏较多，并且难以判断当前词是否是评价对象一部分的缺点，而提出一种基于局部信息表示的细粒度情感元素抽取方法，包括：将预设窗口大小中的每一个单词通过Lookup Table查找词特征的向量表示，将得到的词向量分别输入至LSTM模型中；并将得到的词向量组合为一个向量输入至前馈神经网络模型中；将LSTM模型隐层特征表示以及前馈神经网络模型的局部上下文特征表示进行拼接，得到拼接后的结果；将送入输出层使用softmax函数作标签分类。本发明专利技术适用于细粒度情感元素抽取工具。

A fine-grained emotional element extraction method based on local information representation

The invention to solve the fine-grained emotion elements existing methods when the evaluation object extraction, followed by not good use of words, phrases to POS errors in judgment, the extraction results gaps more, it is difficult to determine whether the current word is a part of the shortcomings of the evaluation object, and proposes a representation based on local information granularity emotional elements extraction method, including: the default window size in each word by word vector Lookup Table search feature, the word vector obtained were input to the LSTM model; and the word vector combination as a vector input to the feedforward neural network model; the feature model of hidden layer LSTM said, the feedforward neural network to model the local context features mosaic, mosaic results after; will send the output layer used softmax function Number is classified as label. The invention is suitable for fine grained emotional element extraction tools.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于局部信息表示的细粒度情感元素抽取方法
本专利技术涉及细粒度情感元素抽取，具体涉及一种基于局部信息表示的细粒度情感元素抽取方法。
技术介绍
细粒度情感元素抽取旨在从文本中抽取出评价持有者、评价对象和评价表达(如图1)。评价持有者是文本中发出观点的实体；评价表达是指文本中代表情绪、情感、意见或其他个人状态的主观表述，通常以形容词或形容词短语形式出现，如“漂亮”，“不大高兴”；评价对象是指文本中被讨论的主题，具体表现为文本中评价表达所修饰的对象。由于产品评论和社交网络文本中大多带有明确的用户ID信息，因而对评价持有者抽取研究相对淡化，学术界将更多的精力放到评价对象抽取和评价表达抽取任务上。目前用来抽取评价对象和评价表达的方法主要分为两类：(1)基于句法规则匹配的方法。例如：Qiu等人[1]采用了一种称为双向传播的算法(doublepropagation)，通过使用依存句法分析器获取情感词与评价对象的关系，并在两者之间传播信息，在迭代过程中对种子情感词进行Bootstraping来扩充情感词集并抽取出评价对象。(2)基于有指导的机器学习算法。在基于机器学习的算法中，细粒度情感元素抽取通常被当作字符级别序列标注问题。具有代表性的机器学习算法包括基于特征的CRF算法[2]和基于神经网络的序列标注算法[3][4][5]。由于前者较为依赖专家编写的特征模板和手工情感词典等外部特征，并且领域通用性弱，基于神经网络的表示学习算法受到了更多的青睐，例如Irosy等人[3]将词向量特征应用到深层循环神经网络结构，用来抽取评价表达。Liu等人[4]在基于LSTM的循环神经网...
一种基于局部信息表示的细粒度情感元素抽取方法

【技术保护点】
一种基于局部信息表示的细粒度情感元素抽取方法，其特征在于，包括：步骤一、将预设窗口大小中的每一个单词通过Lookup Table查找词特征的向量表示，将得到的词向量分别输入至LSTM模型中；并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中；步骤二、将LSTM模型隐层特征表示ht以及前馈神经网络模型的局部上下文特征表示hlr进行拼接，得到拼接后的结果hcon：hcon＝[ht,hlr]步骤三、将hcon送入输出层使用softmax函数作标签分类,得到分类结果。

【技术特征摘要】
1.一种基于局部信息表示的细粒度情感元素抽取方法，其特征在于，包括：步骤一、将预设窗口大小中的每一个单词通过LookupTable查找词特征的向量表示，将得到的词向量分别输入至LSTM模型中；并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中；步骤二、将LSTM模型隐层特征表示ht以及前馈神经网络模型的局部上下文特征表示hlr进行拼接，得到拼接后的结果hcon：hcon＝[ht,hlr]步骤三、将hcon送入输出层使用softmax函数作标签分类,得到分类结果。2.根据权利要求1所述的基于局部信息表示的细粒度情感元素抽取方法，其特征在于，softmax函数中，每个标签计算结果P(yt＝k|s,θ)的表达式为：其中，表示最后一个隐含层到输出层的权重，k表示某一标签类别，K表示所有可能的标签集合，s,θ分别表示当前句子及模型参数，yt表示当前预测的标签结果。3.根据权利要求1或2所述的基于局部信息表示的细粒度情感元素抽取方法，其特征在于，所述预设窗口的大小为3。4.一种基于局部信息表示的细粒度情感元素抽...

【专利技术属性】
技术研发人员：秦兵，赵妍妍，刘挺，袁建华，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人