一种基于局部信息表示的细粒度情感元素抽取方法技术

技术编号:16885854 阅读:322 留言:0更新日期:2017-12-27 03:39
本发明专利技术为了解决现有的细粒度情感元素抽取方法当抽取评价对象时,不能很好地利用紧随其后的单词,导致短语词性判断错误、抽取结果缺漏较多,并且难以判断当前词是否是评价对象一部分的缺点,而提出一种基于局部信息表示的细粒度情感元素抽取方法,包括:将预设窗口大小中的每一个单词通过Lookup Table查找词特征的向量表示,将得到的词向量分别输入至LSTM模型中;并将得到的词向量组合为一个向量输入至前馈神经网络模型中;将LSTM模型隐层特征表示以及前馈神经网络模型的局部上下文特征表示进行拼接,得到拼接后的结果;将送入输出层使用softmax函数作标签分类。本发明专利技术适用于细粒度情感元素抽取工具。

A fine-grained emotional element extraction method based on local information representation

The invention to solve the fine-grained emotion elements existing methods when the evaluation object extraction, followed by not good use of words, phrases to POS errors in judgment, the extraction results gaps more, it is difficult to determine whether the current word is a part of the shortcomings of the evaluation object, and proposes a representation based on local information granularity emotional elements extraction method, including: the default window size in each word by word vector Lookup Table search feature, the word vector obtained were input to the LSTM model; and the word vector combination as a vector input to the feedforward neural network model; the feature model of hidden layer LSTM said, the feedforward neural network to model the local context features mosaic, mosaic results after; will send the output layer used softmax function Number is classified as label. The invention is suitable for fine grained emotional element extraction tools.

【技术实现步骤摘要】
一种基于局部信息表示的细粒度情感元素抽取方法
本专利技术涉及细粒度情感元素抽取,具体涉及一种基于局部信息表示的细粒度情感元素抽取方法。
技术介绍
细粒度情感元素抽取旨在从文本中抽取出评价持有者、评价对象和评价表达(如图1)。评价持有者是文本中发出观点的实体;评价表达是指文本中代表情绪、情感、意见或其他个人状态的主观表述,通常以形容词或形容词短语形式出现,如“漂亮”,“不大高兴”;评价对象是指文本中被讨论的主题,具体表现为文本中评价表达所修饰的对象。由于产品评论和社交网络文本中大多带有明确的用户ID信息,因而对评价持有者抽取研究相对淡化,学术界将更多的精力放到评价对象抽取和评价表达抽取任务上。目前用来抽取评价对象和评价表达的方法主要分为两类:(1)基于句法规则匹配的方法。例如:Qiu等人[1]采用了一种称为双向传播的算法(doublepropagation),通过使用依存句法分析器获取情感词与评价对象的关系,并在两者之间传播信息,在迭代过程中对种子情感词进行Bootstraping来扩充情感词集并抽取出评价对象。(2)基于有指导的机器学习算法。在基于机器学习的算法中,细粒度情感元素抽取通常被当作字符级别序列标注问题。具有代表性的机器学习算法包括基于特征的CRF算法[2]和基于神经网络的序列标注算法[3][4][5]。由于前者较为依赖专家编写的特征模板和手工情感词典等外部特征,并且领域通用性弱,基于神经网络的表示学习算法受到了更多的青睐,例如Irosy等人[3]将词向量特征应用到深层循环神经网络结构,用来抽取评价表达。Liu等人[4]在基于LSTM的循环神经网络中实验了多种类型的词向量特征,证明了其在评价对象抽取任务上的有效性。通过观察LSTM循环神经网络的评价对象抽取结果,我们发现:一方面,它在抽取类似“setup”等存在一词多义的短语时,不能很好地利用紧随其后的单词信息(如“is”等be动词),导致短语词性判断错误、抽取结果缺漏较多;另一方面,由于评价对象一般较短,相邻词表征的局部信息对判断当前词是否是评价对象的一部分至关重要。
技术实现思路
本专利技术的目的是为了解决现有的细粒度情感元素抽取方法当抽取评价对象时,不能很好地利用紧随其后的单词,导致短语词性判断错误、抽取结果缺漏较多,并且难以判断当前词是否是评价对象一部分的缺点,而提出一种基于局部信息表示的细粒度情感元素抽取方法。一种基于局部信息表示的细粒度情感元素抽取方法,包括:步骤一、将预设窗口大小中的每一个单词通过LookupTable查找词特征的向量表示,将得到的词向量分别输入至LSTM模型中;并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中;步骤二、将LSTM模型隐层特征表示ht以及前馈神经网络模型的局部上下文特征表示hlr进行拼接,得到拼接后的结果hcon:hcon=[ht,hlr]步骤三、将hcon送入输出层使用softmax函数作标签分类。本专利技术还提供了另一种基于局部信息表示的细粒度情感元素抽取方法,包括:步骤一、将预设窗口大小中的每一个单词通过LookupTable查找词特征的向量表示,将得到的词向量分别输入至含有双向循环结构的BLSTM模型中;并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中;步骤二、将BLSTM模型隐层的正向特征表示和反向特征表示进行拼接组成隐层特征表示ht,并将隐层特征表示ht与前馈神经网络模型的局部上下文特征表示hlr进行拼接,得到拼接后的结果hcon:hcon=[ht,hlr]步骤三、将hcon送入输出层使用softmax函数作标签分类。本专利技术的有益效果为:1、当抽取一词多义的短语时,考虑到短语的上下文,能够更为准确地判断词性,抽取结果的准确度更高;2、能够更准确地判断当前词是否是评价对象一部分;3、本专利技术当使用LSTM模型时,在Laptop数据集的F1值能够达到73.49;本专利技术当使用BLSTM模型时,在Restaurant数据集的F1值能够达到80.62。附图说明图1为针对例句“软粉告诉我,这次Win10创意者更新很酷”的抽取结果;图2为具体实施方式一的基于局部信息表示的细粒度情感元素抽取方法的示意图;其中softmax表示用于作标签分类的函数;“Hidden”、“Linear”、“Lookup”、“Tanh”为LSTM模型和前馈神经网络中的相应层,属于领域内常用的表达形式;“Creatorupdateis”是选用的英文例句中的连续三个单词。图3为具体实施方式四的基于局部信息表示的细粒度情感元素抽取方法的示意图;图4为具体实施方式一的流程图。具体实施方式具体实施方式一:本实施方式的基于局部信息表示的细粒度情感元素抽取方法,包括:步骤一、将预设窗口大小中的每一个单词通过LookupTable查找词特征的向量表示,将得到的词向量分别输入至LSTM模型中;并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中;步骤二、将LSTM模型隐层特征表示ht以及前馈神经网络模型的局部上下文特征表示hlr进行拼接,得到拼接后的结果hcon:hcon=[ht,hlr]步骤三、将hcon送入输出层使用softmax函数作标签分类,得到分类结果。本文的方法也将评价对象抽取看作一个序列标注任务,即对每一个单词预测其是否为一个评价对象的一部分。模型首先使用一个LSTM循环网络来计算长距离文本依赖信息,对于每一个单词输入,获得其隐层输出的特征表示ht。同时,我们用一个单独的前馈神经网络来计算局部上下文特征表示hlr。模型的结构框图如图2所示:最终,将两部分的隐层表示拼接为hcon。hcon=[ht,hlr]hcon作为充分考虑局部信息的当前词特征表示,被送入输出层使用softmax函数作标签分类。需要说明的是,这里ht和hlr的过程可以分别独立进行,只在输出层结合,这意味着在训练过程中,当误差从输出层传播到前馈神经网络结构和LSTM神经网络结构时,可以对两种网络结构独立进行误差反向传播。具体实施方式二:本实施方式与具体实施方式一不同的是:softmax函数中,每个标签计算结果P(yt=k|s,θ)的表达式为:其中,表示最后一个隐含层到输出层的权重,k表示某一标签类别,K表示所有可能的标签集合,s,θ分别表示当前句子及模型参数,yt表示当前预测的标签结果。其它步骤及参数与具体实施方式一相同。具体实施方式三:本实施方式与具体实施方式一或二不同的是:预设窗口的大小为3。对于用来学习局部信息的前馈神经网络,试验了不同窗口大小的词向量输入,发现窗口大小为3(上一个词,当前词,下一个词)时抽取效果最优。所以对于局部信息表示模型,窗口大小统一设置为3。其它步骤及参数与具体实施方式一或二相同。具体实施方式四:本实施方式提供一种基于局部信息表示的细粒度情感元素抽取方法,包括:步骤一、将预设窗口大小中的每一个单词通过LookupTable查找词特征的向量表示,将得到的词向量分别输入至含有双向循环结构的BLSTM模型中;并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中;步骤二、将BLSTM模型隐层的正向特征表示和反向特征表示进行拼接组成隐层特征表示ht,并将隐层特征表示ht与前馈神经网络模型的局部上下文特征表示hlr进行本文档来自技高网
...
一种基于局部信息表示的细粒度情感元素抽取方法

【技术保护点】
一种基于局部信息表示的细粒度情感元素抽取方法,其特征在于,包括:步骤一、将预设窗口大小中的每一个单词通过Lookup Table查找词特征的向量表示,将得到的词向量分别输入至LSTM模型中;并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中;步骤二、将LSTM模型隐层特征表示ht以及前馈神经网络模型的局部上下文特征表示hlr进行拼接,得到拼接后的结果hcon:hcon=[ht,hlr]步骤三、将hcon送入输出层使用softmax函数作标签分类,得到分类结果。

【技术特征摘要】
1.一种基于局部信息表示的细粒度情感元素抽取方法,其特征在于,包括:步骤一、将预设窗口大小中的每一个单词通过LookupTable查找词特征的向量表示,将得到的词向量分别输入至LSTM模型中;并将所述得到的词向量组合为一个向量输入至前馈神经网络模型中;步骤二、将LSTM模型隐层特征表示ht以及前馈神经网络模型的局部上下文特征表示hlr进行拼接,得到拼接后的结果hcon:hcon=[ht,hlr]步骤三、将hcon送入输出层使用softmax函数作标签分类,得到分类结果。2.根据权利要求1所述的基于局部信息表示的细粒度情感元素抽取方法,其特征在于,softmax函数中,每个标签计算结果P(yt=k|s,θ)的表达式为:其中,表示最后一个隐含层到输出层的权重,k表示某一标签类别,K表示所有可能的标签集合,s,θ分别表示当前句子及模型参数,yt表示当前预测的标签结果。3.根据权利要求1或2所述的基于局部信息表示的细粒度情感元素抽取方法,其特征在于,所述预设窗口的大小为3。4.一种基于局部信息表示的细粒度情感元素抽...

【专利技术属性】
技术研发人员:秦兵赵妍妍刘挺袁建华
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1