基于自编码器融合文档信息的事件触发词抽取方法及系统技术方案

技术编号:21893204 阅读:47 留言:0更新日期:2019-08-17 15:01
本发明专利技术涉及一种基于自编码器融合文档信息的事件触发词抽取方法,包括:以未标注自由文本语料生成训练集,训练GRU模型以构建该自编码器;对训练语料进行预处理和标签标注,提取待识别词;以该自编码器获取该待识别词在其所在文档内的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;将该上下文特征输入Bi‑GRU模型进行多分类,以识别该待识别词是否为事件触发词及该待识别词的对应事件类型。

Event Trigger Word Extraction Method and System Based on Self-Encoder Fusion Document Information

【技术实现步骤摘要】
基于自编码器融合文档信息的事件触发词抽取方法及系统
本专利技术属于互联网
,具体涉及一种可用于知识图谱的事件触发词抽取方法。
技术介绍
事件抽取任务旨在从非结构化的自由文本中抽取出结构化的事件信息,其中事件是由事件触发词、事件类型、事件论元和事件元素的角色组成的。触发词是能够触动事件发生且决定事件类型的最重要特征词,进而针对不同的事件类型,定义了不同的事件参与元素。因此事件抽取任务主要包括对事件触发词的抽取和对事件参与元素的识别,而触发词抽取作为其中的基础步骤,其识别性能直接影响事件抽取系统的准确性。现有的触发词抽取方法大多以句子为单位进行句内词或词组的多分类,主要分为以下几个步骤,首先对输入的句子进行分词,接着对每一个词抽取局部的上下文特征,通常使用基于自然语言处理工具的构造特征和基于神经网络生成的表示特征,最后选取多元分类器判断当前词是否为触发词或其所属事件类别。中国国家专利技术“一种事件触发词识别方法及装置”(公布号:CN104598510A),以原始语料中提取的训练语料,对条件随机场模型进行训练,并利用目标条件随机场模型对待测语料进行事件触发词的识别。中国国家专利技术“一种事件触发词识别方法及系统”(公布号:CN104778163A),利用最大熵识别模型对所述测试样本中的事件触发词进行识别,得到识别结果。中国国家专利技术“一种事件触发词识别方法及装置”(公布号:CN105138520A),是通过预先建立的二元分类器,对从原始语料及其翻译语料所确定的双语特征进行候选词进行分类,以确定当前候选词是否为事件触发词。中国国家专利技术“一种基于特征自动学习的生物医学事件触发词识别方法”(公布号:CN105512209A),通过构建事件触发词词典和候选触发词实例,以卷积神经网络模型学习特征并进行神经网络模型训练,最终进行事件触发词分类。中国国家专利技术“一种基于文档级别注意力机制的事件触发词抽取方法”(公布号:CN108829801A),使用PubMed数据库语料进行词向量训练,构建样本的分布式表示方式,构造基于BiLSTM-Attention的特征表示方式,使用CRF学习、获取当前文档序列的最优序列标注结果,完成事件触发词的抽取。中国国家专利技术“基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法”(公布号:CN108846017A),进行WordEmbedding的字级别语义特征表示,构建注意力权重的Bi-GRU字级别的句子特征编码模型,搭建基于注意力权重的Bi-GRU句子级别特征编码模型,使用分层Softmax实现端到端分类实现。然而在一篇文档中,仅凭单个句子的上下文信息难以区分多义词的事件类型歧义,如“leave”既可以表示离开也可以表示离职,需要借助全局的语境和文档中关联的事件加以判断。因此引入篇章级别的特征进行全局上下文信息的约束是很有必要,但是传统的上下文特征并不足以表示文档的全局信息,构造特征中的依存关系不能有效分析长距离的依赖关系,表示特征中的词向量不能针对性地获取当前词所在的篇章信息。另一方面,由于事件结构繁多复杂,现有普遍使用的事件标注数据集规模很小,如通用新闻论坛领域的ACE2005数据集中仅包含599个英文文档、生物医学领域的MLEE(Multi-levelEventExtraction)数据集中仅包含262个文档。在使用神经网络模型时,数据稀疏的问题很有可能导致模型抽取的触发词不全且不准的问题。有方法提出借助训练词向量的方法使用大量的未标注文本数据,引入外部的领域信息,但是词向量只关注了词的语义层面,不能有效捕捉句子层面和文档层面的上下文信息。
技术实现思路
针对现有技术中存在的问题,本专利技术利用篇章信息并增加标注数据,提出了一种基于自编码器融合文档信息的事件触发词抽取方法,利用自编码器语言模型抽取待识别词的局部上下文特征,并融合两类特征输入Bi-GRU模型进行事件类型的多分类,完成对句子中触发词的抽取。具体来说,该方法包括:以未标注自由文本语料生成训练集,训练GRU模型以构建自编码器;对训练语料进行预处理和标签标注,提取待识别词;以该自编码器获取该待识别词在其所在文档的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;将该上下文特征输入Bi-GRU模型进行多分类,以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。本专利技术所述的事件触发词抽取方法,其中通过对该未标注自由文本语料进行预处理以生成该训练集,预处理的过程包括:对该未标注自由文本语料进行过滤错误文段、将大写字母转换为小写字母、去除停用词,以及进行词形还原和缩略词还原,得到文档d,以构建该训练集;对文档d中的词进行统计,以构建语料词表。本专利技术所述的事件触发词抽取方法,其中该自编码器包括编码器和解码器,其中该编码器为堆叠三层的GRU模型,该解码器为一层的GRU模型。本专利技术所述的事件触发词抽取方法,其中训练GRU模型的过程包括:对该文档d进行分词,获取该文档d的第i个词wi的词向量Ei,以及词wi在文档d中的第一下标indexi;将该词向量Ei输入到该自编码器的编码器GRUthree_layer_encoder,得到该文档d的文档向量hd,其中hd=GRUthree_layer_encoder(E1,E2,...,E|d|);将该文档向量hd输入到该自编码器的解码器GRUdecoder,输出词wi的隐层向量q'i,以及词wi在该语料词表中的第二下标index'i,其中[q'1,q'1,...,q'|d|]=GRUdecoder(hd),index'i=argmaxSoftmax(q'i),i=1,2,...,|d|;获取该第一下标indexi与该第二下标index'i的交叉熵分类误差,通过误差反传方法训练该自编码器。本专利技术还提出一种基于自编码器融合文档信息的事件触发词抽取系统,包括:自编码器构建模块,用于以未标注自由文本语料生成训练集,训练GRU模型以构建自编码器;训练语料提取模块,用于对训练语料进行预处理和标签标注,提取待识别词;上下文特征获取模块,用于获取该待识别词的上下文特征,其中以该自编码器获取该待识别词在其所在文档的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;事件触发词提取模块,用于将该上下文特征输入Bi-GRU模型进行多分类,以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。本专利技术所述的事件触发词抽取系统,其中该自编码器构建模块包括预处理模块,用于通过对该未标注自由文本语料进行预处理以生成该训练集,该预处理模块具体包括:预料处理模块,用于对该未标注自由文本语料进行过滤错误文段、将大写字母转换为小写字母、去除停用词,以及进行词形还原和缩略词还原,得到文档d,以构建该训练集;词表构建模块,用于对文档d中的词进行统计,以构建语料词表。本专利技术所述的事件触发词抽取系统,其中该自编码器包括编码器和解码器,其中该编码器为堆叠三层的GRU模型,该解码器为一层的GRU模型。本专利技术本文档来自技高网
...

【技术保护点】
1.一种基于自编码器融合文档信息的事件触发词抽取方法,其特征在于,包括:以未标注自由文本语料生成训练集,训练GRU模型以构建自编码器;对训练语料进行预处理和标签标注,提取待识别词;以该自编码器获取该待识别词在其所在文档的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;将该上下文特征输入Bi‑GRU模型进行多分类,以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。

【技术特征摘要】
1.一种基于自编码器融合文档信息的事件触发词抽取方法,其特征在于,包括:以未标注自由文本语料生成训练集,训练GRU模型以构建自编码器;对训练语料进行预处理和标签标注,提取待识别词;以该自编码器获取该待识别词在其所在文档的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;将该上下文特征输入Bi-GRU模型进行多分类,以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。2.如权利要求1所述的事件触发词抽取方法,其特征在于,通过对该未标注自由文本语料进行预处理以生成该训练集,预处理的过程包括:对该未标注自由文本语料进行过滤错误文段、将大写字母转换为小写字母、去除停用词,以及进行词形还原和缩略词还原,得到文档d,以构建该训练集;对文档d中的词进行统计,以构建语料词表。3.如权利要求2所述的事件触发词抽取方法,其特征在于,该自编码器包括编码器和解码器,其中该编码器为堆叠三层的GRU模型,该解码器为一层的GRU模型。4.如权利要求3所述的事件触发词抽取方法,其特征在于,训练GRU模型的过程包括:对该文档d进行分词,获取该文档d的第i个词wi的词向量Ei,以及词wi在文档d中的第一下标indexi;将该词向量Ei输入到该自编码器的编码器GRUthree_layer_encoder,得到该文档d的文档向量hd,其中hd=GRUthree_layer_encoder(E1,E2,...,E|d|);将该文档向量hd输入到该自编码器的解码器GRUdecoder,输出词wi的隐层向量q'i,以及词wi在该语料词表中的第二下标index'i,其中[q'1,q'1,...,q'|d|]=GRUdecoder(hd),index'i=argmaxSoftmax(q'i),i=1,2,...,|d|;获取该第一下标indexi与该第二下标index'i的交叉熵分类误差,通过误差反传方法训练该自编码器。5.一种基于自编码器融合文档信息的事件触发词抽取系统,其特征在于,包括:自编码器构建模块,用于以未标注自由文本语料生成训练集,训练GRU模型以构建自编码器;训练文本预处理模块,用于对训练语料进行预处理和标签标注,提取待识别词;上下文特征提取模块,用于获取该待识别词的上下文特征,其中以该自编码器获取该待识别词在其所在文档的...

【专利技术属性】
技术研发人员:程学旗靳小龙席鹏弼郭嘉丰赵越
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1