基于自编码器融合文档信息的事件触发词抽取方法及系统技术方案

技术编号：21893204 阅读：47 留言：0更新日期：2019-08-17 15:01

本发明专利技术涉及一种基于自编码器融合文档信息的事件触发词抽取方法，包括：以未标注自由文本语料生成训练集，训练GRU模型以构建该自编码器；对训练语料进行预处理和标签标注，提取待识别词；以该自编码器获取该待识别词在其所在文档内的文档向量，作为该待识别词的全局特征；以该待识别词的词向量和实体类型分布式表达，作为该待识别词的局部特征；将该全局特征和该局部特征进行向量拼接，获得该待识别词的上下文特征；将该上下文特征输入Bi‑GRU模型进行多分类，以识别该待识别词是否为事件触发词及该待识别词的对应事件类型。

Event Trigger Word Extraction Method and System Based on Self-Encoder Fusion Document Information

全部详细技术资料下载

【技术实现步骤摘要】
基于自编码器融合文档信息的事件触发词抽取方法及系统
本专利技术属于互联网
，具体涉及一种可用于知识图谱的事件触发词抽取方法。
技术介绍
事件抽取任务旨在从非结构化的自由文本中抽取出结构化的事件信息，其中事件是由事件触发词、事件类型、事件论元和事件元素的角色组成的。触发词是能够触动事件发生且决定事件类型的最重要特征词，进而针对不同的事件类型，定义了不同的事件参与元素。因此事件抽取任务主要包括对事件触发词的抽取和对事件参与元素的识别，而触发词抽取作为其中的基础步骤，其识别性能直接影响事件抽取系统的准确性。现有的触发词抽取方法大多以句子为单位进行句内词或词组的多分类，主要分为以下几个步骤，首先对输入的句子进行分词，接着对每一个词抽取局部的上下文特征，通常使用基于自然语言处理工具的构造特征和基于神经网络生成的表示特征，最后选取多元分类器判断当前词是否为触发词或其所属事件类别。中国国家专利技术“一种事件触发词识别方法及装置”(公布号：CN104598510A)，以原始语料中提取的训练语料，对条件随机场模型进行训练，并利用目标条件随机场模型对待测语料进行事件触发词的识别。中国国家专利技术“一种事件触发词识别方法及系统”(公布号：CN104778163A)，利用最大熵识别模型对所述测试样本中的事件触发词进行识别，得到识别结果。中国国家专利技术“一种事件触发词识别方法及装置”(公布号：CN105138520A)，是通过预先建立的二元分类器，对从原始语料及其翻译语料所确定的双语特征进行候选词进行分类，以确定当前候选词是否为事件触发词。中国国家专利技术“一种基于特征自动...

【技术保护点】
1.一种基于自编码器融合文档信息的事件触发词抽取方法，其特征在于，包括：以未标注自由文本语料生成训练集，训练GRU模型以构建自编码器；对训练语料进行预处理和标签标注，提取待识别词；以该自编码器获取该待识别词在其所在文档的文档向量，作为该待识别词的全局特征；以该待识别词的词向量和实体类型分布式表达，作为该待识别词的局部特征；将该全局特征和该局部特征进行向量拼接，获得该待识别词的上下文特征；将该上下文特征输入Bi‑GRU模型进行多分类，以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。

【技术特征摘要】
1.一种基于自编码器融合文档信息的事件触发词抽取方法，其特征在于，包括：以未标注自由文本语料生成训练集，训练GRU模型以构建自编码器；对训练语料进行预处理和标签标注，提取待识别词；以该自编码器获取该待识别词在其所在文档的文档向量，作为该待识别词的全局特征；以该待识别词的词向量和实体类型分布式表达，作为该待识别词的局部特征；将该全局特征和该局部特征进行向量拼接，获得该待识别词的上下文特征；将该上下文特征输入Bi-GRU模型进行多分类，以判断该待识别词是否为事件触发词及该待识别词的对应事件类型。2.如权利要求1所述的事件触发词抽取方法，其特征在于，通过对该未标注自由文本语料进行预处理以生成该训练集，预处理的过程包括：对该未标注自由文本语料进行过滤错误文段、将大写字母转换为小写字母、去除停用词，以及进行词形还原和缩略词还原，得到文档d，以构建该训练集；对文档d中的词进行统计，以构建语料词表。3.如权利要求2所述的事件触发词抽取方法，其特征在于，该自编码器包括编码器和解码器，其中该编码器为堆叠三层的GRU模型，该解码器为一层的GRU模型。4.如权利要求3所述的事件触发词抽取方法，其特征在于，训练GRU模型的过程包括：对该文档d进行分词，获取该文档d的第i个词wi的词向量Ei，以及词wi在文档d中的第一下标indexi；将该词向量Ei输入到该自编码器的编码器GRUthree_layer_encoder，得到该文档d的文档向量hd，其中hd＝GRUthree_layer_encoder(E1,E2,...,E|d|)；将该文档向量hd输入到该自编码器的解码器GRUdecoder，输出词wi的隐层向量q'i，以及词wi在该语料词表中的第二下标index'i，其中[q'1,q'1,...,q'|d|]＝GRUdecoder(hd)，index'i＝argmaxSoftmax(q'i),i＝1,2,...,|d|；获取该第一下标indexi与该第二下标index'i的交叉熵分类误差，通过误差反传方法训练该自编码器。5.一种基于自编码器融合文档信息的事件触发词抽取系统，其特征在于，包括：自编码器构建模块，用于以未标注自由文本语料生成训练集，训练GRU模型以构建自编码器；训练文本预处理模块，用于对训练语料进行预处理和标签标注，提取待识别词；上下文特征提取模块，用于获取该待识别词的上下文特征，其中以该自编码器获取该待识别词在其所在文档的...

【专利技术属性】
技术研发人员：程学旗，靳小龙，席鹏弼，郭嘉丰，赵越，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人