【技术实现步骤摘要】
基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
[0001]本专利技术涉及事件抽取
,具体涉及一种基于字符嵌入的事件元素网格化抽取方法、 存储介质及电子装置。
技术介绍
[0002]信息抽取技术是把关注的非结构化数据信息从海量文本数据中抽取出来,并转换为结构 化的数据。通过信息抽取技术,可以过滤低价值的信息内容,快速获得精准和高质量信息。 事件是信息的一种重要表达形式,信息抽取领域的重点研究方向即为事件抽取。该研究中的 权威学会ACE(Automatic Content Extraction)对事件抽取作了明确定义,事件抽取要求将文 本数据中表征事件信息的非结构化数据转化为结构化、可存储使用的精准知识。
[0003]当今社会,在网络新闻媒体上实时推送着各类大大小小的热点事件。面对日益增长的海 量互联网信息,快速定位到公众讨论的具体事件变得至关重要。这不仅可以帮助舆情监管人 员快速定位到具体事件,了解事件的具体要素,还可以将事件抽取结果提供给其他自然语言 处理任务,以进行更深入的分析和应用。因网络和社会因素影响,事件抽取技术研究在国内 外研究热度逐年升高。
技术实现思路
[0004]针对上述问题,本专利技术的目的在于提供一种基于字符嵌入的事件元素网格化抽取方法、 存储介质及电子装置,事件元素网格化抽取是在事件检测任务的基础上,将模型细化为事件 触发词抽取、事件论元抽取和事件属性抽取3个网格模块,各网格模块既联合共享基础模型 事件语义信息,又独立优化各自元素的抽取性能。技术方案如下 ...
【技术保护点】
【技术特征摘要】
1.一种基于字符嵌入的事件元素网格化抽取方法,其特征在于,包括以下步骤:步骤1:构建事件元素抽取基础模型;所述基础模型为字符嵌入神经网络深度学习模型,包括基于BERT的信息预学习表示层、字编码嵌入层、BiGRU双向门控循环神经网络层、自注意力层和CRF条件随机场输出层;其运行步骤如下:步骤1.1:基于BERT的信息预学习表示层对样本数据上下文语义特征进行预学习,生成突发元事件域的文本表示模型;步骤1.2:字编码嵌入层利用训练好的BERT语言模型中生成的语义表示向量输入到BiGRU双向门控循环神经网络层;步骤1.3:BiGRU双向门控循环神经网络层提取输入序列的上下文依赖的长距离深层特征;步骤1.4:自注意力层对BiGRU双向门控循环神经网络层学习到的深层特征进行加权变换,以突出文本序列中重点词汇信息;步骤1.5:CRF条件随机场输出层将触发词提取转化为序列标注任务,以解决传统词向量转化为字向量后上下文标注信息问题;将所述基础模型按功能细化分为事件触发词抽取、事件论元抽取和事件属性抽取3个网格模块,以用于后续步骤根据不同模型的功能特性,分别对模型进行优化;步骤2:对事件触发词抽取模型进行抽取优化:从一个事件句抽取一个主事件触发词作为事件触发词,多余事件触发词作外部特征,辅助表征主事件;将标注数据中的所有事件触发词作为知识库,作为事件触发词抽取的先验特征;抽取句子中与知识库内事件触发词匹配的触发词,并标注出来,与根据句子BERT语义表示模型获得的字符嵌入向量拼接;并将事件类型向量拼接到字符嵌入向量中;事件触发词抽取任务的目标向量由事件触发词的抽取结果表示,对应事件触发词的标注结果;步骤3:对事件论元抽取模型进行抽取优化:在原文本BERT语义特征之上,将文本中所有字符到事件触发词的相对距离作为文本结构特征,事件触发词本身的相对距离为0;并将事件主体与客体联合,事件时间与地点联合,采用两个独立的模型进行提取;事件论元抽取任务的目标向量对应事件论元的抽取结果标注;步骤4:对事件属性抽取模型进行抽取优化:定义事件属性为事件时态和事件极性,模型输出转变为多分类问题,将所述基础模型中CRF条件随机场输出层置换构造两个分类器;将事件触发词及左右两端进行动态池化获得的特征作为全局特征,与根据句子BERT语义表示模型获得的字符嵌入向量拼接,并采用十折交叉验证方法进行优化;步骤5:采用步骤1
‑
步骤4训练得到的事件要素抽取模...
【专利技术属性】
技术研发人员:陈兴蜀,蒋梦婷,袁磊,刘朋,黄铁脉,廖志红,宋可儿,冯科,王海舟,王文贤,罗永刚,
申请(专利权)人:四川大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。