基于终身学习的金融领域事件抽取方法及装置制造方法及图纸

技术编号：31621739 阅读：50 留言：0更新日期：2021-12-29 18:57

本发明专利技术公开了一种基于终身学习的金融领域事件抽取方法及装置，其中，该方法包括：配置初始事件抽取模板，其中，所述初始事件抽取模板包括多个事件类型，以及与每个所述事件类型对应的要素角色；采用样本文本信息训练所述初始事件抽取模板，输出目标事件抽取模板，其中，所述初始事件抽取模板包括事件检测模块和要素抽取模块。通过本发明专利技术，解决了相关技术中的模型抽取事件信息的效率低的技术问题，提高了事件抽取模型的适应性和通用性。事件抽取模型的适应性和通用性。事件抽取模型的适应性和通用性。

全部详细技术资料下载

【技术实现步骤摘要】
基于终身学习的金融领域事件抽取方法及装置

[0001]本专利技术涉及人工智能领域，具体而言，涉及一种基于终身学习的金融领域事件抽取方法及装置。

技术介绍

[0002]相关技术中，随着信息技术的快速发展，如何从大量新闻事件中快速提取关键有效的信息成为研究者面对的首要问题。在这样的需求指引下，信息抽取应运而生。信息抽取(Information Extraction)是指从非结构化来源中自动地抽取出结构化的信息，这些信息可以是实体、实体关系、实体属性等。事件抽取(Event Extraction)是一种更复杂的信息抽取形式，它能够提供更高层次的内容处理抽象能力，是自然语言处理中一个重要的研究方向，是信息抽取技术的子任务，旨在从文本中提取出可以描述事件的触发词和要素，在知识挖掘领域起着非常重要的作用。
[0003]相关概念包括：事件：某个特定的时间片段和地域范围内发生的，由一个或者多个角色参与，由一个或者多个动作组成的一件事情，一般来说是句子级的。事件触发词：表示事件发生的核心词，多为动词或名词；事件类型：预先定义的事件类型，例如：投资、判决、收购等；事件要素：事件的参与者，主要由实体、值、时间组成。值是一种非实体的事件参与者；要素角色：事件要素在事件中充当的角色，例如投资人、被投资人等。
[0004]例如：运匠科技曾于2017年10月获得儒艺资本的天使轮投资。如表1所示：
[0005]表1
[0006][0007]事件抽取是自然语言处理中一个重要的研究方向，是信息抽取技术的子任务，旨在从文本...

【技术保护点】

【技术特征摘要】
1.一种基于终身学习的金融领域事件抽取方法，其特征在于，包括：配置初始事件抽取模板，其中，所述初始事件抽取模板包括多个事件类型，以及与每个所述事件类型对应的要素角色；采用样本文本信息训练所述初始事件抽取模板，输出目标事件抽取模板，其中，所述初始事件抽取模板包括事件检测模块和要素抽取模块。2.根据权利要求1所述的方法，其特征在于，采用样本文本信息训练所述初始事件抽取模板包括：针对所述样本文本信息中的每个描述文本，将所述描述文本输入所述事件检测模块，输出所述描述文本的事件类型信息，并训练所述事件检测模块；将所述事件类型信息和所述描述文本输入所述要素抽取模块，输出所述描述文本的要素角色信息，并训练所述要素抽取模块。3.根据权利要求2所述的方法，其特征在于，所述事件检测模块包括第一单词嵌入层，第一双向编码器表示BERT编码层，第一双向长短记忆模型BiLSTM层以及第一条件随机场CRF层，将所述描述文本输入所述事件检测模块，输出所述描述文本的事件类型信息，包括：将所述描述文本输入所述第一单词嵌入层，获取所述描述文本的文本向量；采用所述第一BERT编码层对所述文本向量进行嵌入编码，获得所述描述文本的单词向量矩阵；将所述单词向量矩阵输入所述第一BiLSTM层，输出所述描述文本的第一概率矩阵，其中，所述第一概率矩阵包括所述单词向量矩阵中每个单词映射到每个事件类型标签的概率；采用所述第一CRF层从所述概率矩阵中获取最优标记，并将所述最优标记确定为所述描述文本的所述事件类型信息。4.根据权利要求2所述的方法，其特征在于，所述要素抽取模块包括第二单词嵌入层，第二BERT编码层，第二BiLSTM层以及第二CRF层，将所述事件类型信息和所述描述文本输入所述要素抽取模块，输出所述描述文本的要素角色信息，包括：将所述描述文本输入所述第二单词嵌入层，获取所述描述文本的要素向量矩阵；针对所述要素向量矩阵中的每个要素向量，采用所述第二BERT编码层对所述要素向量进行嵌入编码，获得事件要素的角色向量矩阵，其中，所述角色向量矩阵包括所述事件要素属于每个要素角色的要素文本位置；将所述角色向量矩阵输入所述第二BiLSTM层，输出所述事件要素的第二概率矩阵，其中，所述第二概率矩阵包括所述角色向量矩阵中每个事件要素映射到每个要素角色标签的概率；采用所述第二CRF层从所述第二概率矩阵中获取最优标记，并将所述最优标记确定为所述事件要素的要素角色信息。5.根据权利要求4所述的方法，其特征在于，所述第二BERT编码层包括多组二类分类器，采用所述第二BERT编码层对所述要素向量进行嵌入编码，获得事件要素...

【专利技术属性】
技术研发人员：王丽宏，贺敏，李倩，郭舒，盛傢伟，黑一鸣，孙睿，周才博，毛乾任，李晨，黄洪仁，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人