事件抽取方法及装置制造方法及图纸

技术编号：38660610 阅读：11 留言：0更新日期：2023-09-02 22:44

本公开提供了一种事件抽取方法及装置，该方法首先依据小样本数据对通用信息抽取模型进行微调，然后将生语料数据输入微调后的通用信息抽取模型进行预测，得到新增样本数据，之后将小样本数据和新增样本数据作为训练数据对ERNIE模型进行训练，依据训练好的ERNIE模型对目标文本进行编码，得到相应的特征向量，最后依据Global Pointer模型对特征向量进行解码，得到事件元素，该方法基于UIE、ERNIE和Global Pointer进行事件元素的抽取，可以针对领域事件抽取标注数据样本较少的问题，通过自动化的方式对训练样本进行扩充，将准确率、召回率和F1作为评价指标，提高了事件识别任务上和论元识别任务上的F1值，能有效提升小样本下的抽取性能，并且还解决了论元重叠的问题。并且还解决了论元重叠的问题。并且还解决了论元重叠的问题。

全部详细技术资料下载

【技术实现步骤摘要】
事件抽取方法及装置

[0001]本公开涉及文本处理
，尤其涉及事件抽取方法及装置。

技术介绍

[0002]事件抽取(Event Extraction，EE)是信息抽取领域中一个重要的研究方向之一，其任务目标是从自然语言文本中识别事件类型与事件论元，是为商业、科技等领域情报工作服务的人工智能应用的重要技术基础。随着用户从开源数据中获取事件信息的需求逐渐增多，事件抽取在自动化信息抽取研究领域愈加重要。
[0003]随着互联网数据逐年积累，网络中的文本数据越来越多。事件抽取可以从海量文本数据中抽取用户需要的事件元素以结构化形式进行表示。经过事件抽取以获得结构化数据，使文本主干内容更加清晰，是问答系统、决策支持等领域应用的数据基础。
[0004]目前主要采用的事件抽取方法是机器学习的事件抽取方法。机器学习的方法是通过学习将下层输入转化为更加抽象的上层输出，重复进行转化直到输出特征。但是，针对领域中文文本事件抽取，基于百科、新闻数据的领域数据标注样本较少，缺少相关数据集，并且存在论元重叠的问题，小样本下的事件抽取性能较差，难以满足用户的需求。

技术实现思路

[0005]为了解决上述技术问题中的至少一个，本公开提供了事件抽取方法及装置。
[0006]本公开第一方面提出了一种事件抽取方法，包括：依据小样本数据对通用信息抽取模型进行微调；将生语料数据输入微调后的通用信息抽取模型进行预测，得到新增样本数据；将所述小样本数据和所述新增样本数据作为训练数据对ERNIE模型进行训练；依据训练好的...

【技术保护点】

【技术特征摘要】
1.一种事件抽取方法，其特征在于，包括：依据小样本数据对通用信息抽取模型进行微调；将生语料数据输入微调后的通用信息抽取模型进行预测，得到新增样本数据；将所述小样本数据和所述新增样本数据作为训练数据对ERNIE模型进行训练；依据训练好的ERNIE模型对目标文本进行编码，得到相应的特征向量；依据GlobalPointer模型对所述特征向量进行解码，得到事件元素。2.根据权利要求1所述的方法，其特征在于，依据小样本数据对通用信息抽取模型进行微调，包括：将结构模式指导器SSI的信息和小样本数据输入所述通用信息抽取模型，得到目标文本中的正样例；引入负样例作为噪声样例，得到包括所述正样例和所述负样例的样例集合；依据所述样例集合和交叉熵损失函数计算损失值。3.根据权利要求2所述的方法，其特征在于，所述正样例包括事件类别的正样例和事件论元的正样例。4.根据权利要求1所述的方法，其特征在于，将所述小样本数据和所述新增样本数据作为训练数据对ERNIE模型进行训练，包括：通过分词编码器将所述训练数据转换为第一向量；将所述第一向量输入ERNIE模型得到第一张量；对第一张量进行切割，得到第一切割张量和第二切割张量；通过旋转位置编码将相对位置信息加入到所述第一切割张量和所述第二切割张量中；对所述...

【专利技术属性】
技术研发人员：孟繁绅，郭冬冬，苗琳，李宁，刘秀磊，
申请(专利权)人：北京信息科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人