事件分类处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:27848072 阅读:19 留言:0更新日期:2021-03-30 13:03
本申请公开了一种事件分类处理方法、装置、电子设备和存储介质,涉及人工智能技术领域中的深度学习、知识图谱和自然语言处理技术领域。具体实现方案为:获取多个属于不同事件类型的样本事件集合,其中,每个样本事件集合包含多个属于相同事件类型的样本事件文本;获取每个样本事件文本对应的字符向量;对每个样本事件文本进行语义分析标注角色实体,获取与每个角色实体对应的词向量;将每个样本事件文本对应的字符向量,以及角色实体对应的词向量作为预设神经网络模型的输入信息,以及将每个样本事件所属的样本事件集合对应的事件类型作为所述神经网络模型的输出信息,进而训练所述神经网络模型进行事件分类。述神经网络模型进行事件分类。述神经网络模型进行事件分类。

【技术实现步骤摘要】
事件分类处理方法、装置、电子设备和存储介质


[0001]本申请涉及人工智能
中的深度学习、知识图谱和自然语言处理
,尤其是涉及一种事件分类处理方法、装置、电子设备和存储介质。

技术介绍

[0002]通常来说,事件抽取技术可以从非结构化信息中抽取用户感兴趣的事件,并以结构化呈现给用户。事件分类是进行事件抽取的基础,事件分类的质量决定了事件抽取的质量。
[0003]现有技术中,进行事件分类处理时,事件类型的类型体系是经过预先定义的,因此,目前的分类技术只能针对特定领域进行处理。

技术实现思路

[0004]本申请提供了一种用于事件分类处理方法、装置、设备以及存储介质,涉及人工智能
中的深度学习、知识图谱和自然语言处理
提供了一种可以处理开放域事件分类问题的技术方案。
[0005]根据本申请的第一方面,提供了一种事件分类处理方法,包括:
[0006]获取多个属于不同事件类型的样本事件集合,其中,每个所述样本事件集合包含多个属于相同事件类型的样本事件文本;
[0007]获取每个所述样本事件文本对应的字符向量;
[0008]对每个所述样本事件文本进行语义分析标注角色实体,获取与每个所述角色实体对应的词向量;
[0009]将每个所述样本事件文本对应的所述字符向量,以及所述角色实体对应的所述词向量作为预设神经网络模型的输入信息,以及将每个所述样本事件所属的样本事件集合对应的事件类型作为所述神经网络模型的输出信息,进而训练所述神经网络模型进行事件分类。
[0010]根据本申请的第二方面,提供了一种事件分类处理装置,包括:
[0011]第一获取模块,获取多个属于不同事件类型的样本事件集合,其中,每个所述样本事件集合包含多个属于相同事件类型的样本事件文本;
[0012]第一处理模块,获取每个所述样本事件文本对应的字符向量;
[0013]第二处理模块,对每个所述样本事件文本进行语义分析标注角色实体,获取与每个所述角色实体对应的词向量;
[0014]训练模块,将每个所述样本事件文本对应的所述字符向量,以及所述角色实体对应的所述词向量作为预设神经网络模型的输入信息,以及将每个所述样本事件所属的样本事件集合对应的事件类型作为所述神经网络模型的输出信息,进而训练所述神经网络模型进行事件分类。
[0015]根据本申请的第三方面,提供了一种电子设备,包括:
[0016]至少一个处理器;以及
[0017]与所述至少一个处理器通信连接的存储器;其中,
[0018]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请的一方面所述事件分类处理方法。
[0019]根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本申请的一方面所述的事件分类处理方法。
[0020]根据本申请的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面所述的事件分类处理方法。
[0021]根据本申请的技术方案,提供了一种无需预先构建事件类型体系且生成事件类型信息更加完善的事件分类处理方法。
[0022]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0024]图1是根据本申请一个实施例的事件分类处理方法的流程图;
[0025]图2是根据本申请另外一个实施例的获取多个属于不同事件类型的样本事件集合的方法的流程图;
[0026]图3是根据本申请又一个实施例的生成输入解码层的向量的方法的流程图;
[0027]图4是根据本申请一个实施例的神经网络模型的模型结构示意图
[0028]图5是根据本申请一个实施例的事件分类处理模型的结构装置的结构框图;
[0029]图6是根据本申请另一个实施例的事件分类处理模型的结构装置的结构框图;
[0030]图7是根据本申请又一个实施例的事件分类处理模型的结构装置的结构框图;
[0031]图8是用来实现本申请实施例的事件分类处理的电子设备的框图。
具体实施方式
[0032]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0033]本申请提出了一种事件分类处理方法,本处理方法的事件分类技术方案可以应用于开放域。在模型训练时,模型的输入信息包括角色实体对应的词向量,该词向量的加入可以使模型更有效地进行事件提取,并且,提取出的事件信息更加完善。
[0034]图1是根据本申请一个实施例的事件分类处理方法的流程图。需要说明的是,本申请实施例的事件分类处理方法可应用于本申请实施例的事件分类处理装置,该事件分类装置可被配置于本申请实施例的电子设备上。如图1所示,该事件分类处理方法可以包括:
[0035]步骤101,获取多个属于不同事件类型的样本事件集合,其中,每个样本事件集合
包含多个属于相同事件类型的样本事件文本。
[0036]通常,知识图谱可以由存在内在关系的事件及所述事件之间的关系组成,事件可以是从表达方式中抽取出来的,相同语义可以有多种表达方式,从多种表达方式中抽取其对应的语义的技术即为事件抽取技术,事件抽取技术中有一关键步骤为事件分类。现有技术中,事件分类只能应用于特定领域,而不能应用于开放域。因此,想要使事件抽取技术能适用于更加广泛的应用场景,就需要使用覆盖更加广泛的样本事件集合对事件分类模型进行训练,该过程会耗费大量的人力。本申请提出了一种不限于特定领域的事件分类处理方法。
[0037]在本申请一些实施例中,首先,会根据预设算法获取多个属于不同事件类型的样本事件集合,其中,需要说明的是,该预设算法可以为机器学习领域的无监督聚类算法,与有监督学习算法相比,无监督聚类算法不需要对数据进行标记,因此不需要提前建立事件分类体系。该无监督聚类算法包括但不限于:K

means、single pass、层次聚类算法其中的任一种。
[0038]根据无监督聚类算法获得的事件类型可以为粗粒度也可以为细粒度的,粗粒度和细粒度为一组相对概念,细粒度分类比粗粒度分类更加细致。举例而言,粗粒度分类包括但不限于:生活、事务、拍戏中的任一或多个。当粗粒度分类为拍戏时,对应的细粒度分类包括但不限于:拍电视剧、拍电影、拍话剧中的任一或多个。当期待模型的输出更细粒度时,可以采用细粒本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件分类处理方法,包括:获取多个属于不同事件类型的样本事件集合,其中,每个所述样本事件集合包含多个属于相同事件类型的样本事件文本;获取每个所述样本事件文本对应的字符向量;对每个所述样本事件文本进行语义分析标注角色实体,获取与每个所述角色实体对应的词向量;将每个所述样本事件文本对应的所述字符向量,以及所述角色实体对应的所述词向量作为预设神经网络模型的输入信息,以及将每个所述样本事件所属的样本事件集合对应的事件类型作为所述神经网络模型的输出信息,进而训练所述神经网络模型进行事件分类。2.如权利要求1所述的方法,其中,所述获取多个属于不同事件类型的样本事件集合,包括:获取满足预设条件的候选事件文本;对所述候选事件文本进行聚类处理,生成多个属于不同事件类型的候选事件集合,其中,每个所述候选事件集合包含多个属于相同事件类型的候选事件文本;提取每个所述候选事件集合的集合特征,并获取与每个所述集合特征对应的特征分值;根据与每个所述集合特征对应的特征分值从多个所述候选事件集合中选择满足筛选条件的所述多个样本事件集合。3.如权利要求2所述的方法,其中,当所述集合特征为所述候选事件文本的热度值,所述获取与每个所述集合特征对应的特征分值,包括:计算所述候选事件集合中各所述候选事件文本与预设数据库中文本之间的字符相似度,根据字符相似度确定所述候选事件集合中与所述数据库文本匹配的文本热度;根据预设的热度模型对所述文本热度进行处理,生成所述候选事件文本的热度值。4.如权利要求2所述的方法,其中,所述根据与每个所述集合特征对应的特征分值从多个所述候选事件集合中选择满足筛选条件的所述多个样本事件集合,包括:获取预设的与每个所述集合特征对应的权重;根据每个所述集合特征对应的特征分值和权重,计算每个所述候选事件集合的集合分值;将每个所述候选事件集合的集合分值与预设阈值进行比较,将大于所述阈值的集合分值对应的候选事件集合作为所述样本事件集合。5.如权利要求1

4任一所述的方法,其中,在所述训练所述神经网络模型之前,还包括:获取所述输入信息经过所述神经网络模型中的编码层的第一向量;获取所述字符向量经过所述神经网络模型中的全连接层的第二向量;将所述第一向量和所述第二向量进行级联处理生成第三向量;将所述第三向量输入到所述神经网络模型中的解码层。6.一种事件分类处理装置,包括:第一获取模块,用于获取多个属于不同事件类型的样本事件集合,其中,每个所述样本事件集合包含多个属于相同事件类型的样本事件文本;第一处理模块,用于获取每个所述样本事件文本对应的字符向量;
第二处理模块,用于对每个所述样本事件文本进行语义分析标注角色实体,获取与每个...

【专利技术属性】
技术研发人员:黄佳艳
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1