事件分类处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号：27848072 阅读：19 留言：0更新日期：2021-03-30 13:03

本申请公开了一种事件分类处理方法、装置、电子设备和存储介质，涉及人工智能技术领域中的深度学习、知识图谱和自然语言处理技术领域。具体实现方案为：获取多个属于不同事件类型的样本事件集合，其中，每个样本事件集合包含多个属于相同事件类型的样本事件文本；获取每个样本事件文本对应的字符向量；对每个样本事件文本进行语义分析标注角色实体，获取与每个角色实体对应的词向量；将每个样本事件文本对应的字符向量，以及角色实体对应的词向量作为预设神经网络模型的输入信息，以及将每个样本事件所属的样本事件集合对应的事件类型作为所述神经网络模型的输出信息，进而训练所述神经网络模型进行事件分类。述神经网络模型进行事件分类。述神经网络模型进行事件分类。

全部详细技术资料下载

【技术实现步骤摘要】
事件分类处理方法、装置、电子设备和存储介质

[0001]本申请涉及人工智能
中的深度学习、知识图谱和自然语言处理
，尤其是涉及一种事件分类处理方法、装置、电子设备和存储介质。

技术介绍

[0002]通常来说，事件抽取技术可以从非结构化信息中抽取用户感兴趣的事件，并以结构化呈现给用户。事件分类是进行事件抽取的基础，事件分类的质量决定了事件抽取的质量。
[0003]现有技术中，进行事件分类处理时，事件类型的类型体系是经过预先定义的，因此，目前的分类技术只能针对特定领域进行处理。

技术实现思路

[0004]本申请提供了一种用于事件分类处理方法、装置、设备以及存储介质，涉及人工智能
中的深度学习、知识图谱和自然语言处理
提供了一种可以处理开放域事件分类问题的技术方案。
[0005]根据本申请的第一方面，提供了一种事件分类处理方法，包括：
[0006]获取多个属于不同事件类型的样本事件集合，其中，每个所述样本事件集合包含多个属于相同事件类型的样本事件文本；
[0007]获取每个所述样本事件文本对应的字符向量；
[0008]对每个所述样本事件文本进行语义分析标注角色实体，获取与每个所述角色实体对应的词向量；
[0009]将每个所述样本事件文本对应的所述字符向量，以及所述角色实体对应的所述词向量作为预设神经网络模型的输入信息，以及将每个所述样本事件所属的样本事件集合对应的事件类型作为所述神经网络模型的输出信息，进而训练所述神经网络模型进行事件...

【技术保护点】

【技术特征摘要】
1.一种事件分类处理方法，包括：获取多个属于不同事件类型的样本事件集合，其中，每个所述样本事件集合包含多个属于相同事件类型的样本事件文本；获取每个所述样本事件文本对应的字符向量；对每个所述样本事件文本进行语义分析标注角色实体，获取与每个所述角色实体对应的词向量；将每个所述样本事件文本对应的所述字符向量，以及所述角色实体对应的所述词向量作为预设神经网络模型的输入信息，以及将每个所述样本事件所属的样本事件集合对应的事件类型作为所述神经网络模型的输出信息，进而训练所述神经网络模型进行事件分类。2.如权利要求1所述的方法，其中，所述获取多个属于不同事件类型的样本事件集合，包括：获取满足预设条件的候选事件文本；对所述候选事件文本进行聚类处理，生成多个属于不同事件类型的候选事件集合，其中，每个所述候选事件集合包含多个属于相同事件类型的候选事件文本；提取每个所述候选事件集合的集合特征，并获取与每个所述集合特征对应的特征分值；根据与每个所述集合特征对应的特征分值从多个所述候选事件集合中选择满足筛选条件的所述多个样本事件集合。3.如权利要求2所述的方法，其中，当所述集合特征为所述候选事件文本的热度值，所述获取与每个所述集合特征对应的特征分值，包括：计算所述候选事件集合中各所述候选事件文本与预设数据库中文本之间的字符相似度，根据字符相似度确定所述候选事件集合中与所述数据库文本匹配的文本热度；根据预设的热度模型对所述文本热度进行处理，生成所述候选事件文本的热度值。4.如权利要求2所述的方法，其中，所述根据与每个所述集合特征对应的特征分值从多个所述候选事件集合中选择满足筛选条件的所述多个样本事件集合，包括：获取预设的与每个所述集合特征对应的权重；根据每个所述集合特征对应的特征分值和权重，计算每个所述候选事件集合的集合分值；将每个所述候选事件集合的集合分值与预设阈值进行比较，将大于所述阈值的集合分值对应的候选事件集合作为所述样本事件集合。5.如权利要求1
‑
4任一所述的方法，其中，在所述训练所述神经网络模型之前，还包括：获取所述输入信息经过所述神经网络模型中的编码层的第一向量；获取所述字符向量经过所述神经网络模型中的全连接层的第二向量；将所述第一向量和所述第二向量进行级联处理生成第三向量；将所述第三向量输入到所述神经网络模型中的解码层。6.一种事件分类处理装置，包括：第一获取模块，用于获取多个属于不同事件类型的样本事件集合，其中，每个所述样本事件集合包含多个属于相同事件类型的样本事件文本；第一处理模块，用于获取每个所述样本事件文本对应的字符向量；
第二处理模块，用于对每个所述样本事件文本进行语义分析标注角色实体，获取与每个...

【专利技术属性】
技术研发人员：黄佳艳，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人