一种事件文本数据处理方法、装置及电子设备制造方法及图纸

技术编号:32786610 阅读:15 留言:0更新日期:2022-03-23 19:46
本发明专利技术公开了一种事件文本数据处理方法、装置及电子设备,包括:获取待分析事件文本数据;利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取,所述目标关键字包含事件主体、事件以及描述事件主体与事件关系的关键字;将所述事件主体和事件作为数据顶点以及将事件主体与事件的关系作为数据关系边构建图数据库;利用预设图算法对所述图数据库进行处理生成所述待分析事件文本数据对应的知识图谱。本方法应用于社会综合治理数据的分析处理,将获取的事件文本数据利用预先训练的关键词提取模型提取出事件主体、事件及事件主体与事件之间的关系,然后构建图数据库,生成对应的知识图谱,准确地完成了对事件文本数据的处理。件文本数据的处理。件文本数据的处理。

【技术实现步骤摘要】
一种事件文本数据处理方法、装置及电子设备


[0001]本专利技术涉及文本数据处理
,具体涉及一种事件文本数据处理方法、装置及电子设备。

技术介绍

[0002]通常情况下,在进行文本数据处理时,首先要对文本数据进行预处理,接着进行中文分词,中文NLP很重要的一部就是分词,分词的好坏会直接影响后续的模型训练效果;然后进行特征处理,特征处理也叫词向量编码,将文本数据转换成计算机能识别的数据,便于计算,一般是转换成数值型数据;最后进行机器学习,词向量进行编码之后,便可以将文本数据转换成数值数据,输入到机器模型进行计算训练。这种文本数据处理方法在进行数据分析时,无法准确对事件文本数据进行处理,进而无法应用于综合治理数据的处理分析。

技术实现思路

[0003]因此,本专利技术要解决的技术问题在于克服现有无法准确对事件文本进行处理的缺陷,从而提供一种事件文本数据处理方法、装置及电子设备。
[0004]根据第一方面,本专利技术实施例公开了一种事件文本数据处理方法,包括:获取待分析事件文本数据;利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取,所述目标关键字包含事件主体、事件以及描述事件主体与事件关系的关键字;将所述事件主体和事件作为数据顶点以及将事件主体与事件的关系作为数据关系边构建图数据库;利用预设图算法对所述图数据库进行处理生成所述待分析事件文本数据对应的知识图谱。
[0005]可选地,所述利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取之前,所述方法还包括:获取文本数据;利用预设分词算法对所述文本数据进行分词操作并利用初始关键字提取模型进行目标关键字提取操作;当提取结果不满足要求时对提取出的目标关键字进行扩展和数据增强操作;利用扩展和增强处理后的数据对所述初始关键字模型进行训练直至满足目标关键字提取要求。
[0006]可选地,所述方法还包括:利用预先训练好的危险事件预测模型对所述待分析事件文本数据进行分析;当所述待分析事件文本数据包含危险事件,在所述知识图谱中标记出所述危险事件。
[0007]可选地,所述方法还包括:根据所述危险事件的目标关键字,利用聚类算法确定所述危险事件的类型;按照所述危险事件的类型从专家知识库中获取解决方案并将所述解决方案推送至用户端。
[0008]根据第二方面,本专利技术实施例还公开了一种事件文本数据处理装置,包括:第一获取模块,用于获取待分析事件文本数据;第一提取模块,用于利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取,所述目标关键字包含事件主体、事件以及描述事件主体与事件关系的关键字;构建模块,用于将所述事件主体和事件作为数
据顶点以及将事件主体与事件的关系作为数据关系边构建图数据库;处理模块,用于利用预设图算法对所述图数据库进行处理生成所述待分析事件文本数据对应的知识图谱。
[0009]可选地,所述装置还包括:第二获取模块,用于获取文本数据;第二提取模块,用于利用预设分词算法对所述文本数据进行分词操作并利用初始关键字提取模型进行目标关键字提取操作;扩展模块,用于当提取结果不满足要求时对提取出的目标关键字进行扩展和数据增强操作;训练模块,用于利用扩展和增强处理后的数据对所述初始关键字模型进行训练直至满足目标关键字提取要求。
[0010]可选地,所述装置还包括:分析模块,用于利用预先训练好的危险事件预测模型对所述待分析事件文本数据进行分析;标记模块,用于当所述待分析事件文本数据包含危险事件,在所述知识图谱中标记出所述危险事件。
[0011]可选地,所述装置还包括:确定模块,用于根据所述危险事件的目标关键字,利用聚类算法确定所述危险事件的类型;推送模块,用于按照所述危险事件的类型从专家知识库中获取解决方案并将所述解决方案推送至用户端。
[0012]根据第三方面,本专利技术实施例还公开了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的事件文本数据处理方法的步骤。
[0013]根据第四方面,本专利技术实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的事件文本数据处理方法的步骤。
[0014]本专利技术技术方案,具有如下优点:
[0015]本专利技术提供的事件文本数据处理方法/装置,包括:获取待分析事件文本数据;利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取,所述目标关键字包含事件主体、事件以及描述事件主体与事件关系的关键字;将所述事件主体和事件作为数据顶点以及将事件主体与事件的关系作为数据关系边构建图数据库;利用预设图算法对所述图数据库进行处理生成所述待分析事件文本数据对应的知识图谱。本方法应用于综合治理数据的分析处理,将获取的事件文本数据利用预先训练的关键词提取模型提取出事件主体、事件及事件主体与事件之间的关系,然后构建图数据库,生成对应的知识图谱,准确地完成了对事件文本数据的处理。
附图说明
[0016]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本专利技术实施例中事件文本数据处理方法的一个具体示例的流程图;
[0018]图2为本专利技术实施例中事件文本数据处理装置的一个具体示例的原理框图;
[0019]图3为本专利技术实施例中电子设备的一个具体示例图。
具体实施方式
[0020]下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0022]在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件文本数据处理方法,其特征在于,包括:获取待分析事件文本数据;利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取,所述目标关键字包含事件主体、事件以及描述事件主体与事件关系的关键字;将所述事件主体和事件作为数据顶点以及将事件主体与事件的关系作为数据关系边构建图数据库;利用预设图算法对所述图数据库进行处理生成所述待分析事件文本数据对应的知识图谱。2.根据权利要求1所述的方法,其特征在于,所述利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取之前,所述方法还包括:获取文本数据;利用预设分词算法对所述文本数据进行分词操作并利用初始关键字提取模型进行目标关键字提取操作;当提取结果不满足要求时对提取出的目标关键字进行扩展和数据增强操作;利用扩展和增强处理后的数据对所述初始关键字模型进行训练直至满足目标关键字提取要求。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用预先训练好的危险事件预测模型对所述待分析事件文本数据进行分析;当所述待分析事件文本数据包含危险事件,在所述知识图谱中标记出所述危险事件。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:根据所述危险事件的目标关键字,利用聚类算法确定所述危险事件的类型;按照所述危险事件的类型从专家知识库中获取解决方案并将所述解决方案推送至用户端。5.一种事件文本数据处理装置,其特征在于,包括:第一获取模块,用于获取待分析事件文本数据;第一提取模块,用于利用预先训练好的关键字提取模型对所述待分析事件文本数据进行目标关键字提取,所述目标关键字包含事件主体、事件以及描述事件主体与事件关系的关键字;构建模块,用于将所述事件主体和事件作为数据顶点以及将...

【专利技术属性】
技术研发人员:肖刚
申请(专利权)人:高创安邦北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1