当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法技术

技术编号:34433831 阅读:44 留言:0更新日期:2022-08-06 16:14
本发明专利技术提供了一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,包括:对文本数据进行预处理,获得目标文本数据;根据预设语料库,确定目标文本数据中的有效单句;根据有效单句中的词语与有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取有效单句中的中心词;根据提取的中心词,提取中心词的子节点中符合词性要求的修饰词;根据预设洪涝型灾害事件模板,将提取的中心词和修饰词存储至预设洪涝型灾害事件模板的数据库中;将事件库和关系库中的数据导入图数据库,构建洪涝型灾害事件可视化知识图谱。旨在全面专业地构建洪涝型Natech灾害事件可视化知识图谱。构建洪涝型Natech灾害事件可视化知识图谱。构建洪涝型Natech灾害事件可视化知识图谱。

【技术实现步骤摘要】
一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法


[0001]本专利技术涉及灾害应急处理
,特别是涉及一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法。

技术介绍

[0002]Natech灾害事件是指由自然灾害诱发的技术灾害,广义上包括所有由自然灾害引发基础设施受到破坏的灾害。其影响往往具有链状的多米诺骨牌效应,给人类社会和经济发展造成巨大的损失。在国内,由洪涝引起或与洪涝相关的Natech灾害事件尤其具有破坏性。这一链状影响效应具有一定的特征规律,因此洪涝型Natech灾害事件发生和发展机制的研究对灾害防控意义重大。
[0003]而近几年随着信息化和大数据时代的到来,互联网上存在大量记录灾害的发生及影响的报道和描述,可以作为实时灾害监测和研究灾害影响机制的重要数据来源。而现有的文本挖掘手段缺乏高效的数据抽取和关系可视化方法,难以支撑大数据量的Natech灾害事件。

技术实现思路

[0004]有鉴于此,本专利技术提供一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,旨在自动高效地对大数据量进行处理,同时更加全面专业地构建Natech灾害事件知识图谱。
[0005]本专利技术提供了一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,该方法包括:对文本数据进行预处理,获得目标文本数据;根据预设语料库,确定所述目标文本数据中的有效单句,所述预设语料库中包括触发词和非关键词;根据所述有效单句中的词语与所述有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取所述有效单句中的中心词;根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词;根据所述预设灾害事件模板,将提取的所述中心词和所述修饰词存储至所述预设灾害事件模板的数据库中,所述数据库包括事件库和关系库;将事件库和关系库中的数据导入图数据库,构建洪涝型Natech灾害事件可视化知识图谱。
[0006]可选地,所述预设语料库的构建,包括:根据基础文本数据中的各个句子涵盖的灾害事件的信息量,对所述各个句子进行分级;根据所述各个句子的等级,对所述各个句子进行赋值,获得经过赋值的各个句子;
根据词语在各个句子中的频次和各个句子的等级分值,确定该词语的权重值;根据词语的权重取值,将满足第一预设条件的词语存储至语料库的非关键词词典中,将满足第二预设条件的词语和该词语的权重值存储至语料库的触发词词典中,以及将Natech灾害事件专有名词词典和灾害等级指示词存储至语料库的对应词典类别中,获得预设语料库。
[0007]可选地,所述根据预设语料库,确定所述目标文本数据中的有效单句,包括:根据预设语料库,确定所述目标文本数据中的各个单句是否包含所述预设语料库中的触发词;将包含所述预设语料库中的触发词的单句确定为有效单句。
[0008]可选地,所述根据所述有效单句中的词语与所述有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取所述有效单句中的中心词,包括:通过预设算法,确定所述有效单句中的核心动词;根据所述有效单句中的各个词语的词性、位置,以及所述各个词语分别与所述核心动词之间的依存距离,从所述有效单句中提取所述预设灾害事件模板中各个类别的中心词。
[0009]可选地,所述根据所述有效单句中的各个词语的词性、位置,以及所述各个词语分别与所述核心动词之间的依存距离,从所述有效单句中提取所述预设灾害事件模板中各个类别的中心词,包括:通过句法分析,对所述有效单句中的所有词语进行打分,获得所有词语分别与所述核心动词之间的依存距离评分;遍历所述预设语料库,在词语属于所述预设语料库中的触发词时,将该词语的依存距离评分除以该词语在所述预设语料库中对应的权重值,获得该词语对应的目标依存距离评分;在词语属于所述预设语料库中的非关键词时,排除该词语;在词语不属于所述预设语料库中的非关键词和触发词时,将该词语的依存距离评分确定为该词语的目标依存距离评分;从具有目标依存距离评分的词语中提取词性和位置均符合所述预设灾害事件模板中的关键实体信息要求,且目标依存距离评分最低的词语,作为关键实体信息的中心词,以及,从具有目标依存距离评分的词语中提取词性和位置均符合所述预设灾害事件模板中的时空信息要求的词语,且目标依存距离评分最低的词语,作为时空信息的中心词。
[0010]可选地,所述根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词,包括:根据所述有效单句中词语间的依存关系,通过句法分析算法构建对应的句法树;提取所述句法树中符合所述中心词的词性要求的修饰词。
[0011]可选地,所述根据所述预设灾害事件模板,将提取的所述中心词和所述修饰词存储至所述预设灾害事件模板的数据库中,包括:将所述中心词和所述中心词的修饰词按照序列距离进行排序,获得长组合词组;根据所述长组合词组中的关键实体信息、时间指示词和地点指示词,将所述长组合词组中的关键实体信息按照词性拆分为实体描述词和属性描述词,以及,将所述长组合词组中的时间信息按照时间指示词进行分词,以及,将所述长组合词组中的空间信息按照
地点指示词进行分词,获得分词结果;根据所述有效单句中的各个动词,构建关键实体信息之间的关系和关键实体信息与时空信息之间的关系;对分词结果中的时空信息进行标准化处理;将构建的关键实体信息之间的关系存储至预设灾害事件模板的关系库中,以及,将分词结果、关键实体信息与时空信息之间的关系和时空信息的标准化处理结果存储至预设灾害事件模板的事件库中。
[0012]可选地,所述将事件库和关系库中的数据导入图数据库,构建Natech灾害事件可视化知识图谱,包括:将事件库和关系库中的数据导入图数据库;在图数据库中,将事件库中的关键实体信息对应的灾害事件和承灾体各自的名称作为主键创建节点,将事件库中的时空信息中的时间标准化结果作为主键创建节点,以及,将事件库中的时空信息中的空间信息标准化结果作为主键创建节点;在图数据库中,通过关系库中关键实体信息之间的关系和关键实体信息与时空信息之间的关系创建连接各个节点的边。
[0013]可选地,所述方法还包括:获取所述文本数据的文本来源元数据;根据所述文本来源元数据,提取所述文本来源元数据中与时空信息相关的中心词。
[0014]可选地,所述方法还包括:确定提取的所有中心词中是否存在多个相同的重复中心词;在提取的所有中心词中包括多个相同的重复中心词时,根据预设规则,保留所述多个相同的重复中心词中的一个。
[0015]针对在先技术,本专利技术具备如下优点:本专利技术提供的一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,通过从文本信息中抽取Natech灾害事件的类型、规模、承灾体受影响程度等信息,并根据Natech灾害事件影响的直接逻辑联系与时空重叠关系构建表达Natech灾害事件影响的知识图谱,使得构建出全面专业的Natech灾害事件知识图谱,同时实现了以知识进行驱动的Natech灾害事件信息抽取

知识图谱构建的全自动化流程,能够支持高效的大数据量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述方法包括:对文本数据进行预处理,获得目标文本数据;根据预设语料库,确定所述目标文本数据中的有效单句,所述预设语料库中包括触发词和非关键词;根据所述有效单句中的词语与所述有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取所述有效单句中的中心词;根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词;根据所述预设灾害事件模板,将提取的所述中心词和所述修饰词存储至所述预设灾害事件模板的数据库中,所述数据库包括事件库和关系库;将事件库和关系库中的数据导入图数据库,构建洪涝型Natech灾害事件可视化知识图谱。2.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述预设语料库的构建,包括:根据基础文本数据中的各个句子涵盖的灾害事件的信息量,对所述各个句子进行分级;根据所述各个句子的等级,对所述各个句子进行赋值,获得经过赋值的各个句子;根据词语在各个句子中的频次和各个句子的等级分值,确定该词语的权重值;根据词语的权重取值,将满足第一预设条件的词语存储至语料库的非关键词词典中,将满足第二预设条件的词语和该词语的权重值存储至语料库的触发词词典中,以及将Natech灾害事件专有名词词典和灾害等级指示词存储至语料库的对应词典类别中,获得预设语料库。3.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述根据预设语料库,确定所述目标文本数据中的有效单句,包括:根据预设语料库,确定所述目标文本数据中的各个单句是否包含所述预设语料库中的触发词;将包含所述预设语料库中的触发词的单句确定为有效单句。4.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述根据所述有效单句中的词语与所述有效单句中的核心动词之间的相关关系和预设灾害事件模板,提取所述有效单句中的中心词,包括:通过预设算法,确定所述有效单句中的核心动词;根据所述有效单句中的各个词语的词性、位置,以及所述各个词语分别与所述核心动词之间的依存距离,从所述有效单句中提取所述预设灾害事件模板中各个类别的中心词。5.根据权利要求4所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述根据所述有效单句中的各个词语的词性、位置,以及所述各个词语分别与所述核心动词之间的依存距离,从所述有效单句中提取所述预设灾害事件模板中各个类别的中心词,包括:通过句法分析,对所述有效单句中的所有词语进行打分,获得所有词语分别与所述核心动词之间的依存距离评分;
遍历所述预设语料库,在词语属于所述预设语料库中的触发词时,将该词语的依存距离评分除以该词语在所述预设语料库中对应的权重值,获得该词语对应的目标依存距离评分;在词语属于所述预设语料库中的非关键词时,排除该词语;在词语不属于所述预设语料库中的非关键词和触发词时,将...

【专利技术属性】
技术研发人员:孔莞悦戴强高世莹尤心韵王慧敏黄晶毛龄聃
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1