针对化工行业大检查报告的文本挖掘方法及系统技术方案

技术编号:32505842 阅读:17 留言:0更新日期:2022-03-02 10:18
本发明专利技术提供一种针对化工行业大检查报告的文本挖掘方法及系统,属于文本挖掘领域。所述方法包括:识别化工行业大检查报告文本的章节结构;根据所述章节结构对所述化工行业大检查报告文本进行情感分析,获取情感分析结果最负面的章节;对所述情感分析结果最负面的章节进行分词,得到所述章节中各个段落划分的词汇以及对应的词性标注;对所述词汇以及对应的词性标注进行整合统计得到各企业存在的安全管理问题汇总。通过情感分析识别情感分析结果最负面的章节,对最负面的章节进行分词并进行词频统计,得到大检查报告中各个企业存在的问题,为监管决策提供信息支撑。为监管决策提供信息支撑。为监管决策提供信息支撑。

【技术实现步骤摘要】
针对化工行业大检查报告的文本挖掘方法及系统


[0001]本专利技术涉及文本挖掘领域,具体地涉及一种针对化工行业大检查报告的文本挖掘方法以及一种针对化工行业大检查报告的文本挖掘系统。

技术介绍

[0002]化工行业大检查报告以非结构化的文本数据格式进行存储,主要包含安全管理与设备管理方面的优秀业绩与当年接受检查时存在的问题,随着行业的发展过程逐年积累形成了一种文本大数据。虽然其中包含的问题信息对于安全生产与监管具有指导性的意义,但是从中提取和整理信息的过程通常是人工完成的,非常费时费力。随着计算机技术的发展,文本挖掘技术这种能够从文本中抽取潜在有用信息的技术,近年来在信息检索、舆情分析等方向得到广泛应用,并逐渐向专业领域的文本分析发展。
[0003]通用文本挖掘主要设计能够在多个领域的文本数据中进行信息抽取的方法。孟涛、李佳静的专利《一种通用文本挖掘方法和系统》通过对网络文本信息进行爬取,概念与关系的标注,从而能够对概念与关系进行检索。刘军旗、苏爱军、唐辉明等的专利《一种从文档集中快速提取有用数据的方法》通过对文本数据进行分词与词频统计,将所有的词汇导入数据库中,从而支持使用检索词对数据库内的信息进行检索。通用文本挖掘对于文本数据的处理仅限于语言层面,因此所能分析出的信息虽然通用性较高但深度较浅,也无法结合文档的结构与实体含义对文本数据进行进一步的处理。
[0004]专业领域文本挖掘主要对行业积累的大量文本数据进行自动化的信息提取,从而提高效率,使得历史文献记录能够发挥更大的作用。万磊、严道波、杨勇等的技术《基于文本挖掘的95598投诉工单关键信息提取分析装置及系统》将客户投诉致电转换为工单文本信息后,设计工单类别与对应的特征文本集合,将工单分词后与特征文本进行匹配,根据匹配的结果划分到相应类别中。刘绚、尚银辉、车亮等的专利《一种针对配电线路跳闸填报案例的文本挖掘方法》根据分词与词性标注结果,抽取核心词汇与主要叙述句法,形成填报案例的多组事实多元组短语。杨波、王芮、彭立志的专利《一种基于非结构化电子病历的文本挖掘方法及系统》将病例根据时间进行结构化存储,提取其中对症状、检查所见、放化疗方案以及疗效评价的描述,实现电子病历的结构化与放化疗敏感性预测。黄绪勇、王闸、孙鹏等的专利《一种基于文本挖掘技术提取断路器故障特征信息的方法》通过识别和提取断路器故障的表征词汇,对故障信息进行分类,同时建立了故障信息与部件之间的关联关系。通过对现有专业领域文本挖掘技术的分析,可见该技术已在一些领域落地。然而,由于进行了针对专业文本的设计,这些技术很难跨领域进行应用。
[0005]化工行业大检查报告的篇幅较长、组织方式特殊、用词专业,人工统计多年大检查报告费时费力,通用方法无法有效提取出有用的信息,现有专业文本挖掘方法无法应用于该报告的自动化信息提取。

技术实现思路

[0006]本专利技术实施方式的目的是提供一种针对化工行业大检查报告的文本挖掘方法及系统,通过情感分析分析出化工行业大检查报告中文本描述最负面的章节,该章节体现了企业当年接受检查时存在的问题,通过分词和词频统计,将存在的问题及对象进行提取与关联,输出结构化的企业问题统计结果,从而直观的反映存在问题,为监管决策提供信息支撑。
[0007]为了实现上述目的,本专利技术第一方面提供一种针对化工行业大检查报告的文本挖掘方法,所述方法包括:
[0008]识别化工行业大检查报告文本的章节结构;
[0009]根据所述章节结构对所述化工行业大检查报告文本进行情感分析,获取情感分析结果最负面的章节;
[0010]对所述情感分析结果最负面的章节进行分词,得到所述章节中各个段落划分的词汇以及对应的词性标注;
[0011]对所述词汇以及对应的词性标注进行整合统计得到各企业存在的安全管理问题汇总。通过情感分析识别情感分析结果最负面的章节,对最负面的章节进行分词并进行词频统计,得到大检查报告中各个企业存在的问题,为监管决策提供信息支撑。
[0012]进一步地,所述识别化工行业大检查报告文本的章节结构,包括:
[0013]识别所述化工行业大检查报告文本中的段落;
[0014]读取所述化工行业大检查报告文本的章节索引;
[0015]根据章节索引中的标题结构,将各个所述段落归总到所属的三级标题,得到所述化工行业大检查报告文本的章节结构。章节索引包括一级标题,二级标题和三级标题。一般情况下,一级标题作为章,二级标题作为节,三级标题作为子节,通过将各个段落归总到三级标题,得到整个报告文本的树形章节结构,便于在后续分词分析时进行词频统计。
[0016]进一步地,所述根据所述章节结构对所述化工行业大检查报告文本进行情感分析,获取情感分析结果最负面的章节,包括:
[0017]对所述化工行业大检查报告中的段落逐一进行情感分析,得到各个段落的情感分析得分;
[0018]根据所述各个段落的情感分析得分计算各个章节的情感分析得分k
j

[0019]其中,P为所述化工行业大检查报告中的章节数,n
j
为第j个章节中段落的数量,m
j,i
为第j个章节第i个段落的情感分析得分;
[0020]根据所述各个章节的情感分析得分确定所述情感分析结果最负面的章节。通过情感分析得到各个段落的情感分析概率结果,概率结果越大,文本内容越倾向于积极的情感,反之概率结果越小,文本内容越倾向于消极的情感,情感分析结果最负面的章节才体现了大检查报告文本中对于企业的问题和不足之处的描述。确定情感分析结果最负面的章节,后续分词处理过程直接处理最负面的章节,减少计算量,挖掘内容快速且准确。
[0021]进一步地,所述对所述化工行业大检查报告中的段落逐一进行情感分析,得到各
个段落的情感分析得分,包括:
[0022]设置情感分析结果得分规则;
[0023]对所述化工行业大检查报告中的段落逐一进行情感分析,得到各个段落的情感分析结果;
[0024]根据所述情感分析结果得分规则和情感分析结果得到各个段落的情感分析得分。
[0025]可选的,所述情感分析得分规则为:
[0026]若所述情感分析结果小于或等于预设阈值,则情感分析得分为1,若所述情感分析结果大于所述预设阈值,则情感分析得分为0;
[0027]所述根据所述各个章节的情感分析得分确定所述情感分析结果最负面的章节,包括:
[0028]将情感分析得分最高的章节作为所述情感分析结果最负面的章节。
[0029]可选的,所述情感分析得分规则为:
[0030]若所述情感分析结果小于或等于预设阈值,则情感分析得分为0,若所述情感分析结果大于所述预设阈值,则情感分析得分为1;
[0031]所述根据所述情感分析结果得分规则和情感分析结果得到各个段落的情感分析得分,包括:
[0032]将情感分析得分最低的章节作为所述情感分析结果最负面的章节。情感分析结果是一个一个的概本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对化工行业大检查报告的文本挖掘方法,其特征在于,所述方法包括:识别化工行业大检查报告文本的章节结构;根据所述章节结构对所述化工行业大检查报告文本进行情感分析,获取情感分析结果最负面的章节;对所述情感分析结果最负面的章节进行分词,得到所述章节中各个段落划分的词汇以及对应的词性标注;对所述词汇以及对应的词性标注进行整合统计得到各企业存在的安全管理问题汇总。2.根据权利要求1所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述识别化工行业大检查报告文本的章节结构,包括:识别所述化工行业大检查报告文本中的段落;读取所述化工行业大检查报告文本的章节索引;根据章节索引中的标题结构,将各个所述段落归总到所属的三级标题,得到所述化工行业大检查报告文本的章节结构。3.根据权利要求1所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述根据所述章节结构对所述化工行业大检查报告文本进行情感分析,获取情感分析结果最负面的章节,包括:对所述化工行业大检查报告中的段落逐一进行情感分析,得到各个段落的情感分析得分;根据所述各个段落的情感分析得分计算各个章节的情感分析得分k
j
,其中,P为所述化工行业大检查报告中的章节数,n
j
为第j个章节中段落的数量,m
j,i
为第j个章节第i个段落的情感分析得分;根据所述各个章节的情感分析得分确定所述情感分析结果最负面的章节。4.根据权利要求3所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述对所述化工行业大检查报告中的段落逐一进行情感分析,得到各个段落的情感分析得分,包括:设置情感分析结果得分规则;对所述化工行业大检查报告中的段落逐一进行情感分析,得到各个段落的情感分析结果;根据所述情感分析结果得分规则和情感分析结果得到各个段落的情感分析得分。5.根据权利要求4所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述情感分析得分规则为:若所述情感分析结果小于或等于预设阈值,则情感分析得分为1,若所述情感分析结果大于所述预设阈值,则情感分析得分为0;所述根据所述各个章节的情感分析得分确定所述情感分析结果最负面的章节,包括:将情感分析得分最高的章节作为所述情感分析结果最负面的章节。6.根据权利要求4所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述
情感分析得分规则为:若所述情感分析结果小于或等于预设阈值,则情感分析得分为0,若所述情感分析结果大于所述预设阈值,则情感分析得分为1;所述根据所述情感分析结果得分规则和情感分析结果得到各个段落的情感分析得分,包括:将情感分析得分最低的章节作为所述情感分析结果最负面的章节。7.根据权利要求2所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述对所述情感分析结果最负面的章节进行分词,得到所述章节中各个段落的词语划分以及对应的词性标注,包括:构建化工行业大检查报告文本挖掘分词库作为自定义词典;使用分词模型根据所述词典在搜索引擎模式下对所述情感分析结果最负面的章节的每个段落进行分词,得到各个段落的词语划分以及对应的词性标注。8.根据权利要求7所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述对所述词汇以及对应的词性标注进行整合统计得到各企业存在的安全管理问题汇总,包括:创建段落统计表,统计各段落中...

【专利技术属性】
技术研发人员:蒋瀚王建斌施红勋常庆涛郭峻东于一帆
申请(专利权)人:中国石油化工股份有限公司青岛安全工程研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1