【技术实现步骤摘要】
针对化工行业大检查报告的文本挖掘方法及系统
[0001]本专利技术涉及文本挖掘领域,具体地涉及一种针对化工行业大检查报告的文本挖掘方法以及一种针对化工行业大检查报告的文本挖掘系统。
技术介绍
[0002]化工行业大检查报告以非结构化的文本数据格式进行存储,主要包含安全管理与设备管理方面的优秀业绩与当年接受检查时存在的问题,随着行业的发展过程逐年积累形成了一种文本大数据。虽然其中包含的问题信息对于安全生产与监管具有指导性的意义,但是从中提取和整理信息的过程通常是人工完成的,非常费时费力。随着计算机技术的发展,文本挖掘技术这种能够从文本中抽取潜在有用信息的技术,近年来在信息检索、舆情分析等方向得到广泛应用,并逐渐向专业领域的文本分析发展。
[0003]通用文本挖掘主要设计能够在多个领域的文本数据中进行信息抽取的方法。孟涛、李佳静的专利《一种通用文本挖掘方法和系统》通过对网络文本信息进行爬取,概念与关系的标注,从而能够对概念与关系进行检索。刘军旗、苏爱军、唐辉明等的专利《一种从文档集中快速提取有用数据的方法》通过对文本数据进行分词与词频统计,将所有的词汇导入数据库中,从而支持使用检索词对数据库内的信息进行检索。通用文本挖掘对于文本数据的处理仅限于语言层面,因此所能分析出的信息虽然通用性较高但深度较浅,也无法结合文档的结构与实体含义对文本数据进行进一步的处理。
[0004]专业领域文本挖掘主要对行业积累的大量文本数据进行自动化的信息提取,从而提高效率,使得历史文献记录能够发挥更大的作用。万磊、严道波、杨勇等的 ...
【技术保护点】
【技术特征摘要】
1.一种针对化工行业大检查报告的文本挖掘方法,其特征在于,所述方法包括:识别化工行业大检查报告文本的章节结构;根据所述章节结构对所述化工行业大检查报告文本进行情感分析,获取情感分析结果最负面的章节;对所述情感分析结果最负面的章节进行分词,得到所述章节中各个段落划分的词汇以及对应的词性标注;对所述词汇以及对应的词性标注进行整合统计得到各企业存在的安全管理问题汇总。2.根据权利要求1所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述识别化工行业大检查报告文本的章节结构,包括:识别所述化工行业大检查报告文本中的段落;读取所述化工行业大检查报告文本的章节索引;根据章节索引中的标题结构,将各个所述段落归总到所属的三级标题,得到所述化工行业大检查报告文本的章节结构。3.根据权利要求1所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述根据所述章节结构对所述化工行业大检查报告文本进行情感分析,获取情感分析结果最负面的章节,包括:对所述化工行业大检查报告中的段落逐一进行情感分析,得到各个段落的情感分析得分;根据所述各个段落的情感分析得分计算各个章节的情感分析得分k
j
,其中,P为所述化工行业大检查报告中的章节数,n
j
为第j个章节中段落的数量,m
j,i
为第j个章节第i个段落的情感分析得分;根据所述各个章节的情感分析得分确定所述情感分析结果最负面的章节。4.根据权利要求3所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述对所述化工行业大检查报告中的段落逐一进行情感分析,得到各个段落的情感分析得分,包括:设置情感分析结果得分规则;对所述化工行业大检查报告中的段落逐一进行情感分析,得到各个段落的情感分析结果;根据所述情感分析结果得分规则和情感分析结果得到各个段落的情感分析得分。5.根据权利要求4所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述情感分析得分规则为:若所述情感分析结果小于或等于预设阈值,则情感分析得分为1,若所述情感分析结果大于所述预设阈值,则情感分析得分为0;所述根据所述各个章节的情感分析得分确定所述情感分析结果最负面的章节,包括:将情感分析得分最高的章节作为所述情感分析结果最负面的章节。6.根据权利要求4所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述
情感分析得分规则为:若所述情感分析结果小于或等于预设阈值,则情感分析得分为0,若所述情感分析结果大于所述预设阈值,则情感分析得分为1;所述根据所述情感分析结果得分规则和情感分析结果得到各个段落的情感分析得分,包括:将情感分析得分最低的章节作为所述情感分析结果最负面的章节。7.根据权利要求2所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述对所述情感分析结果最负面的章节进行分词,得到所述章节中各个段落的词语划分以及对应的词性标注,包括:构建化工行业大检查报告文本挖掘分词库作为自定义词典;使用分词模型根据所述词典在搜索引擎模式下对所述情感分析结果最负面的章节的每个段落进行分词,得到各个段落的词语划分以及对应的词性标注。8.根据权利要求7所述的针对化工行业大检查报告的文本挖掘方法,其特征在于,所述对所述词汇以及对应的词性标注进行整合统计得到各企业存在的安全管理问题汇总,包括:创建段落统计表,统计各段落中...
【专利技术属性】
技术研发人员:蒋瀚,王建斌,施红勋,常庆涛,郭峻东,于一帆,
申请(专利权)人:中国石油化工股份有限公司青岛安全工程研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。