一种基于MI-CFM-IMC算法的融媒体信息处理方法技术

技术编号：26651020 阅读：48 留言：0更新日期：2020-12-09 00:51

本发明专利技术涉及基于MI‑CFM‑IMC算法的融媒体信息处理方法，是一种对安全生产中危化品事故的融媒体信息处理方法，属于智能安全领域，其特征在于采用如下步骤：(1)计算词项和每个类别的互信息；(2)构建上下文特征矩阵；(3)构建同义词与反义词特征矩阵；(4)构建属性语义特征矩阵；(5)获取融合矩阵。本发明专利技术可以有效改善罕见词由于缺乏上下文的相关数据进而不能充分表示其语义关联信息的问题，极大的改善了同文本之间中心词的同义词与反义词之间的关系界定。本发明专利技术将互信息特征提取MI与IMC诱导矩阵补全算法相结合，取得了较高的信息融合准确率。为危化品事故信息处理领域提供了一种拥有较高信息融合准确率的方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于MI-CFM-IMC算法的融媒体信息处理方法
本专利技术涉及智能安全领域，特别是一种对安全生产中危化品事故的融媒体信息处理方法。
技术介绍
目前在危化品安全生产领域对于融媒体信息的处理，主要针对融媒体文本资料的关键信息获取，主流的方法是采用分布式学习的方法，通过获取大量的文本信息的关键词，进行训练，表示出特征词汇的相互联系，建立矩阵，但是基于这种做法的信息处理存在着诸多问题，文本信息关键词特征不足时，生成的特征词汇关系性较弱，不足以完整展现关键信息之间的相互联系；当中心语句的反义词同时出现在相同文段时，在进行处理的过程中，会使相反意义的词语被赋予更相近语义关联，当中心词汇的相近意义的词汇，出现在不同语义属性的语句中，从而生成的关系矩阵容易被赋予更远的关系。对于融媒体信息尤其是文本信息的处理，要想高效及时的获取关键信息，我们需要将中心词汇进行准确的辨义和关联，在此基础上，提出了一种基于MI-CFM-IMC算法的融媒体信息处理方法，通过对文本特征的中心词构建上下文特征矩阵，找出关键信息之间的关系，然后构建同义词与反义词特征矩阵，将找出的关键信息进行分类，之后通过属性语义特征矩阵找出关键信息所描述分别对应的对象，最后在用IMC将三个矩阵进行融合，从而提高了融媒体信息处理的高效性和准确性，以便于工作人员多方面发现问题，立体总结问题，做好各种事故的预防与解决策略。
技术实现思路
针对上述现有技术中存在的问题，本专利技术要解决的技术问题是提供一种基于MI-CFM-IMC算法的融媒体信息处理方法...

【技术保护点】
1.一种基于MI-CFM-IMC算法的融媒体信息处理方法，本专利技术特征在于：(1)计算词项和每个类别的互信息；(2)构建上下文特征矩阵；(3)构建同义词与反义词特征矩阵；(4)构建属性语义特征矩阵；(5)获取融合矩阵；具体包括以下五个步骤：/n步骤一：计算词项和每个类别的互信息；/n建立停用词词库和训练文本集，将数据集中的训练文本进行分词，分词后根据停用词词库，过滤停用词，对分词后的文本进行词性标注，计算剩下的词项和每个类别的互信息；/n

【技术特征摘要】
1.一种基于MI-CFM-IMC算法的融媒体信息处理方法，本发明特征在于：(1)计算词项和每个类别的互信息；(2)构建上下文特征矩阵；(3)构建同义词与反义词特征矩阵；(4)构建属性语义特征矩阵；(5)获取融合矩阵；具体包括以下五个步骤：
步骤一：计算词项和每个类别的互信息；
建立停用词词库和训练文本集，将数据集中的训练文本进行分词，分词后根据停用词词库，过滤停用词，对分词后的文本进行词性标注，计算剩下的词项和每个类别的互信息；

式中，U是词项，C是类别，U、C都是二值随机变量，I表示单位矩阵，P表示概率，当文档包含词项时，U的取值为et＝1，否则et＝0；当文档属于类别C时，C的取值ec＝1，否则ec＝0；
对每一个类别计算其各个词项与其的互信息，并选取值最大的k个词项，将各个类别之间的重复词进行删除，筛选出特征词；
步骤二：构建上下文特征矩阵MSPPMI；
由测试集构成的相似度词典S,进行上下文特征文本的预处理，对相似度词典S中的每个词语标注其全部的上下文词语，计算#(w)、#(c)、#(w,c)：
MSPPMI＝(SPPMI(wi,cj))|D|×|D|；
式中，D为总词语个数，SPPMI为负采样的非负点互信息矩阵，#(w)...

【专利技术属性】
技术研发人员：胡燕祝，王松，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人