一种基于MI-CFM-IMC算法的融媒体信息处理方法技术

技术编号:26651020 阅读:48 留言:0更新日期:2020-12-09 00:51
本发明专利技术涉及基于MI‑CFM‑IMC算法的融媒体信息处理方法,是一种对安全生产中危化品事故的融媒体信息处理方法,属于智能安全领域,其特征在于采用如下步骤:(1)计算词项和每个类别的互信息;(2)构建上下文特征矩阵;(3)构建同义词与反义词特征矩阵;(4)构建属性语义特征矩阵;(5)获取融合矩阵。本发明专利技术可以有效改善罕见词由于缺乏上下文的相关数据进而不能充分表示其语义关联信息的问题,极大的改善了同文本之间中心词的同义词与反义词之间的关系界定。本发明专利技术将互信息特征提取MI与IMC诱导矩阵补全算法相结合,取得了较高的信息融合准确率。为危化品事故信息处理领域提供了一种拥有较高信息融合准确率的方法。

【技术实现步骤摘要】
一种基于MI-CFM-IMC算法的融媒体信息处理方法
本专利技术涉及智能安全领域,特别是一种对安全生产中危化品事故的融媒体信息处理方法。
技术介绍
目前在危化品安全生产领域对于融媒体信息的处理,主要针对融媒体文本资料的关键信息获取,主流的方法是采用分布式学习的方法,通过获取大量的文本信息的关键词,进行训练,表示出特征词汇的相互联系,建立矩阵,但是基于这种做法的信息处理存在着诸多问题,文本信息关键词特征不足时,生成的特征词汇关系性较弱,不足以完整展现关键信息之间的相互联系;当中心语句的反义词同时出现在相同文段时,在进行处理的过程中,会使相反意义的词语被赋予更相近语义关联,当中心词汇的相近意义的词汇,出现在不同语义属性的语句中,从而生成的关系矩阵容易被赋予更远的关系。对于融媒体信息尤其是文本信息的处理,要想高效及时的获取关键信息,我们需要将中心词汇进行准确的辨义和关联,在此基础上,提出了一种基于MI-CFM-IMC算法的融媒体信息处理方法,通过对文本特征的中心词构建上下文特征矩阵,找出关键信息之间的关系,然后构建同义词与反义词特征矩阵,将找出的关键信息进行分类,之后通过属性语义特征矩阵找出关键信息所描述分别对应的对象,最后在用IMC将三个矩阵进行融合,从而提高了融媒体信息处理的高效性和准确性,以便于工作人员多方面发现问题,立体总结问题,做好各种事故的预防与解决策略。
技术实现思路
针对上述现有技术中存在的问题,本专利技术要解决的技术问题是提供一种基于MI-CFM-IMC算法的融媒体信息处理方法,其具体流程如图1所示。实现本专利技术目的的技术方案的具体步骤为:步骤一:计算词项和每个类别的互信息;建立停用词词库和训练文本集,将数据集中的训练文本进行分词,分词后根据停用词词库,过滤停用词,对分词后的文本进行词性标注,计算剩下的词项和每个类别的互信息;式中,U是词项,C是类别,U、C都是二值随机变量,I表示单位矩阵,P表示概率,当文档包含词项时,U的取值为et=1,否则et=0;当文档属于类别C时,C的取值ec=1,否则ec=0;对每一个类别计算其各个词项与其的互信息,并选取值最大的k个词项,将各个类别之间的重复词进行删除,筛选出特征词;步骤二:构建上下文特征矩阵MSPPMI;由测试集构成的相似度词典S,进行上下文特征文本的预处理,对相似度词典S中的每个词语标注其全部的上下文词语,计算#(w)、#(c)、#(w,c):MSPPMI=(SPPMI(wi,cj))|D|×|D|;式中,D为总词语个数,SPPMI为负采样的非负点互信息矩阵,#(w)为每个当前中心词出现的次数,#(c)为上下文词出现的次数,#(w,c)为每个词对(w,c)出现的次数;步骤三:构建同义词与反义词特征矩阵MSAM:利用爬虫技术得到相关文本后,解析同义词与反义词的文本行为json数据提取得到相似度词典中每个词语的同义词和反义词列表,构建SAM特征矩阵:式中,矩阵MSAM是一个大小的矩阵|S|×|S|,表示MSAM矩阵的第i行第j列元素,若行表头词语和列表头词语是同义词,则如果是反义词关系,则否则步骤四:构建属性语义特征矩阵MSFM:对相似度词典S中的每个词语si从相关文库中抽取词语的解释和描述文本,对语义文本进行预处理得到ST文件;对ST中每个词语的词频并按照词频做排序处理,并进行过滤,得到字典CN:式中,对于ST中的每条文本,若CN中的词语名出现在该条文本中,则设置否则设置直到si为S中的最后一个词语时,构建属性语义特征矩阵完成;步骤五:获取融合矩阵M:M≈(MSAM)T(MCFM)TH(MSFM)T式中,MCFM矩阵为IMC算法中待分解的目标矩阵;MSAM特征矩阵为IMC算法中的矩阵;MSFM特征矩阵为IMC算法中的矩阵,H矩阵表示Hermit矩阵。本专利技术比现有技术具有的优点:(1)本专利技术克服了分布式学习的信息之间关系孱弱的缺点,可以有效地提高融媒体信息间的关联性。(2)本专利技术可以有效改善罕见词由于缺乏上下文的相关数据进而不能充分表示其语义关联信息的问题,本专利技术将中心词的同义词与反义词首先确定对立关系,极大的改善了同文本之间中心词的同义词与反义词之间的关系界定。(3)本专利技术将互信息特征提取MI与IMC诱导矩阵补全算法相结合,取得了较高的信息融合准确率。这说明本专利技术针对生产中危化品事故信息的处理,具有一定的实用价值。附图说明为了更好地理解本专利技术,下面结合附图作进一步的说明。图1是建立基于MI-CFM-IMC算法的融媒体信息处理方法的步骤流程图;图2是建立基于MI-CFM-IMC算法的融媒体信息处理方法算法流程图;图3是四组信息处理方法的对比实验。具体实施方案下面通过实施案例对本专利技术作进一步详细说明。本实施案例选用构建的CFM数据来自维基百科,构建SMA数据来自Thesaurus,构建SFM数据来自维基百科、Wiktionary词典以及在线词典。从相关网站爬取相关资料后,进行数据的预处理,达到格式统一,之后进行矩阵的相关处理。其中,CFM中根据数据集构建的相似度词典S的大小为5987。本专利技术所提供的基于MI-CFM-IMC算法的融媒体信息处理方法整体流程如图所示,具体步骤如下:(1)计算词项和每个类别的互信息:建立停用词词库和训练文本集,将数据集中的训练文本进行分词,分词后根据停用词词库,过滤停用词,对分词后的文本进行词性标注,计算剩下的词项和每个类别的互信息:式中,U是词项,C是类别,U、C都是二值随机变量,当文档包含词项时,U的取值为et=1,否则et=0;当文档属于类别C时,C的取值ec=1,否则ec=0。对每一个类别计算其各个词项与其的互信息,并选取值最大的k个词项。将各个类别之间的重复词进行删除,筛选出特征词。(2)构建上下文特征矩阵MSPPMI:由测试集构成的相似度词典S,进行上下文特征文本的预处理,其中,S的大小为5987,对相似度词典S中的每个词语标注其全部的上下文词语,最终有3770834条文本被保留,计算#(w)、#(c)、#(w,c):MSPPMI=(SPPMI(wi,cj))|D|×|D|式中,D为总词语个数,SPPMI为负采样的非负点互信息矩阵,#(w)为每个当前中心词出现的次数,#(c)为上下文词出现的次数,#(w,c)为每个词对(w,c)出现的次数。(3)构建同义词与反义词特征矩阵MSAM:利用爬虫技术得到相关文本后,解析同义词与反义词的文本行为json数据提取得到相似度词典中每个词语的同义词和反义词列表,构建SAM特征矩阵:式中,矩阵MSAM是一个大小的矩阵|S|×|S|。若行表头词语和列表头词语是同义词,则如果是反义词关系,则否则(4)构建属性语义特本文档来自技高网...

【技术保护点】
1.一种基于MI-CFM-IMC算法的融媒体信息处理方法,本专利技术特征在于:(1)计算词项和每个类别的互信息;(2)构建上下文特征矩阵;(3)构建同义词与反义词特征矩阵;(4)构建属性语义特征矩阵;(5)获取融合矩阵;具体包括以下五个步骤:/n步骤一:计算词项和每个类别的互信息;/n建立停用词词库和训练文本集,将数据集中的训练文本进行分词,分词后根据停用词词库,过滤停用词,对分词后的文本进行词性标注,计算剩下的词项和每个类别的互信息;/n

【技术特征摘要】
1.一种基于MI-CFM-IMC算法的融媒体信息处理方法,本发明特征在于:(1)计算词项和每个类别的互信息;(2)构建上下文特征矩阵;(3)构建同义词与反义词特征矩阵;(4)构建属性语义特征矩阵;(5)获取融合矩阵;具体包括以下五个步骤:
步骤一:计算词项和每个类别的互信息;
建立停用词词库和训练文本集,将数据集中的训练文本进行分词,分词后根据停用词词库,过滤停用词,对分词后的文本进行词性标注,计算剩下的词项和每个类别的互信息;



式中,U是词项,C是类别,U、C都是二值随机变量,I表示单位矩阵,P表示概率,当文档包含词项时,U的取值为et=1,否则et=0;当文档属于类别C时,C的取值ec=1,否则ec=0;
对每一个类别计算其各个词项与其的互信息,并选取值最大的k个词项,将各个类别之间的重复词进行删除,筛选出特征词;
步骤二:构建上下文特征矩阵MSPPMI;
由测试集构成的相似度词典S,进行上下文特征文本的预处理,对相似度词典S中的每个词语标注其全部的上下文词语,计算#(w)、#(c)、#(w,c):
MSPPMI=(SPPMI(wi,cj))|D|×|D|;
式中,D为总词语个数,SPPMI为负采样的非负点互信息矩阵,#(w)...

【专利技术属性】
技术研发人员:胡燕祝王松
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1