一种基于联合聚类的煤矿舆情监测系统技术方案

技术编号:8801132 阅读:254 留言:0更新日期:2013-06-13 05:48
本发明专利技术提出一种基于联合聚类的煤矿舆情监测系统,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块。煤矿舆情分析模块是该系统中的核心模块,采用了Web数据挖掘领域中的聚类算法,发明专利技术人在基于信息瓶颈理论的增量聚类方法的基础上,充分考虑了部分特征以及特征和特征间的相关性,从而提高了聚类结果的准确性和精确性。该系统面向微博、博客、论坛以及门户网站等网络资源,所采集的信息经去重、中文分词、停用词过滤等数据预处理步骤后,建立煤矿舆情库,同时基于文本分类、文本聚类等数据挖掘算法进行热点发现以及舆情热度分析,最后以数据性图标以及舆情报表的形式给出监测结果。

【技术实现步骤摘要】

本申请属于煤矿数据分析和数据挖掘领域。
技术介绍
国内的网络舆情研究始于2005年,目如已成为相关学科领域专家的关注热点,方兴未艾。目前的舆情研究多以群体事件、司法事件或政治事件为研究着力点,面向公共舆情为主。“煤矿舆情”作为涉及煤矿生产、传播学、中文信息处理与计算机网络的交叉研究领域,始于2010年前后,至今仍鲜有应用。近两年来,煤矿生产的相关舆论热点不断在网络上涌现,煤矿生产秩序、煤矿安全与煤矿制度及监管三者在更深层次上开始互动,新时期多种语言、文化和社会关系的博弈,通过网络平台体现出来。煤矿舆情呈现出“热点频度高、指向煤矿生产重大问题、诱发群体事件”的趋势。以微博、博客、社交网络、即时通讯系统为代表的自媒体(We Media)打破信息的控制和垄断,在网络上人们自由表达自己的态度和意见,不再像过去那么容易地无条件接受,相反,不同阶层的利益诉求纷纷呈现,不同思想观点正面碰撞。在这种情况下,建设能够覆盖多数据源的煤矿舆情监测系统十分必要,此类系统可针对新的媒介传播环境,进一步深入研究煤矿舆情的热点研判方法以及自媒体带来的影响,对煤矿舆情研究进行丰富和完盡口 ο目前为止,尚未有与Web信息检索技术相结合的煤矿舆情监测系统。
技术实现思路
本专利技术提出一种基于联合聚类的煤矿舆情监测系统,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块,其中数据采集与内容过滤模块通过指定关键词、来源URL或信息主题,在源数据中过滤出煤矿领域信息;数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块;煤矿舆情分析模块以数据预处理模块中的数据为基础,采用联合聚类算法发现舆情的热点;舆情结果呈现模块以图表或报告形式输出舆情结果。优选地,在 煤矿舆情分析模块中,联合聚类算法的具体步骤如下:1)初始化:(1)针对文档-特征词二维矩阵,用X表示文档集合X = {Xl,X2,...,X1J,Y表示特征词集合Y = Iy1, I2, yj,其中m为文档的总数,η为集合中特征词的个数,即文档向量的维度;(2)将m个文档分成P组,形成P个文档簇,分别记为C1, c2,...,cP,这P个簇组成的集合记为(:,簇(^所包含的文档记为^42,.^^ I彡i彡p,i为自然数,IciI表示簇Ci所包含的文档数目;将η个特征词分成Q组,形成Q个特征词簇,分别记为11;12,...,1Q, Q个簇组成的集合记为L,簇Ij所包含的特征词记为AWw,I,I彡j彡Q,j为自然数,1 L 1示簇L所包含的特征词数目。2)更新向量表示:文档Xe的向量表示记为本文档来自技高网...

【技术保护点】
一种基于联合聚类的煤矿舆情监测系统,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块,其中数据采集与内容过滤模块通过指定与煤矿相关的关键词、来源URL或信息主题,在源数据中过滤出煤矿领域信息;数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块;煤矿舆情分析模块以数据预处理模块中的数据为基础,采用联合聚类算法发现舆情的热点;舆情结果呈现模块以图表或报告形式输出舆情结果;其特征在于:在煤矿舆情分析模块中,联合聚类算法的具体步骤如下:1)初始化:(1)针对文档?特征词二维矩阵,用X表示文档集合X={x1,x2,...,xm},Y表示特征词集合Y={y1,y2,...,yn},其中m为文档的总数,n为集合中特征词的个数,即文档向量的维度;(2)将m个文档分成P组,形成P个文档簇,分别记为c1,c2,...,CP,这P个簇组成的集合记为C,簇ci所包含的文档记为1≤i≤P,i为自然数,|ci|表示簇ci所包含的文档数目;将n个特征词分成Q组,形成Q个特征词簇,分别记为l1,l2,...,lQ,Q个簇组成的集合记为L,簇lj所包含的特征词记为1≤j≤Q,j为自然数,|lj|表示簇lj所包含的特征词数目。2)更新向量表示:文档xe的向量表示记为x→e=(p(l1|xe),p(l2|xe),···,p(lQ|xe)),1≤e≤m,e为自然数,p(lj|xe)表示文档xe条件下特征词簇lj的概率,n(g|xe)和n(yjk|xe)分别表示文档xe中特征词g和yjk出现的次数,g∈Y,1≤k≤|lj|,k为自然数;文档簇ci的向量表示记为p(l2|ci),…,p(lQ|ci)),p(lj|ci)表示文档簇ci条件下特征词簇lj的概率,n(g|xif)和n(yjk|xif)分别表示文档xif中特征词g和yjk出现的次数,1≤f≤|ci|,f为自然数;特征ys的向量表示记为p(c2|ys),…,p(cP|ys)),1≤s≤n,s为自然数,p(ci|ys)表示特征词ys条件下文档簇ci的概率,n(ys|xe)和n(ys|xir)分别表示文档xe和xir中特征词ys出现的次数,1≤r≤|ci|,r为自然数;特征簇lj的向量表示记为p(c2|lj),…,p(cP|lj)),p(ci|lj)表示特征词簇lj条件下文档簇ci的概率,n(yjt|xe)和n(yjt|xir)分别表示文档xe和xir中特征词yjt出现的次数,1≤t≤|lj|,t为自然数;3)行聚类:(1)依次从每个文档簇ci中取每个文档xif构成一个新的簇{xif},根据共有信息损失最小原则,将{xif}合并到一个新的文档簇c′i中,使得1≤u≤P,且u≠i,u为自然数,d(ci,cu)表示合并ci和cu两个簇时产生的共有信息损失,d(ci,cu)=Σa=i,u|ca||X|Σj=1Qp(lj|ca)logp(lj|ca)p(lj),其中,|X|表示X中文档的个数,|ca|表示簇ca中文档的个数,p(lj)=|ci||ci∪cu|p(lj|ci)+|cu||ci∪cu|p(lj|cu);(2)迭代上述整体取样过程sum1次后,得到一个新的文档簇集合,更新原集合C、文档簇l1,l2,...,lQ,并更新每个簇lj所包含的文档sum1为自然数;4)列聚类:(1)依次从每个特征词簇lj中取每个特征词yjt,构成一个新的簇{yjt},根据共有信息损失最小原则,将{yji}合并到一个新的特征词簇l′j中,使得1≤v≤Q,且v≠j,v为自然数,d(lj,lv)表示合并lj和lv两个簇时产生的共有信息损失,d(lj,lv)=Σa=j,v|la||Y|Σi=1Pp(ci|la)logp(ci|la)p(ci),|Y|表示Y中特征词的个数,|la|表示簇la中特征词的个数,且p(ci)=|lj||lj∪lv|p(ci|lj)+|lv||lj∪lv|p(ci|lv);(2)迭代上述整体取样过程sum2次后,得到一个新的特征词簇集合,更新原集合L、特征词簇c1,c2,...,cP,并更新每个簇ci所包含的特征词sum2为自然数;5)判断聚类过程是否收敛:若收敛,聚类过程完成,否则跳转至步骤2)。FSA00000851511000017.tif,FSA00000851511000018.tif,...

【技术特征摘要】
1.一种基于联合聚类的煤矿舆情监测系统,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块,其中数据采集与内容过滤模块通过指定与煤矿相关的关键词、来源URL或信息主题,在源数据中过滤出煤矿领域信息;数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块;煤矿舆情分析模块以数据预处理模块中的数据为基础,采用联合聚类算法发现舆情的热点;舆情结果呈现模块以图表或报告形式输出舆情结果;其特征在于:在煤矿舆情分析模块中,联合聚类算法的具体步骤如下: 1)初始化: (1)针对文档-特征词二维矩阵,用X表示文档集合X= (X1, X2,..., xj , Y表示特征词集合Y = Iy1,...

【专利技术属性】
技术研发人员:刘永利贾宗璞王建芳韩秀娟杜守恒
申请(专利权)人:河南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1