【技术实现步骤摘要】
本申请属于煤矿数据分析和数据挖掘领域。
技术介绍
国内的网络舆情研究始于2005年,目如已成为相关学科领域专家的关注热点,方兴未艾。目前的舆情研究多以群体事件、司法事件或政治事件为研究着力点,面向公共舆情为主。“煤矿舆情”作为涉及煤矿生产、传播学、中文信息处理与计算机网络的交叉研究领域,始于2010年前后,至今仍鲜有应用。近两年来,煤矿生产的相关舆论热点不断在网络上涌现,煤矿生产秩序、煤矿安全与煤矿制度及监管三者在更深层次上开始互动,新时期多种语言、文化和社会关系的博弈,通过网络平台体现出来。煤矿舆情呈现出“热点频度高、指向煤矿生产重大问题、诱发群体事件”的趋势。以微博、博客、社交网络、即时通讯系统为代表的自媒体(We Media)打破信息的控制和垄断,在网络上人们自由表达自己的态度和意见,不再像过去那么容易地无条件接受,相反,不同阶层的利益诉求纷纷呈现,不同思想观点正面碰撞。在这种情况下,建设能够覆盖多数据源的煤矿舆情监测系统十分必要,此类系统可针对新的媒介传播环境,进一步深入研究煤矿舆情的热点研判方法以及自媒体带来的影响,对煤矿舆情研究进行丰富和完盡口 ο目前为止,尚未有与Web信息检索技术相结合的煤矿舆情监测系统。
技术实现思路
本专利技术提出一种基于联合聚类的煤矿舆情监测系统,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块,其中数据采集与内容过滤模块通过指定关键词、来源URL或信息主题,在源数据中过滤出煤矿领域信息;数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块;煤矿舆情分 ...
【技术保护点】
一种基于联合聚类的煤矿舆情监测系统,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块,其中数据采集与内容过滤模块通过指定与煤矿相关的关键词、来源URL或信息主题,在源数据中过滤出煤矿领域信息;数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块;煤矿舆情分析模块以数据预处理模块中的数据为基础,采用联合聚类算法发现舆情的热点;舆情结果呈现模块以图表或报告形式输出舆情结果;其特征在于:在煤矿舆情分析模块中,联合聚类算法的具体步骤如下:1)初始化:(1)针对文档?特征词二维矩阵,用X表示文档集合X={x1,x2,...,xm},Y表示特征词集合Y={y1,y2,...,yn},其中m为文档的总数,n为集合中特征词的个数,即文档向量的维度;(2)将m个文档分成P组,形成P个文档簇,分别记为c1,c2,...,CP,这P个簇组成的集合记为C,簇ci所包含的文档记为1≤i≤P,i为自然数,|ci|表示簇ci所包含的文档数目;将n个特征词分成Q组,形成Q个特征词簇,分别记为l1,l2,...,lQ,Q个簇组成的集合记为L,簇lj所 ...
【技术特征摘要】
1.一种基于联合聚类的煤矿舆情监测系统,该系统包括数据采集与内容过滤模块、数据预处理模块、煤矿舆情分析模块和舆情结果呈现模块,其中数据采集与内容过滤模块通过指定与煤矿相关的关键词、来源URL或信息主题,在源数据中过滤出煤矿领域信息;数据预处理模块包括正文抽取子模块、中文分词子模块、停用词过滤子模块、舆情热度提取子模块;煤矿舆情分析模块以数据预处理模块中的数据为基础,采用联合聚类算法发现舆情的热点;舆情结果呈现模块以图表或报告形式输出舆情结果;其特征在于:在煤矿舆情分析模块中,联合聚类算法的具体步骤如下: 1)初始化: (1)针对文档-特征词二维矩阵,用X表示文档集合X= (X1, X2,..., xj , Y表示特征词集合Y = Iy1,...
【专利技术属性】
技术研发人员:刘永利,贾宗璞,王建芳,韩秀娟,杜守恒,
申请(专利权)人:河南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。