本发明专利技术公开了一种动态舆情关键词抽取系统及方法,包括抽取模块,映射模块,分词空间K3,计算模块,标记模块,抽取模块以用户输入的关键词进行目标信息的样本抽取,映射模块将抽取目标信息的文本信息映射到分词空间K3中进行分词处理,计算模块将分词处理后的中文词汇表达为向量,根据中文词汇的权重系数以及词频对中文词汇进行权重指数的计算,选取出标签关键词传送至标记模块,进行信息的标签关键词标记,并生成一索引文件,能够快速准确的生成标签关键词,进行目标信息的统计和标记,并生成方便用户查询的索引文件,用户可以进行后续信息的查询,只需要输入标签关键词便能够进行目标信息的快速查询。
【技术实现步骤摘要】
本专利技术涉及网络信息处理
,具体涉及。
技术介绍
网络舆情监控是指通过对网络各类信息汇集、分类、整合、筛选等技术处理,再形成对网络热点、动态、网民意见等实时统计报表的一个过程。网络舆情监控的背景随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。当今,信息传播与意见交互空前迅捷,网络舆论的表达诉求也日益多元。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。“网络舆情监测系统”是征对在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机监测的系统统称。“网络舆情”是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大,加强互联网信息监管的同时,组织力量开展信息汇集整理和分析,对于及时应对网络突发的公共事件和全面掌握社情民意很有意义。舆情监控系统的一般工作流程如下:1.信息采集:互联网信息(新闻、论坛等)的实时监测、采集、内容提取、下载及排重。2.信息处理:对抓取的内容进行自动分类聚类、关键词过滤、主题检测、专题聚焦坐寸o3.信息服务:将采集并分析整理后的信息直接为用户或为用户辅助编辑提供信息服务。一般的舆情监控系统都会有一个对网络信息进行处理的时候都会有一个关键词过滤的过程,以关键词突出并标记本网络信息的类别,或用关键词当做信息的标签。因此,需要有一种关键词抽取的方法,来准确识别网络文本信息或视频信息中的关键词。
技术实现思路
本专利技术的目的是提供一种能够快速准确查找网络信息关键词的动态舆情关键词抽取系统和方法。为达到以上目的,本专利技术采用的技术方案是:一种动态舆情关键词抽取系统,其特征在于:包括抽取模块,映射模块,分词空间,计算模块,标记模块,抽取模块以用户输入的关键词进行目标信息的样本抽取,映射模块将抽取目标信息的文本信息映射到分词空间中进行分词处理,计算模块将分词处理后的中文词汇表达为向量,根据中文词汇的权重系数以及词频对中文词汇进行权重指数的计算,选取出标签关键词传送至标记模块,进行信息的标签关键词标记,并生成一索引文件。所述的目标信息是用户以特定关键词搜索到的网页文本信息,或者视频转化文本后的文本信息。所述的映射模块将文本信息映射到分词空间中,采用中文分词技术对文本中的整句话进行分词处理,分成若干中文词汇。所述的映射模块将分词后的中文词汇进行预处理,去掉高频词汇。所述的高频词汇包括“ 的”一类的无实际意义的副词、介词、连词、助词、叹词等虚词o所述的计算模块将对去掉高频词后的中文分词结果进行信息熵计算,所述的信息熵计算即将中文分词结果的单个词语计算器权重系数后表达为向量,抽取其特征向量。所述的权重系数中,是根据中文词汇的词性、出现位置、词频、地名、人名、分词特征、专有名词等要素自动给出的,各要素的权重系数是由用户结合样本的特点设定的。所述的计算模块将目标信息中文分词处理后的包含的所有中文词汇的权重指数进行归一化处理,并根据归一化后的权重指数进行排序,并筛选出标签关键词。所述的标记模块根据目标信息的标签关键词对目标信息进行关键词标记,统计成一个方便用户查询的索引文件。具有上述的一种动态舆情关键词抽取系统的动态舆情关键词抽取方法,其特征在于:包括如下步骤:(I)、用户输入查询关键词至抽取模块,抽取模块搜索出目标信息,并生成目标信息的网页文本信息或者是视频转化文本信息;( 2 )、映射模块将文本信息映射到中文分词空间中进行分词处理成若干中文词汇,并去掉一些介词或虚词等无实际意义词性的高频词;(3)、计算模块对将去掉高频词后的中文分词结果进行分词计算,即将文本向量化,抽取其特征向量;(4)、计算模块将目标信息中文分词处理后的包含的所有中文词汇的权重指数进行归一化处理,并根据归一化后的权重指数进行排序,并筛选出标签关键词;(5)、标记模块根据目标信息的标签关键词对目标信息进行关键词标记,统计成一个方便用户查询的索引文件。本专利技术的,能够快速准确的生成标签关键词,进行目标信息的统计和标记,并生成方便用户查询的索引文件,用户可以后续进行信息的查询,只需要输入标签关键词便能够进行目标信息的查询。附图说明图1、本专利技术的一种动态舆情关键词抽取系统示意图;图2、本专利技术的一种动态舆情关键词抽取方法流程图具体实施例方式下面集合附图对本专利技术的进行详细描述:如图1所示,本专利技术的一种动态舆情关键词抽取系统包括抽取模块K1,映射模块K2,分词空间K3,计算模块K4,标记模块K5,抽取模块Kl以用户输入的关键词进行目标信息的抽取,目标信息是用户以特定关键词搜索到的网页文本信息,或者视频转化文本后的文本信息。映射模块K2将抽取到的目标信息的文本信息映射到分词空间K3中采用中文分词技术对文本中的整句话进行分词处理,分成若干中文词汇,将分词后的中文词汇进行预处理,去掉高频词汇包括“的” 一类的介词或虚词。计算模块K4对将去掉高频词后的中文分词结果进行分词计算,即将中文分词结果的单个词语表达为向量,抽取其特征向量,并根据其权重系数和词频计算词语的权重指数。权重系数中,部分关键词汇的权重系数是由用户设定的,其他中文词汇的权重系数是根据中文词汇所述词性、出现位置、词频、地名、人名、分词特征、专有名词自动给出的。计算模块K4根据中文词汇的权重系数以及词频对中文词汇进行权重指数的计算,选取出标签关键词传送至标记模块K5,进行信息的标签关键词标记,并生成一索引文件。计算模块K4将目标信息中文分词处理后的包含的所有中文词汇的权重指数进行归一化处理,并根据归一化后第二权重指数进行排序,并筛选出标签关键词。标记模块K5根据目标信息的标签关键词对目标信息进行关键词标记,统计成一个方便用户查询的索引文件。如图2所示,本专利技术的一种动态舆情关键词抽取系统的动态舆情关键词抽取方法,其特征在于:包括如下步骤:(I)、用户输入查询关键词至抽取模块,抽取模块搜索出目标信息,并生成目标信息的网页文本信息或者是视频转化文本信息,如图2中所示的stepl ;(2)、映射模块K2将文本信息映射到中文分词空间K3中进行分词处理成若干中文词汇,并去掉一些介词或虚词词性的高频词;如图2中所示的step2 ;(3)、计算模块K4对将去掉高频词后的中文分词结果进行分词计算,即将中文分词结果的单个词语表达为向量,抽取其特征向量,并根据其权重系数和词频计算词语的权重指数;如图2中所示的st印3 ;(4)、计算模块K4将目标信息中文分词处理后的包含的所有中文词本文档来自技高网...
【技术保护点】
一种动态舆情关键词抽取系统,其特征在于:包括抽取模块,映射模块,分词空间,计算模块,标记模块,抽取模块以用户输入的关键词进行目标信息的样本抽取,映射模块将抽取目标信息的文本信息映射到分词空间中进行分词处理,计算模块将分词处理后的中文词汇表达为向量,根据中文词汇的权重系数以及词频对中文词汇进行权重指数的计算,选取出标签关键词传送至标记模块,进行信息的标签关键词标记,并生成一索引文件。
【技术特征摘要】
【专利技术属性】
技术研发人员:赵树合,杨小豹,巩在飞,
申请(专利权)人:中联竞成北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。