本发明专利技术提出一种舆情分析方法,包括以下步骤:根据搜索请求搜索并读取网页文件;从网页文件中提取舆情信息;对舆情信息进行分类;对每个分类结果中的舆情信息进行进一步分析以得到每个分类结果中的舆情信息对应的起源、舆论情感色彩、网络扩散状态、发展趋势、地域信息和年龄段信息;根据对舆情信息的进一步分类结果以及预设的证据保全规则判断是否对舆情信息进行证据保全。本发明专利技术实施例的方法具有成本低、效率高、省时、准确性高及安全性高的优点。本发明专利技术还提供了一种舆情分析系统。
【技术实现步骤摘要】
本专利技术涉及计算机信息安全监测
,特别涉及一种舆情分析方法及系统。
技术介绍
目前市场上有不少舆情系统。从实现功能来看,很多以“监控”/“热点发现”/ “预警”为核心功能和宣传点,如谷尼国际软件开发的Goonie互联网舆情监控系统、中科点击开发的军犬网络舆情监控系统、北京拓尔思开发的TRS网络舆情监控系统、北大方正开发的方正智思一网络舆情互联网信息监控分析系统等。但限于目前国内外的研究现状,中文分词和自动聚类等算法还不成熟,准确性方面难以保证。“热点发现”其实不是网监部门开展舆情监测工作的难点和唯一的主要关心的功能,在多渠道海量信息的分析上做得不到位,所以难以满足本项目的需要。从需求分析来看,市面上很多舆情产品的厂商缺乏信息安全行业的背景,没有对舆情市场做经过科学严谨的需求调研,导致做出的产品功能大而全、缺乏深度、准确性也不够,不能满足客户的需求,从而导致市场推广的困难。总而言之,目前市场上的相关技术具有如下的缺点:(1)成本高、效率低及耗时;(2)侧重于舆情监控,需具备庞大的系统计算能力和系统建设成本;(3)舆情搜索不准确,搜索结果存在大量垃圾信息;(4)没有面向司法诉讼的电子证据保全功能。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此,本专利技术的一个目的在于提出一种具有成本低、效率高、省时、准确性高及安全性高的优点的舆情分析方法。本专利技术的第二个目的在于提供一种舆情分析系统。为了实现上述目的,本专利技术第一方面的实施例提出了一种舆情分析方法,包括以下步骤:根据搜索请求搜索并读取网页文件;从所述网页文件中提取舆情信息;对所述舆情信息进行分类;对每个分类结果中的舆情信息进行进一步分析以得到所述每个分类结果中的舆情信息对应的起源、舆论情感色彩、网络扩散状态、发展趋势、地域信息和年龄段信息;根据对所述舆情信息的进一步分类结果以及预设的证据保全规则判断是否对所述舆情信息进行证据保全。根据本专利技术实施例的舆情分析方法,根据搜索请求搜索并读取网页文件,并从该网页文件中提取舆情信息,然后对舆情信息进行分类,并对每个分类结果中的舆情信息做进一步分析以得到每个分类结果中的舆情信息对应的起源、舆论情感色彩、网络扩散状态、发展趋势、地域信息和年龄段信息,最后根据对舆情信息的进一步分类结果以及预设的证据保全规则判断是否对舆情信息进行证据保全。从而,本专利技术实施例的方法能够对舆情信息进行自动分析、统计、聚类等操作,具有成本低、效率高、省时的优点,该方法采用双重消息过滤机制,因此准确性高,另外,该方法具有电子证据保全功能,能够有效支撑司法诉讼,安全性较高。另外,根据本专利技术上述实施例的舆情分析方法还可以具有如下附加的技术特征:在一些示例中,通过网络爬虫搜索并读取所述网页文件。在一些示例中,所述舆情信息包括:作者、快照URL、标题、URL、收藏次数、回复次数、转发次数、所属板块、分类标签、内容摘要、来源和发布时间。在一些示例中,所述预设的证据保全规则包括:是否启用、对应媒体、开始时间、结束时间、作者列表、感情色彩和关键字。在一些示例中,当所述舆情信息的发布时间位于所述开始时间和所述结束时间、所述舆情信息的作者位于所述作者列表、所述舆情信息的发布媒体为所述对应媒体且所述舆情信息启动时,判断对所述舆情信息进行证据保全。本专利技术第二方面的实施例还提供了一种舆情分析系统,包括:读取模块,用于根据搜索请求搜索并读取网页文件;提取模块,用于从所述网页文件中提取舆情信息;分类模块,用于对所述舆情信息进行分类,并对每个分类结果中的舆情信息进行进一步分析以得到所述每个分类结果中的舆情信息对应的起源、舆论情感色彩、网络扩散状态、发展趋势、地域信息和年龄段信息;判断模块,用于根据对所述舆情信息的进一步分类结果以及预设的证据保全规则判断是否对所述舆情信息进行证据保全。根据本专利技术实施例的舆情分析系统,读取模块根据搜索请求搜索并读取网页文件,提取模块从该网页文件中提取舆情信息,然后分类模块对舆情信息进行分类,并对每个分类结果中的舆情信息做进一步分析以得到每个分类结果中的舆情信息对应的起源、舆论情感色彩、网络扩散状态、发展趋势、地域信息和年龄段信息,最后判断根据对舆情信息的进一步分类结果以及预设的证据保全规则判断是否对舆情信息进行证据保全。从而,本专利技术实施例的系统能够对舆情信息进行自动分析、统计、聚类等操作,具有成本低、效率高、省时的优点,该系统采用双重消息过滤机制,因此准确性高,另外,该系统具有电子证据保全功能,能够有效支撑司法诉讼,安全性较高。另外,根据本专利技术上述实施例的舆情分析系统还可以具有如下附加的技术特征:在一些示例中,所述读取模块通过网络爬虫搜索并读取所述网页文件。在一些示例中,所述舆情信息包括:作者、快照URL、标题、URL、收藏次数、回复次数、转发次数、所属板块、分类标签、内容摘要、来源和发布时间。在一些示例中,所述预设的证据保全规则包括:是否启用、对应媒体、开始时间、结束时间、作者列表、感情色彩和关键字。在一些示例中,所述判断模块用于:当所述舆情信息的发布时间位于所述开始时间和所述结束时间、所述舆情信息的作者位于所述作者列表、所述舆情信息的发布媒体为所述对应媒体且所述舆情信息启动时,判断对所述舆情信息进行证据保全。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。【附图说明】本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是根据本专利技术一个实施例的舆情分析方法的流程图;图2是根据本专利技术一个实施例的舆情分析方法的工作逻辑示意图;图3是根据本专利技术另一个实施例的舆情分析方法的整体工作逻辑示意图;以及图4是根据本专利技术一个实施例的舆情分析系统的结构框图。【具体实施方式】下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。参照下面的描述和附图,将清楚本专利技术的实施例的这些和其他方面。在这些描述和附图中,具体公开了本专利技术的实施例中的一些特定实施方式,来表示实施本专利技术的实施例的原理的一些方式,但是应当理解,本专利技术的本文档来自技高网...
【技术保护点】
一种舆情分析方法,其特征在于,包括以下步骤:根据搜索请求搜索并读取网页文件;从所述网页文件中提取舆情信息;对所述舆情信息进行分类;对每个分类结果中的舆情信息进行进一步分析以得到所述每个分类结果中的舆情信息对应的起源、舆论情感色彩、网络扩散状态、发展趋势、地域信息和年龄段信息;根据对所述舆情信息的进一步分类结果以及预设的证据保全规则判断是否对所述舆情信息进行证据保全。
【技术特征摘要】
【专利技术属性】
技术研发人员:张剑,王水兵,袁源,
申请(专利权)人:深圳市网安计算机安全检测技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。