一种网文统计的方法及系统技术方案

技术编号:3854605 阅读:229 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种网文统计的方法及系统,其中,将内容相似的网文聚类为同类网文组,计算所述同类网文组中各网文的网文统计系统NASS值和各个同类网文组的NASS总值,根据所述各个同类网文组的NASS总值对各个同类网文组的排序。本发明专利技术实施例提供给用户相关主题的网文,发现舆论热点,既能避免漏掉重要的网文,又大大提高用户阅读的效率,节省用户的时间。

【技术实现步骤摘要】

本专利技术涉及互联网技术,特别涉及一种互联网中网文统计的方法及系统
技术介绍
上世纪90年代以来,随着互联网在全世界范围内的大规模商业化应用, 越来越多的人从互联网上获取信息。今天,互联网已经逐渐取代报纸、杂志 和广播电视等传统媒体,成为重要的和具有强大影响力的媒体。通过互联网 获取新闻或其他信息己经成为人们获取最新资讯的重要方式。发布在互联网上的文章,包括各种博客、论坛帖文和新闻等网络文章, 以下统称为网文,具有发布迅速、更新快捷、容量大、阅传播迅速、阅读者 可以跟帖发表评论等诸多传统媒体无法具备的优势。也正是这个优势,又成为了网文的弱势由于网文数量巨大、品质参差不齐,使阅读网文的读者往往有堕入信息海洋无法自拔的感觉。据不完全统计,全球大约300个比较重 要的中文新闻及综合网站,每天发布各类网文超过20万条, 一般阅读者即使 花费大量的时间,可能也无法从数量众多的网文中获取某一事件的比较完整 的信息,或者发现自己感兴趣的网文。对同一般的网络阅读者来说,不同网站发布的关于同一主题、内容类似 的网文,没有特别的意义。但是从网络媒体影响力的角度看,由于不同网站 有着自己特定的读者群,所以大量重复发布的网文,对于扩大网站影响力、 增大网站的流量等方面有着重要的意义。对于传统媒体,定量计算内容一样 的报刊文章或电视新闻等的影响力,是一件十分困难的事情。今天,计算机 技术的发展和互联网的普及给我们提供了这个可能。按照经典的新闻传播理论,媒体的议题设置不会改变受众对于议题的看 法,但是议题设置会引起受众的关注并大大影响读者的思考点,这恰恰是媒 体舆论引导的作用所在。通过对网络媒体上大量发布的网文进行实时的内容 分析,我们就有可能总结出网文和读者各自议题设置的特点,从而可以分析 出舆论的走向、甚至能够引导舆论。事实上,目前还没有一家机构或网站,系统全面地使用计算机技术针对各 类网站的大量网文进行实时、定性和定量地分析网文的内容,并按照议题设 置的理论来重新排列网文或分析出舆论走向。由于每个网站编辑安排议题设 置的理念和规则不同,所以每个网站发布的网文所反映出的新闻集合与重要 性也有很大不同,所以,网文读者比较难获取当日或一段时期内的各个事件 的完整信息,也无法定量地比较两个新闻事件或不同主题的网文的影响力的 大小。
技术实现思路
本专利技术实施例提供一种网文统计的方法,用于解决互联网中信息量太大 而使阅读效率低,容易漏掉重要信息的问题。为了解决上述问题,本专利技术提供了一种网文统计的方法,其中,包括-将内容相似的网文聚类为同类网文组;计算所述同类网文组中各网文的网文统计系统NASS值和各个同类网文组 的NASS总值;根据所述各个同类网文组的NASS总值对各个同类网文组的排序。 本专利技术实施例的网文统计的方法通过将内容相似的网文聚类、计算网文 的NASS值和各个同类网文组的NASS总值,并对同类网文组排序,使用户比 较容易找到相关的网文,不仅大大提高了用户阅读的效率,又能避免漏掉重 要的网文。本专利技术实施例还提供了一种网文统计系统,其中,包括聚类模块,用于将内容相似的网文聚类为同类网文组;计算模块,用于计算所述同类网文组中各网文的NASS值和各个同类网文 组的NASS总值;排列模块,用于根据所述各个同类网文组的NASS总值对各个同类网文组 的排序。本专利技术实施例通过聚类模块将内容相似的网文聚类为同类网文组,计算 各个同类网文组的NASS总值,并根据同类网文组的NASS总值重新排列网文的位置,使用户比较容易找到最受关注(或者其它条件)的网文,发现舆论 热点,既能避免漏掉重要的网文,又大大提高了用户阅读的效率,节省了用 户的时间。附图说明图1为本专利技术实施例的网文统计的方法具体实施例的流程图; 图2为本专利技术实施例的网文统计的方法具体实施例的参量对照表; 图3为本专利技术实施例的网文统计系统的具体实施例一的结构示意图; 图4为本专利技术实施例的网文统计系统的具体实施例二的结构示意图5为本专利技术实施例的网文统计系统的具体实施例三的参量对照表。具体实施例方式下面通过附图和实施例,对本专利技术的技术方案做进一步地详细描述。 本专利技术实施例的网文统计的方法具体实施例一 图1为本专利技术实施例的网文统计的方法具体实施例的流程图。如图1所 示,本专利技术实施例的网文统计的方法包括-步骤IOI、将内容相似的网文聚类为同类网文组。从网站中搜取一定数量的网文,对搜取的网文进行内容分析,然后将内 容相似的网文聚类为同类网文组,内容相似的网文例如为涉及同一个主题的网文,可以通过各网文中是否包含相同的关键字来确定网文的内容是否相似, 也可以根据网文题目中是否包含相同的关键字等来确定网文的内容是否相 似。获取所搜取网文的参量和/或发布网文的网站的参量,网文的参量包括网 文的发布时间、保留时间,阅读指数值和/或回帖指数值等,发布网文的网站 的参量包括网站的权威指数值、排名指数值和/或版位指数值等。也可以按照 预定的主题将网文聚类,使网文按照不同的主题进行分门别类,以便于用户 查找和阅读相关网文,这些预定主题包括行业、企业、人物、产品、国家、 艺术等,例如在以行业聚类时,可以将制造业、服务业、农业作为聚类的预 定主题,也可以根据网文的内容自动地将内容相似的网文进行聚类。步骤102、计算网文的NASS值和各个同类网文组的NASS总值。 将所搜取网文的参量和发布网文的网站的参量与参量对照表一一对应, 图2为本专利技术实施例的网文统计的方法具体实施例的参量对照表,然后根据 NASS计算来计算各网文的NASS值和各个同类网文组的NASS总值,计算各网 文的NASS值和计算该同类网文组的NASS总值的计算公式分别如计算公式(l) 和计算公式(2)所示<formula>formula see original document page 7</formula>(1)<formula>formula see original document page 7</formula> (2)其中,W为代表第i组网文网文组的NASS值,/u'为代表第i组网文中 第J'条网文的NASS值,/l;'为代表发布第J条网文的网站权威的权威指数值, 网站权威指数值是根据网站的影响力确定的数值,例如该网站是否是政府机 构的网站等因素确定的,网站排名越靠前说明网站的影响力越大其网站权威 指数值就越高;T7为代表发布第J'条网文的网站的流量排名的排名指数值, 流量排名的名次越靠前,说明阅览该网站的用户越多其排名指数值就越高; 7 J'为代表第J'条网文的回帖数量的回帖指数值,如果该条网文的回帖数量越 多其回帖指数值越大;A/为代表第y条网文在网站的版位位置的版位指数值,排版顺序越显著的网文(例如头条位置)版位指数值就越大;o'为代表第y 条网文保留时间的保留时间指数值,保留时间越长的网文说明其越重要或者越受大众关注,其保留时间指数值也就越高;a为代表发布网文的网站的影响力大小的权威指数权重值,^为代表发布第y条网文的网站的流量排名的 排名指数权重值,r为代表网文回帖数量的回帖指数权重值。每一种网文参 量或者网站参量都可以具有其自己的指数权重值,在不同的应用中可以根据不同的要求本文档来自技高网
...

【技术保护点】
一种网文统计的方法,其特征在于,包括: 将内容相似的网文聚类为同类网文组; 计算所述同类网文组中各网文的网文统计系统NASS值和各个同类网文组的NASS总值; 根据所述各个同类网文组的NASS总值对各个同类网文组排序。

【技术特征摘要】

【专利技术属性】
技术研发人员:王稼夫
申请(专利权)人:北京精讯云顿数据软件有限公司
类型:发明
国别省市:11[中国|北京]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1