本发明专利技术公开了一种互联网新闻的去重方法,包括以下步骤:为第一个新闻创建新闻分组,新闻分组中包括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;将新增的当前新闻中的关键词集合与符合比较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;比较条件之一为所有已创建的新闻分组;新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。本发明专利技术通过识别重复的新闻,将相同的新闻放在一起与其他不同的新闻进行区分,从而达到新闻去重的目的。
【技术实现步骤摘要】
本专利技术涉及计算机信息处理领域,具体涉及一种互联网新闻的去重方法和装置。
技术介绍
随着移动互联网技术的发展,如今,人们越来越多地通过手机等终端设备浏览新闻,由于受手机设备屏幕小的限制,受众阅读碎片化导致新闻文本叙事碎片化。以往,人们消费新闻的时间、场景相对比较固定,比如在晚饭时观看电视新闻,在早饭时浏览报纸新闻或听早间广播等,到了移动互联网时代,受众新闻消费呈现出高度的离散性,手机等便携移动终端的使用和公共休闲场所或是公共交通工具上无线网络的覆盖使得新闻受众能在任何时间、任何地点获取新闻。而这些获取新闻的时间通常是碎片化的,长则一个小时短则几分钟,如果一则消息不能在短短的几秒内抓住受众的注意力,那么移动网络的刷新功能会立刻用其它信息覆盖这条消息。互联网上的内容每天都处于快速的增长之中,这给搜索引擎带来了全新的挑战。在推送新闻时首先需要避免把重复的新闻推送给用户,因此如何识别重复的新闻是关键。
技术实现思路
为了克服现有技术的不足,本专利技术的目的在于提供一种互联网新闻的去重方法和装置,通过识别重复的新闻,将相同的新闻放在一起与其他不同的新闻进行区分,从而达到新闻去重的目的。为解决上述问题,本专利技术所采用的技术方案如下:方案一:互联网新闻的去重方法,包括以下步骤:S1、为第一个新闻创建新闻分组,新闻分组中包括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;S2、将新增的当前新闻中的关键词集合与符合比较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;若比较相似度小于预设阈值,则为当前新闻创建新的新闻分组;比较条件之一为所有已创建的新闻分组;S3、新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。优选的,新闻分组中还包括更新时间,更新时间是指新闻分组中所有新闻中最新的发布时间;在步骤S2中,比较条件之二为当前新闻的发布时间与新闻分组中的更新时间的时间差小于预设时间差;在步骤S3中,还更新该新闻分组中的更新时间。优选的,新闻中的关键词集合通过以下方式组成:利用TextRank算法识别新闻中的关键词,以权重大小顺序取前N个关键词组成该新闻的关键词集合,其中,N>0。方案二:互联网新闻的去重装置,包括以下模块:新建分组模块:用于为第一个新闻创建新闻分组,新闻分组中包
括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;比较执行模块:用于将新增的当前新闻中的关键词集合与符合比较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;若比较相似度小于预设阈值,则为当前新闻创建新的新闻分组;比较条件之一为所有已创建的新闻分组;更新模块:用于当新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。优选的,新闻分组中还包括更新时间,更新时间是指新闻分组中所有新闻中最新的发布时间;在比较执行模块中,比较条件之二为当前新闻的发布时间与新闻分组中的更新时间的时间差小于预设时间差;在更新模块中,还更新该新闻分组中的更新时间。优选的,新闻中的关键词集合通过以下方式组成:利用TextRank算法识别新闻中的关键词,以权重大小顺序取前N个关键词组成该新闻的关键词集合,其中,N>0。相比现有技术,本专利技术的有益效果在于:通过关键词比较和限定时间跨度识别重复的新闻,将相同的新闻放在一起与其他不同的新闻进行区分,从而达到新闻去重的目的。附图说明图1为本专利技术的互联网新闻的去重方法的流程图。具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述:参考图1,一种互联网新闻的去重方法,包括以下步骤:S1、为第一个新闻创建新闻分组,新闻分组中包括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;S2、将新增的当前新闻中的关键词集合与符合比较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;若比较相似度小于预设阈值,则为当前新闻创建新的新闻分组;比较条件之一为所有已创建的新闻分组;S3、新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。经过上述步骤,得到多个新闻分组,在同一新闻分组中的新闻为相同新闻。进一步的,新闻分组中还包括更新时间,更新时间是指新闻分组中所有新闻中最新的发布时间;在步骤S2中,比较条件之二为当前新闻的发布时间与新闻分组中的更新时间的时间差小于预设时间差;条件二的作用是避免将时间跨度过长的新闻放进一个新闻分组中,因为时间跨度过长的而且在后发布的新闻已经不算是新闻了。在步骤S3中,还更新该新闻分组中的更新时间。新闻中的关键词集合通过以下方式组成:利用TextRank算法识别新闻中的关键词,以权重大小顺序取前N个关键词组成该新闻的关
键词集合,其中,N>0,TextRank算法是在Google核心算法PageRank算法的基础上衍生出来的。例如,当前存在两个新闻分组,每个新闻分组中都有两个新闻,则表示两个新闻分组之间是不相同的新闻,同一个新闻分组中的新闻是相同的新闻。当前新增了一个新闻,如果两个新闻分组的更新时间都符合时间条件,则该新闻中的关键词集合分别与两个新闻分组中的关键词表进行相似度比较,相似度比较为现有算法,比较后该关键词集合与第一个新闻分组中的关键词表的相似度大于预设阈值,则认为该新闻与第一个新闻分组中的新闻为相同新闻。然后将该新闻放入第一个新闻分组中,该新闻的发布时间比第一个新闻分组中的新闻的发布时间都晚,则将该新闻的发布时间作为第一个新闻分组的更新时间。另外,该新闻的关键词集合也合并进第一个新闻分组的关键词表中。本专利技术的方法优点在于:通过关键词比较和限定时间跨度识别重复的新闻,将相同的新闻放在一起与其他不同的新闻进行区分,从而达到新闻去重的目的。对应于上述的互联网新闻的去重方法,本专利技术还公开了一种互联网新闻的去重装置,包括以下模块:新建分组模块:用于为第一个新闻创建新闻分组,新闻分组中包括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;比较执行模块:用于将新增的当前新闻中的关键词集合与符合比
较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;若比较相似度小于预设阈值,则为当前新闻创建新的新闻分组;比较条件之一为所有已创建的新闻分组;更新模块:用于当新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。优选的,新闻分组中还包括更新时间,更新时间是指新闻分组中所有新闻中最新的发布时间;在比较执行模块中,比较条件之二为当前新闻的发布时间与新闻分组中的更新时间的时间差小于预设时间差;在更新模块中,还更新该新闻分组中的更新时间。优选的,新闻中的关键词集合通过以下方式组成:利用TextRank算法识别新闻中的关键词,以权重大小顺序取前N个关键词组成该新闻的关键词集合,其中,N>0。对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本专利技术权利要求的保护范围之内。本文档来自技高网...
【技术保护点】
互联网新闻的去重方法,其特征在于,包括以下步骤:S1、为第一个新闻创建新闻分组,新闻分组中包括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;S2、将新增的当前新闻中的关键词集合与符合比较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;若比较相似度小于预设阈值,则为当前新闻创建新的新闻分组;比较条件之一为所有已创建的新闻分组;S3、新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。
【技术特征摘要】
1.互联网新闻的去重方法,其特征在于,包括以下步骤:S1、为第一个新闻创建新闻分组,新闻分组中包括新闻和关键词表,其中,关键词表由新闻分组中每个新闻中的关键词集合组成;S2、将新增的当前新闻中的关键词集合与符合比较条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前新闻放入对应的新闻分组中;若比较相似度小于预设阈值,则为当前新闻创建新的新闻分组;比较条件之一为所有已创建的新闻分组;S3、新闻分组中新增加新闻后,则对应更新该新闻分组中的关键词表。2.根据权利要求1所述的互联网新闻的去重方法,其特征在于,新闻分组中还包括更新时间,更新时间是指新闻分组中所有新闻中最新的发布时间;在步骤S2中,比较条件之二为当前新闻的发布时间与新闻分组中的更新时间的时间差小于预设时间差;在步骤S3中,还更新该新闻分组中的更新时间。3.根据权利要求1或2所述的互联网新闻的去重方法,其特征在于,新闻中的关键词集合通过以下方式组成:利用TextRank算法识别新闻中的关键词,以权重大小顺序取前N个关键词组成该新闻的关键词集合,其中,N>0。4.互联网新闻的去重装置...
【专利技术属性】
技术研发人员:石忠民,江云辉,
申请(专利权)人:广州索答信息科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。