新闻链接的提取方法及装置、存储介质及电子设备制造方法及图纸

技术编号:39242511 阅读:14 留言:0更新日期:2023-10-30 11:55
本公开提供了一种新闻链接的提取方法、装置、电子设备及存储介质,涉及计算机技术领域。该方法包括:获取新闻网站主页的主页链接;根据主页链接进行链接数据提取,获得新闻网站主页的主页新闻链接提取结果、主页非新闻链接提取结果以及主页新闻链接更新速度;根据主页非新闻链接提取结果以及主页新闻链接更新速度,判断新闻网站主页中是否存在新闻板块页面;在存在新闻板块页面的情况下,提取新闻板块页面中的板块页新闻链接提取结果;根据主页新闻链接提取结果和板块页新闻链接提取结果确定新闻网站主页的网站新闻链接提取结果。该方法可以持续高效且全面地输出新闻网站主页中全部的网站新闻链接提取结果。的网站新闻链接提取结果。的网站新闻链接提取结果。

【技术实现步骤摘要】
新闻链接的提取方法及装置、存储介质及电子设备


[0001]本公开涉及计算机
,尤其涉及一种新闻链接的提取方法及装置、存储介质及电子设备。

技术介绍

[0002]随着计算机技术与互联网技术的发展,通过新闻网站浏览信息已成为一种获取新闻的重要途径。
[0003]相关技术中,可以通过分析网页结构结合人工标注的方式来提取新闻网站中的新闻链接。其中,由于不同的网站拥有完全不同的网站组织结构,在一个新闻网站上人工标注的位置信息无法迁移到其他新闻网站上,因此该方式可复用性较差;且人工标注的过程耗时耗力,准确性低。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的目的在于提供一种新闻链接的提取方法、装置、电子设备及存储介质,以持续高效且全面地输出新闻网站主页中全部的网站新闻链接提取结果。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的一个方面,提供一种新闻链接的提取方法,包括:获取新闻网站主页的主页链接;根据主页链接进行链接数据提取,获得新闻网站主页的主页新闻链接提取结果、主页非新闻链接提取结果以及主页新闻链接更新速度;根据主页非新闻链接提取结果以及主页新闻链接更新速度,判断新闻网站主页中是否存在新闻板块页面;在存在新闻板块页面的情况下,提取新闻板块页面中的板块页新闻链接提取结果;根据主页新闻链接提取结果和板块页新闻链接提取结果确定新闻网站主页的网站新闻链接提取结果。
[0008]在本公开一个实施例中,根据主页非新闻链接提取结果以及主页新闻链接更新速度,判断新闻网站主页中是否存在新闻板块页面,包括:根据主页非新闻链接提取结果中的各个主页非新闻链接进行链接数据提取,获得各个主页非新闻链接所指向子页面的子页面新闻更新速度;若子页面中存在子页面新闻更新速度与主页新闻链接更新速度的比值大于更新阈值的目标子页面,则确定新闻网站主页中存在新闻板块页面,以及将目标子页面确定为新闻板块页面。
[0009]在本公开一个实施例中,根据主页链接进行链接数据提取,获得新闻网站主页的主页新闻链接提取结果,包括:基于预设提取频率确定多个提取时刻,并根据主页链接获得新闻网站主页在各个提取时刻的同域名链接集合;在当前提取时刻,利用预设的新闻提取滑动窗口获得第一预设数量个同域名链接集合;其中,第一预设数量个同域名链接集合对应于当前提取时刻及其之前的提取时刻;根据第一预设数量个同域名链接集合获得当前提
取时刻的新增主页新闻链接;以当前提取时刻的新增主页新闻链接,作为新闻网站主页的主页新闻链接提取结果进行输出。
[0010]在本公开一个实施例中,第一预设数量为2;第一预设数量个同域名链接集合包括当前提取时刻的当前同域名链接集合和当前提取时刻的上一时刻的上一同域名链接集合;其中,根据第一预设数量个同域名链接集合获得当前提取时刻的新增主页新闻链接,包括:确定当前同域名链接集合与上一同域名链接集合之间的差集;根据差集中的链接确定当前提取时刻的新增主页新闻链接。
[0011]在本公开一个实施例中,根据主页链接进行链接提取,获得新闻网站主页的主页非新闻链接提取结果,包括:在当前提取时刻,利用预设的非新闻提取滑动窗口获得第二预设数量个同域名链接集合;其中,第二预设数量个同域名链接集合对应于当前提取时刻及其之前的提取时刻;根据第二预设数量个同域名链接集合获得当前提取时刻的主页非新闻链接;以当前提取时刻的主页非新闻链接,作为新闻网站主页的主页非新闻链接提取结果进行输出。
[0012]在本公开一个实施例中,第二预设数量大于第一预设数量;其中,根据第二预设数量个同域名链接集合获得当前提取时刻的主页非新闻链接,包括:确定第二预设数量个同域名链接集合的交集;根据交集中的链接确定当前提取时刻的主页非新闻链接。
[0013]在本公开一个实施例中,根据主页链接进行链接数据提取,获得新闻网站主页的主页新闻链接更新速度,包括:获取包含当前提取时刻的预设时段,并确定预设时段内提取时刻的提取总次数;根据预设时段内所有提取时刻的新增主页新闻链接确定新增主页新闻链接总量;根据新增主页新闻链接总量和提取总次数确定新闻网站主页在预设时段的主页新闻链接更新速度。
[0014]根据本公开的另一个方面,提供一种新闻链接的提取装置,包括:获取模块,用于获取新闻网站主页的主页链接;主页链接数据提取模块,用于根据主页链接进行链接数据提取,获得新闻网站主页的主页新闻链接提取结果、主页非新闻链接提取结果以及主页新闻链接更新速度;判断模块,用于根据主页非新闻链接提取结果以及主页新闻链接更新速度,判断新闻网站主页中是否存在新闻板块页面;板块链接提取模块,用于在存在新闻板块页面的情况下,提取新闻板块页面中的板块页新闻链接提取结果;确定模块,用于根据主页新闻链接提取结果和板块页新闻链接提取结果确定新闻网站主页的网站新闻链接提取结果。
[0015]根据本公开的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的新闻链接的提取方法。
[0016]根据本公开的再一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述的新闻链接的提取方法。
[0017]本公开的实施例所提供的新闻链接的提取方法,能够先对新闻网站主页进行链接数据提取,得到主页的主页新闻链接提取结果、主页非新闻链接提取结果以及主页新闻链接更新速度,然后根据主页非新闻链接提取结果以及主页新闻链接更新速度进一步判断新闻网站主页中是否存在新闻板块页面,并在存在的情况下再提取新闻板块页面中的板块页新闻链接提取结果,进而将主页新闻链接提取结果和板块页新闻链接提取结果共同作为新
闻网站主页最终的网站新闻链接提取结果以进行输出。本方法可以自动高效地获得各个提取时刻的新增主页新闻链接、快速判断出新闻网站主页中是否还存在新闻板块页面,然后自动高效地获得新闻板块页面中的板块页新闻链接提取结果;可见,本方法不仅可以快速获得新闻网站主页中的新闻链接,还可以挖掘新闻网站主页中的新闻板块页面,并快速获得新闻板块页面中的新闻链接,从而可以持续高效且全面地输出新闻网站主页中全部的网站新闻链接提取结果。
[0018]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0019]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1示出了可以应用本公开实施例的新闻链接的提取方法的示例性系统架构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新闻链接的提取方法,其特征在于,包括:获取新闻网站主页的主页链接;根据所述主页链接进行链接数据提取,获得所述新闻网站主页的主页新闻链接提取结果、主页非新闻链接提取结果以及主页新闻链接更新速度;根据所述主页非新闻链接提取结果以及主页新闻链接更新速度,判断所述新闻网站主页中是否存在新闻板块页面;在存在新闻板块页面的情况下,提取所述新闻板块页面中的板块页新闻链接提取结果;根据所述主页新闻链接提取结果和所述板块页新闻链接提取结果确定所述新闻网站主页的网站新闻链接提取结果。2.根据权利要求1所述的方法,其特征在于,根据所述主页非新闻链接提取结果以及主页新闻链接更新速度,判断所述新闻网站主页中是否存在新闻板块页面,包括:根据所述主页非新闻链接提取结果中的各个主页非新闻链接进行链接数据提取,获得各个主页非新闻链接所指向子页面的子页面新闻更新速度;若所述子页面中存在子页面新闻更新速度与所述主页新闻链接更新速度的比值大于更新阈值的目标子页面,则确定所述新闻网站主页中存在新闻板块页面,以及将所述目标子页面确定为新闻板块页面。3.根据权利要求1或2所述的方法,其特征在于,根据所述主页链接进行链接数据提取,获得所述新闻网站主页的主页新闻链接提取结果,包括:基于预设提取频率确定多个提取时刻,并根据所述主页链接获得所述新闻网站主页在各个提取时刻的同域名链接集合;在当前提取时刻,利用预设的新闻提取滑动窗口获得第一预设数量个同域名链接集合;其中,第一预设数量个同域名链接集合对应于所述当前提取时刻及其之前的提取时刻;根据所述第一预设数量个同域名链接集合获得所述当前提取时刻的新增主页新闻链接;以所述当前提取时刻的新增主页新闻链接,作为所述新闻网站主页的主页新闻链接提取结果进行输出。4.根据权利要求3所述的方法,其特征在于,所述第一预设数量为2;所述第一预设数量个同域名链接集合包括所述当前提取时刻的当前同域名链接集合和所述当前提取时刻的上一时刻的上一同域名链接集合;其中,根据所述第一预设数量个同域名链接集合获得所述当前提取时刻的新增主页新闻链接,包括:确定所述当前同域名链接集合与所述上一同域名链接集合之间的差集;根据所述差集中的链接确定所述当前提取时刻的新增主页新闻链接。5.根据权利要求3所述的方法,其特征在于,根据所述主页链接进行链接提取,获...

【专利技术属性】
技术研发人员:巩朋贤李顺吴若冰裘骐李茁
申请(专利权)人:国际关系学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1