一种识别网络小说中垃圾章节的方法及装置制造方法及图纸

技术编号:12930783 阅读:103 留言:0更新日期:2016-02-29 02:30
本发明专利技术适用于计算机技术领域,提供了一种识别网络小说中垃圾章节的方法及装置,所述方法包括:抓取网络小说数据;计算每一网络小说数据的ID,所述ID用于唯一标识一网络小说;获取每个ID对应的网络小说数据的章节名称;统计并计算相同章节名称对应的ID数量;识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。本发明专利技术实现可以及时、有效识别网络小说中垃圾章节。

【技术实现步骤摘要】
【专利摘要】本专利技术适用于计算机
,提供了一种识别网络小说中垃圾章节的方法及装置,所述方法包括:抓取网络小说数据;计算每一网络小说数据的ID,所述ID用于唯一标识一网络小说;获取每个ID对应的网络小说数据的章节名称;统计并计算相同章节名称对应的ID数量;识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。本专利技术实现可以及时、有效识别网络小说中垃圾章节。【专利说明】-种识别网络小说中垃圾章节的方法及装置
本专利技术属于计算机
,尤其涉及一种识别网络小说中垃圾章节的方法及装 置。
技术介绍
网络小说是一种新兴的小说体裁,随着网络的快速发展而出现,网络小说以网络 为基础平台,网络小说作者在小说网站发布小说,并不断对小说进行更新,以使网络读者进 行阅读,其特点为风格自由,文体不限,发表阅读方式较为简单。然而,很多网络小说中包括 很多的垃圾章节,这些垃圾章节的内容与小说内容本身并不相干,例如:网站广告、作者广 告、新书推荐等,十分影响小说的阅读。 现有技术,通常采用人工查询或者关键字查询的方式,去除网络小说中的垃圾章 节,然而,对于人工查询方式,查询速度较慢,当网络小说数量较多的时候,需要花费大量的 人工成本,花费很长时间去处理查找垃圾章节,因此,人工查询方式查询速度慢,无法及时 有效的发现垃圾章节;而使用关键字进行查询的方式,虽然可以发现包括预设垃圾关键词 的网络小说,但由于网络小说更新速度很快,小说中的垃圾关键字也不断更新,因此,关键 字查询方式也无法及时发现网络小说中的垃圾章节。综上,现有技术无法及时、有效的去除 网络小说中垃圾章节。
技术实现思路
本专利技术实施例的目的在于提供一种识别网络小说中垃圾章节的方法,旨在解决现 有技术无法及时、有效的去除网络小说中垃圾章节问题。 为了实现上述目的,本专利技术实施例提供如下技术方案: 本专利技术第一方面提供了一种识别网络小说中垃圾章节的方法,所述方法包括: 抓取网络小说数据; 计算每一网络小说数据的ID,所述ID用于唯一标识一网络小说; 获取每个ID对应的网络小说数据的章节名称; 统计并计算相同章节名称对应的ID数量; 识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。 本专利技术第二方面提供了一种识别网络小说中垃圾章节的装置,所述装置包括: 抓取单元,用于抓取网络小说数据; 计算单元,用于计算每一网络小说数据的ID,所述ID用于唯一标识一网络小说; 获取单元,用于获取每个ID对应的网络小说数据的章节名称; 计算单元,用于统计并计算相同章节名称对应的ID数量; 识别单元,用于识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。 本专利技术实施例与现有技术相比,有益效果在于:抓取网络小说数据,计算每一网络 小说数据的ID,所述ID用于唯一标识一本网络小说,获取每个ID对应的网络小说数据的章 节名称,统计并计算相同章节名称对应的ID数量,识别符合预设条件的章节名称和/或ID 数量的章节为垃圾章节。使得不需要人工参与,即可实现可以及时、有效识别网络小说中垃 圾章节。 【专利附图】【附图说明】 为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本 领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的 附图。 图1是本专利技术实施例一提供的识别网络小说中垃圾章节的方法的实现的流程图; 图2是本专利技术实施例二提供的识别网络小说中垃圾章节的方法的实现的流程图; 图3是本专利技术实施例三提供的识别网络小说中垃圾章节的装置的结构图; 图4是本专利技术实施例四提供的识别网络小说中垃圾章节的装置的结构图。 【具体实施方式】 为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并 不用于限定本专利技术。 本实施例中,通过计算每一网络小说数据的ID,统计并计算相同章节名称对应的 ID数量,识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。 以下结合具体实施例对本专利技术的实现进行详细描述: 实施例一 图1示出了本专利技术实施例一提供的识别网络小说中垃圾章节的方法的实现的流 程图,详述如下: 在S101中,抓取网络小说数据; 在S102中,计算每一网络小说数据的标识(Identify,ID),所述ID用于唯一标识 一网络小说; 本实施例中,优选的所述ID为小说名,或者小说名和作者名,其它的可以唯一标 识一本小说的数据均可以作为小说的网络数据。 在S103中,获取每个ID对应的网络小说数据的章节名称; 本实施例中,由于同一网络小说数据可能存储在不同的站点,因此,相同ID的网 络小说可以认为是相同的小说,为了避免相同ID的小说数据被多次统计,而影响后续统计 结果,S103优选的可以采用以下方式实现:获取不同ID对应的网络小说数据的章节名称, 具有相同ID对应的网络小说数据可以只获取一次。 本实施例中,所述章节名称可以包括章节名称的文字信息和/或数字信息。 本实施例中,获取后的每个ID对应的章节名称可以采用以下方式表示:{idl, chapterA}、{idl,chapterB}、{idl,chapterC}、{id2, chapterA,}、{id2, chapterB,}、{id2, chapterC,},……。 在S104中,统计并计算相同章节名称对应的ID数量; 本实施例中,统计S103中获取的章节名称中的每一章节对应的ID数量如下: {chapterA, {idl, id3, ···}}> {chapterB, {idl, id5, ···}}> {chapterC, {id2, id3, ···}},···; 则根据所述统计结果,计算每个章节名对应的ID数量(即相同章节名称出现在多少本小说 中)具体为:IchapterA,nl},{chapterB,n2},{chapterC,n3},…。 在S105中,识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。 本实施例中,抓取网络小说数据,计算每一网络小说数据的ID,所述ID用于唯一 标识一本网络小说,获取每个ID对应的网络小说数据的章节名称,统计并计算相同章节名 称对应的ID数量,识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。使得 不需要人工参与,即可实现可以及时、有效识别网络小说中垃圾章节。 实施例二 图2示出了本专利技术实施例一提供的识别网络小说中垃圾章节的方法的实现的流 程图,详述如下: 在S201中,抓取网络小说数据; 在 S202 中,通过信息摘要算法 5 (Message Digest Algorithm 5, MD5),计算每一网 络小说数据的ID,所述ID用于唯一标识一网络小说; 在S203中,获取每个ID对应的网络小说数据的章节名称; 在S204中,统计本文档来自技高网
...
一种识别网络小说中垃圾章节的方法及装置

【技术保护点】
一种识别网络小说中垃圾章节的方法,其特征在于,所述方法包括:抓取网络小说数据;计算每一网络小说数据的ID,所述ID用于唯一标识一网络小说;获取每个ID对应的网络小说数据的章节名称;统计并计算相同章节名称对应的ID数量;识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。

【技术特征摘要】

【专利技术属性】
技术研发人员:高健牛小彬
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1