一种识别网络小说中垃圾章节的方法及装置制造方法及图纸

技术编号：12930783 阅读：119 留言：0更新日期：2016-02-29 02:30

本发明专利技术适用于计算机技术领域，提供了一种识别网络小说中垃圾章节的方法及装置，所述方法包括：抓取网络小说数据；计算每一网络小说数据的ID，所述ID用于唯一标识一网络小说；获取每个ID对应的网络小说数据的章节名称；统计并计算相同章节名称对应的ID数量；识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。本发明专利技术实现可以及时、有效识别网络小说中垃圾章节。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术适用于计算机
，提供了一种识别网络小说中垃圾章节的方法及装置，所述方法包括：抓取网络小说数据；计算每一网络小说数据的ID，所述ID用于唯一标识一网络小说；获取每个ID对应的网络小说数据的章节名称；统计并计算相同章节名称对应的ID数量；识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。本专利技术实现可以及时、有效识别网络小说中垃圾章节。【专利说明】-种识别网络小说中垃圾章节的方法及装置
本专利技术属于计算机
，尤其涉及一种识别网络小说中垃圾章节的方法及装置。
技术介绍
网络小说是一种新兴的小说体裁，随着网络的快速发展而出现，网络小说以网络为基础平台，网络小说作者在小说网站发布小说，并不断对小说进行更新，以使网络读者进行阅读，其特点为风格自由，文体不限，发表阅读方式较为简单。然而，很多网络小说中包括很多的垃圾章节，这些垃圾章节的内容与小说内容本身并不相干，例如：网站广告、作者广告、新书推荐等，十分影响小说的阅读。现有技术，通常采用人工查询或者关键字查询的方式，去除网络小说中的垃圾章节，然而，对于人工查询方式，查询速度较慢，当网络小说数量较多的时候，需要花费大量的人工成本，花费很长时间去处理查找垃圾章节，因此，人工查询方式查询速度慢，无法及时有效的发现垃圾章节；而使用关键字进行查询的方式，虽然可以发现包括预设垃圾关键词的网络小说，但由于网络小说更新速度很快，小说中的垃圾关键字也不断更新，因此，关键字查询方式也无法及时发现网络小说中的垃圾章节。综上，现有技术无法...
一种识别网络小说中垃圾章节的方法及装置

【技术保护点】
一种识别网络小说中垃圾章节的方法，其特征在于，所述方法包括：抓取网络小说数据；计算每一网络小说数据的ID，所述ID用于唯一标识一网络小说；获取每个ID对应的网络小说数据的章节名称；统计并计算相同章节名称对应的ID数量；识别符合预设条件的章节名称和/或ID数量的章节为垃圾章节。

【技术特征摘要】

【专利技术属性】
技术研发人员：高健，牛小彬，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人