【技术实现步骤摘要】
网络爬虫过滤方法及其设备
[0001]本申请涉及网络爬虫技术,具体地,利用机器学习技术分析网页与网络爬虫目标的相似性来构建爬虫
‑
过滤方法,以及实施该方法的信息处理设备。
技术介绍
[0002]随着互联网和移动互联网的飞速发展,产生了海量的数据。为了让用户能够快速和方便地在海量数据中查询和获取信息,以搜索引擎为代表的网络信息获取和检索技术,极大推进了信息的交流和共享进程。以谷歌、百度为代表的商业搜索引擎为例,根据一定的策略,运用特定的信息获取程序即网络爬虫(Olston C and Najork M.Web Crawling,Foundations andin Information Retrieval:Vol.4:No.3,pp 175
‑
246.http://dx.doi.org/10.1561/1500000017),从整个互联网上搜集信息,建立网页数据库和目录(索引),为用户提供检索服务,并将用户搜索的相关的信息提供给用户。但是,在现阶段,传统商业搜索引擎无法在一个特定领域的提供精确搜索能力,随之出现垂直搜索引擎。垂直搜索引擎为用户提供的并不是上百万甚至上千万网页内容检索,而是提供在小的范围内,极具针对性的特定领域中查找信息的服务。
[0003]无论是商业搜索引擎海还是垂直搜索引擎,网络爬虫技术是搜索引擎技术的重要组成部分,可以在网络内容的海洋中,自动化寻找并存储网络页面,为“大海捞针”式的信息获取,提供数据基础。
[0004]图1展示了现有技术的网络爬虫的 ...
【技术保护点】
【技术特征摘要】
1.一种网络爬虫爬取网络的方法,包括:从URL缓存获取第一类URL,爬取第一类URL对应的网页并提取一个或多个第二类URL添加到预加载缓存;从预加载缓存获取第二类URL,预加载第二类URL对应的网页并根据预加载的第二类URL对应的网页生成网页向量;若生成的网页向量同根据爬取目标生成的目标向量的距离小于指定阈值,将所述第二类URL作为第一类URL添加到所述URL缓存。2.根据权利要求1所述的方法,还包括:若生成的网页向量同根据爬取目标生成的目标向量的距离不小于指定阈值,将被预加载的所述第二类URL,而不将其作为第一类URL添加到所述URL缓存。3.根据权利要求1或2所述的方法,其中响应于URL缓存中存在第一类URL,重复执行所述网络爬虫爬取网络的方法;响应于预加载缓存中存在第二类URL,重复执行所述从预加载缓存获取第二类URL,预加载第二类URL对应的网页并根据预加载的第二类URL对应的网页生成网页向量的步骤,以及若生成的网页向量同根据爬取目标生成的目标向量的距离小于指定阈值,将所述第二类URL作为第一类URL添加到所述URL缓存的步骤。4.根据权利要求里1或2所述的方法,还包括:获取URL种子并添加到所述URL缓存;以及获取爬取目标并生成目标向量,其中,将爬取目标的一个或多个词和/或一个或多个句子的文本向量化生成目标向量,和/或将爬取目标的一个或多个图片输入深度神经网络,并从深度神经网络的非输入层也非输出层的中间层神经元获取输出生成图片向量作为目标向量。5.根据权利要求里4所述的方法,其中预加载第二类URL对应的网页并根据预加载的第二类URL对应的网页生成网页向量,包括:从预加载的第二类URL对应的网页中提取一个或多个文本块;根据所述一个或多个文本块的每个计算文本块的向量;计算所述所述一个或多个文本块的每个文本块的向量的统计值,作为预加载的第二类URL对应的网页的网页文本内容向量;从预加载的第二类URL对应的网页中提取一个或多个图片;根据所述一个或多个图片的每个计算图片向量;计算所述一个或多个图片的每个的图片向量的统计值,作为预加载的第二类URL对应的网页的网页图片内容向量;根据所述网页文本内容向量与所述网页图片内容向量得到所述预加载的第二类URL对应的网页的网页向量。6.根据权利要求5所述的方法,其中文本块包括一个或多个...
【专利技术属性】
技术研发人员:周庆国,官却多杰,武强,索南多杰,公保加羊,拉玛杰,航尖才让,下吾卓玛,勒毛措,德青措,曼拉太,多杰仁青,
申请(专利权)人:海南藏族自治州藏文信息技术研究中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。