网络爬虫过滤方法及其设备技术

技术编号:32519603 阅读:13 留言:0更新日期:2022-03-02 11:20
提供了网络爬虫过滤方法及其设备。提供了网络爬虫过滤方法及其设备。搜索引擎的性能一定程度上依赖网络爬虫(网络内容获取)的能力。本申请提出(1)网页向量表示方法;提出基于网页向量相似度的爬虫

【技术实现步骤摘要】
网络爬虫过滤方法及其设备


[0001]本申请涉及网络爬虫技术,具体地,利用机器学习技术分析网页与网络爬虫目标的相似性来构建爬虫

过滤方法,以及实施该方法的信息处理设备。

技术介绍

[0002]随着互联网和移动互联网的飞速发展,产生了海量的数据。为了让用户能够快速和方便地在海量数据中查询和获取信息,以搜索引擎为代表的网络信息获取和检索技术,极大推进了信息的交流和共享进程。以谷歌、百度为代表的商业搜索引擎为例,根据一定的策略,运用特定的信息获取程序即网络爬虫(Olston C and Najork M.Web Crawling,Foundations andin Information Retrieval:Vol.4:No.3,pp 175

246.http://dx.doi.org/10.1561/1500000017),从整个互联网上搜集信息,建立网页数据库和目录(索引),为用户提供检索服务,并将用户搜索的相关的信息提供给用户。但是,在现阶段,传统商业搜索引擎无法在一个特定领域的提供精确搜索能力,随之出现垂直搜索引擎。垂直搜索引擎为用户提供的并不是上百万甚至上千万网页内容检索,而是提供在小的范围内,极具针对性的特定领域中查找信息的服务。
[0003]无论是商业搜索引擎海还是垂直搜索引擎,网络爬虫技术是搜索引擎技术的重要组成部分,可以在网络内容的海洋中,自动化寻找并存储网络页面,为“大海捞针”式的信息获取,提供数据基础。
[0004]图1展示了现有技术的网络爬虫的示意图。
[0005]网络爬虫是例如一个程序或自动化的脚本,是浏览、收集互联网信息的方式。提供一个或者一组待访问URL(统一资源定位符,Unified Resource Locator)(待访问)列表(也称为种子URL)供爬虫处理。网络爬虫从待网文URL列表中获取URL,根据URL下载网页,分析网页中的内容与网络资源(例如,图片、视频等)并建立索引,将索引与所下载网页和/或其网络资源相关联地记录在本地存储或网络存储系统中。从而为搜索引擎提供对索引的检索/查询等能力。所下载的网页中通常包括进一步的URL,爬虫还从所下载网页中提起其包括的URL加入待访问的URL列表,以供进一步爬取处理。网络爬虫的目标是要在最短时间收集最多的网页资料。
[0006]网络爬虫程序有多种类型:
[0007](1)通用网络爬虫
[0008]通用网络爬虫不限于特定主题或领域的网页。他们不断地关注超链接并获取他们遇到的所有网页。
[0009](2)用户兴趣爬虫
[0010]用户兴趣爬虫优先考虑用户的兴趣,给URL进行有优先级排序。这类网络爬虫并不会抓取它们遇到的所有链接,而是根据用户提交一个条件或感兴趣的主题,指导优先爬行器有选择地寻找,找出与预定义的主题集相关的网页。
[0011](3)隐藏内容爬虫
transformers for language understanding.CoRR,abs/1810.04805,pages 770

778.)已经在自然语言处理中的各大任务中表现非常优异。BERT模型能够处理输入的句子,并输出该句子的向量化表示(称为句向量),并且所生成的句向量能够表达句子语音的相似性,具有相近语义的句子,所生成的句向量在向量空间中具有较近的距离。
[0024]现有技术的图片向量化技术,用于将图片转换为易于被计算机处理的向量。并且,图片向量化技术所生成的向量能够表达图片内容的相似性。具有相似内容图片,被转换为向量后,在向量空间中具有较近的距离。图片向量化表示的思路是使用大型图片数据集(例如ImageNet(Deng J,Dong W,Socher R,Li L

J,Li K,and Fei

Fei L.2009.ImageNet:A large

scale hierarchical image database.page 248

255.))来训练深度神经网络得到图片分类模型。然后,使用不含最后的分类器部分的层,提取对应于输入图片的特征向量。所得到的特征向量可以在搜索或相似度匹配任务中有效地表示图片。
[0025]图3A与图3B展示了图片向量化技术的示意图。
[0026]经过训练的深度神经网络处理输入的图片,其输出层神经元输出例如图片的分类结果。而利用隐藏层的若干神经元的输出,组合或拼接得到的向量,作为对输入图片向量化所得到的图片向量。这种图片向量反应了图片的内容。在图3A的例子中,选择隐藏层的连接到输出层的多个神经元的输出来构成图片向量。可选地,选择隐藏层的其他一个或多个神经元的输出来构成代表输入到深度神经网络的图片的图片向量。
[0027]在图3B的例子中,利用经典的图片分类网络VGGNet(Karen Simonyan and Andrew Zisserman(2014):Very Deep Convolutional Networks for Large

Scale Image Recognition.arXiv:1409.1556[cs](September 2014).)获取图片向量。VGGNet网络包括依次连接的多个卷积层、池化层与全连接层。在用VGGNet网络处理输入的图片时,选择全连接层紧前的池化层的输出作为该图片的图片向量,该图片向量具有例如7*7*512维度。

技术实现思路

[0028]但是,在现有的网络爬虫技术面临以下挑战:
[0029](1)网页内容数据结构复杂网页内容包含大量半结构化和非结构化数据(文字、图片、视频),对于数据的收集、分析、爬取存在一定困难。
[0030](2)网络爬虫规模难易控制
[0031]对于网络内容获取的规模无法提前估计,由于资源的限制,需要在内容爬取覆盖范围和数据库新鲜度之间进行权衡。网络内容爬取爬虫需要绕过无关的和低质量的内容。
[0032](3)网页内容理解能力不足
[0033]网页之间是通过URL进行关联,下一步需要访问的网络资源是否与内容主题相关,缺少分析和判断,对于网页内容理解不足。
[0034]为了解决上述一个或多个技术问题并获得上述一个或多个技术效果,提供了根据本申请的多种实施例。
[0035]根据本申请的第一方面,提供了根据本申请第一方面的第一网络爬虫爬取网络的方法,包括:从URL缓存获取第一类URL,爬取第一类URL对应的网页并提取一个或多个第二类URL添加到预加载缓存;从预加载缓存获取第二类URL,预加载第二类URL对应的网页并根据预加载的第二类URL对应的网页生成网页向量;若生成的网页向量同根据爬取目标生成
的目标向量的距离小于指定阈值,将所述第二类URL作为第一类URL添加到所述URL缓存。
[0036]根据本申请第一方面的第一网络爬虫爬取网络的方法,提供了根据本申请第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络爬虫爬取网络的方法,包括:从URL缓存获取第一类URL,爬取第一类URL对应的网页并提取一个或多个第二类URL添加到预加载缓存;从预加载缓存获取第二类URL,预加载第二类URL对应的网页并根据预加载的第二类URL对应的网页生成网页向量;若生成的网页向量同根据爬取目标生成的目标向量的距离小于指定阈值,将所述第二类URL作为第一类URL添加到所述URL缓存。2.根据权利要求1所述的方法,还包括:若生成的网页向量同根据爬取目标生成的目标向量的距离不小于指定阈值,将被预加载的所述第二类URL,而不将其作为第一类URL添加到所述URL缓存。3.根据权利要求1或2所述的方法,其中响应于URL缓存中存在第一类URL,重复执行所述网络爬虫爬取网络的方法;响应于预加载缓存中存在第二类URL,重复执行所述从预加载缓存获取第二类URL,预加载第二类URL对应的网页并根据预加载的第二类URL对应的网页生成网页向量的步骤,以及若生成的网页向量同根据爬取目标生成的目标向量的距离小于指定阈值,将所述第二类URL作为第一类URL添加到所述URL缓存的步骤。4.根据权利要求里1或2所述的方法,还包括:获取URL种子并添加到所述URL缓存;以及获取爬取目标并生成目标向量,其中,将爬取目标的一个或多个词和/或一个或多个句子的文本向量化生成目标向量,和/或将爬取目标的一个或多个图片输入深度神经网络,并从深度神经网络的非输入层也非输出层的中间层神经元获取输出生成图片向量作为目标向量。5.根据权利要求里4所述的方法,其中预加载第二类URL对应的网页并根据预加载的第二类URL对应的网页生成网页向量,包括:从预加载的第二类URL对应的网页中提取一个或多个文本块;根据所述一个或多个文本块的每个计算文本块的向量;计算所述所述一个或多个文本块的每个文本块的向量的统计值,作为预加载的第二类URL对应的网页的网页文本内容向量;从预加载的第二类URL对应的网页中提取一个或多个图片;根据所述一个或多个图片的每个计算图片向量;计算所述一个或多个图片的每个的图片向量的统计值,作为预加载的第二类URL对应的网页的网页图片内容向量;根据所述网页文本内容向量与所述网页图片内容向量得到所述预加载的第二类URL对应的网页的网页向量。6.根据权利要求5所述的方法,其中文本块包括一个或多个...

【专利技术属性】
技术研发人员:周庆国官却多杰武强索南多杰公保加羊拉玛杰航尖才让下吾卓玛勒毛措德青措曼拉太多杰仁青
申请(专利权)人:海南藏族自治州藏文信息技术研究中心
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1