当前位置: 首页 > 专利查询>马岩专利>正文

数据抓取的方法及系统技术方案

技术编号:13508136 阅读:126 留言:0更新日期:2016-08-10 19:01
本发明专利技术提供了一种数据抓取方法及系统,所述方法包括如下步骤:接收用户需要抓取的数据范围;依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。本发明专利技术提供的技术方案具有数据抓取效果好的优点。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】本专利技术提供了一种数据抓取方法及系统,所述方法包括如下步骤:接收用户需要抓取的数据范围;依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。本专利技术提供的技术方案具有数据抓取效果好的优点。【专利说明】数据抓取的方法及系统
本专利技术涉及通信及数据处理领域,尤其涉及一种数据抓取的方法及系统。
技术介绍
数据抓取尤其是大数据以及网络数据中应用范围更广,现有的数据抓取的准确性较差。
技术实现思路
提供一种数据抓取的方法,其解决了现有技术的抓取的准确性较差的缺点。—方面,提供一种数据抓取方法,所述方法包括如下步骤:接收用户需要抓取的数据范围;依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。可选的,所述方法还包括:将谷歌搜索的其他结果排列在相同的数据之后。可选的,所述方法还包括:屏蔽百度推广和百度优化的数据。另一方面,提供一种数据抓取系统,所述系统包括:接收单元,用于接收用户需要抓取的数据范围;搜索单元,用于依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;判断单元,用于将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果O可选的,所述系统还包括:排序单元,用于将谷歌搜索的其他结果排列在相同的数据之后。可选的,所述系统还包括:屏蔽单元,用于屏蔽百度推广和百度优化的数据。本专利技术【具体实施方式】提供的技术方案接收用户需要抓取的数据范围,依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取,将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果,其综合了百度和谷歌的优点,所以其具有准确性好的优点。【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的一种数据抓取方法的流程图;图2为本专利技术提供的一种数据抓取系统的结构图。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参阅图1,图1为本专利技术第一较佳实施方式提供的一种数据抓取方法的流程图,该方法由服务器来完成,该方法如图1所示,包括如下步骤:步骤SlOl、接收用户需要抓取的数据范围;步骤S102、依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;步骤S103、将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。本专利技术【具体实施方式】提供的技术方案接收用户需要抓取的数据范围,依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取,将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果,其综合了百度和谷歌的优点,所以其具有准确性好的优点。可选的,上述方法在步骤S103之后还可以包括:将谷歌搜索的其他结果排列在相同的数据之后。可选的,上述方法在步骤S103之后还可以包括:屏蔽百度推广和百度优化的数据。参阅图2,图2为本专利技术第二较佳实施方式提供的一种数据抓取系统,该系统包括:接收单元201,用于接收用户需要抓取的数据范围;搜索单元202,用于依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;判断单元203,用于将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。本专利技术【具体实施方式】提供的技术方案接收用户需要抓取的数据范围,依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取,将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果,其综合了百度和谷歌的优点,所以其具有准确性好的优点。可选的,上述系统还可以包括:排序单元204,用于将谷歌搜索的其他结果排列在相同的数据之后。 可选的,上述系统还可以包括:屏蔽单元205,用于屏蔽百度推广和百度优化的数据。需要说明的是,对于前述的各方法实施方式或实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本专利技术并不受所描述的动作顺序的限制,因为根据本专利技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述实施方式或实施例均属于优选实施例,所涉及的动作和单元并不一定是本专利技术所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。本专利技术实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本专利技术实施例装置中的单元可以根据实际需要进行合并、划分和删减。本领域的技术人员可以将本说明书中描述的不同实施例以及不同实施例的特征进行结合或组合。通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本专利技术可以用硬件实现,或固件实现,或它们的组合方式来实现。当使用软件实现时,可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于:计算机可读介质可以包括随机存取存储器(Random Access Memory ,RAM)、只读存储器(Read-Only Memory ,ROM)、电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPR0M)、只读光盘(Compact Disc Read-Only Memory,⑶-ROM)或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如,如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(Digital Subscriber Line,DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的,那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本专利技术所使用的,盘(Disk)和碟(disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟,其中盘通常磁性的复制数据,而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。总之,以上所述仅为本专利技术技术方案的较佳实施例而已,并非用于限定本专利技术的保护范围。凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。【主权项】1.一种数据抓取方法,其特征在于,所述方法包括如下步骤: 接收用户需要抓取的数据范围; 依据该数据范围通过百度搜索算法和谷歌搜索算法分本文档来自技高网...

【技术保护点】
一种数据抓取方法,其特征在于,所述方法包括如下步骤:接收用户需要抓取的数据范围;依据该数据范围通过百度搜索算法和谷歌搜索算法分别进行数据的抓取;将百度搜索结果和谷歌搜索结果中相同的数据作为本次抓取的结果。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:马岩
申请(专利权)人:马岩
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1