本发明专利技术公开了一种数据采集方法及装置。该数据采集方法包括以下步骤:确定目标主题和目标采集网站;在目标采集网站包含的多个网页链接中,确定目标主题对应的目标网页链接;采集每个目标网页链接对应的网页中的内容,获得多条采集数据;根据目标主题与每条采集数据的匹配程度,确定结果数据集合。应用本发明专利技术实施例所提供的技术方案,定向确定出目标主题对应的目标网页链接,使得从每个目标网页链接对应的网页中采集到的内容较少,与目标主题的相关性较大,提高了数据采集的精准度及数据价值密度。
【技术实现步骤摘要】
本专利技术涉及互联网
,特别是涉及一种数据采集方法及装置。
技术介绍
随着互联网技术的快速发展,大数据的应用越来越多。在大数据场景下,数据采集的需求逐渐增加。在现有技术中,当需要某种主题的数据时,多是通过非定向爬虫从互联网中获取海量数据,然后以获取到的海量数据为基础,通过复杂的数据匹配算法,筛选出与主题相关的数据。这种方法存在一定的缺点,基础数据的数据量太大,非相关数据占比较高,往往很难正确挑选出与主题密切相关的数据,精准度较低。在大数据时代,呈现的数据价值密度较低。
技术实现思路
本专利技术的目的是提供一种数据采集方法及装置,以提高数据采集的精准度及数据价值密度。为解决上述技术问题,本专利技术提供如下技术方案:一种数据采集方法,包括:确定目标主题和目标采集网站;在所述目标采集网站包含的多个网页链接中,确定所述目标主题对应的目标网页链接;采集每个目标网页链接对应的网页中的内容,获得多条采集数据;根据所述目标主题与每条采集数据的匹配程度,确定结果数据集合。在本专利技术的一种具体实施方式中,在所述确定所述目标主题对应的目标网页链接之后、所述采集每个目标网页链接对应的网页上的内容之前,还包括:对确定的所述目标主题对应的目标网页链接进行过滤处理。在本专利技术的一种具体实施方式中,所述确定目标主题和目标采集网站,包括:根据用户输入的关键词,确定目标主题和目标采集网站。在本专利技术的一种具体实施方式中,所述根据所述目标主题与每条采集数据的匹配程度,确定结果数据集合,包括:确定每条采集数据的关键词;确定所述目标主题与每条采集数据的关键词的文本相似度;针对每条采集数据,如果所述目标主题与该条采集数据的关键词的文本相似度高于预设第一阈值,则将该条采集数据归并到结果数据集合中。在本专利技术的一种具体实施方式中,所述确定每条采集数据的关键词,包括:针对每条采集数据,对该条采集数据进行分词处理,获得该条采集数据的基础词的集合;确定每个基础词在该条采集数据中出现的频度;将频度高于预设第二阈值的基础词确定为该条采集数据的关键词。一种数据采集装置,包括:目标确定模块,用于确定目标主题和目标采集网站;链接确定模块,用于在所述目标采集网站包含的多个网页链接中,确定所述目标主题对应的目标网页链接;采集数据获得模块,用于采集每个目标网页链接对应的网页中的内容,获得多条采集数据;结果数据确定模块,用于根据所述目标主题与每条采集数据的匹配程度,确定结果数据集合。在本专利技术的一种具体实施方式中,还包括:链接过滤模块,用于在所述确定所述目标主题对应的目标网页链接之后、所述采集每个目标网页链接对应的网页上的内容之前,对确定的所述目标主题对应的目标网页链接进行过滤处理。在本专利技术的一种具体实施方式中,所述目标确定模块,具体用于:根据用户输入的关键词,确定目标主题和目标采集网站。在本专利技术的一种具体实施方式中,所述结果数据确定模块,包括:关键词确定子模块,用于确定每条采集数据的关键词;文本相似度确定子模块,用于确定所述目标主题与每条采集数据的关键词的文本相似度;结果数据确定子模块,用于针对每条采集数据,如果所述目标主题与该条采集数据的关键词的文本相似度高于预设第一阈值,则将该条采集数据归并到结果数据集合中。在本专利技术的一种具体实施方式中,所述关键词确定子模块,具体用于:针对每条采集数据,对该条采集数据进行分词处理,获得该条采集数据的基础词的集合;确定每个基础词在该条采集数据中出现的频度;将频度高于预设第二阈值的基础词确定为该条采集数据的关键词。应用本专利技术实施例所提供的技术方案,在确定目标主题和目标采集网站后,在目标采集网站包含的多个网页链接中,确定出目标主题对应的目标网页链接,采集每个目标网页链接对应的网页中的内容,获得多条采集数据,根据目标主题与每条采集数据的匹配程度,可以确定结果数据集合。定向确定出目标主题对应的目标网页链接,使得从每个目标网页链接对应的网页中采集到的内容较少,与目标主题的相关性较大,提高了数据采集的精准度及数据价值密度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中一种数据采集方法的实施流程图;图2为本专利技术实施例中一种数据采集装置的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种数据采集方法,该方法可以应用于搜索引擎为用户提供检索服务的应用场景中。搜索引擎是指从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。本专利技术实施例所提供的技术方案可以智能地进行数据采集,根据确定的目标主题,利用搜索引擎的定向过滤能力,结合二次内容过滤方法,可以较为准确的筛选出目标采集网站内与目标主题密切相关的内容。参见图1所示,为本专利技术实施例所提供的一种数据采集方法的实施流程图,该方法可以包括以下步骤:S110:确定目标主题和目标采集网站。在用户有采集数据的需求时,可以先确定要采集的数据的目标主题和目标采集网站。在本专利技术的一种具体实施方式中,可以根据用户输入的关键词,确定目标主题和目标采集网站。在本专利技术实施例中,可以为用户提供输入接口,用户根据自身需求,通过该输入接口可以输入关键词。该关键词可以是企业名、人名、事件、关系等任意一个或多个名词。可以将用户输入的关键词直接确定为目标主题。用户通过该输入接口还可以输入目标采集网站的链接地址,从而根据用户输入的链接地址,可以确定目标采集网站。或者,可以通过确定的目标主题,自动确定目标采集网站。比如,预先建立大量的主题与网站的对应关系,当确定目标主题后,可以在预先建立的对应关系中找到与目标主题对应的目标采集网站。本专利技术实施例适用于任一主题和任一采集网站的数据采集,通用性较高。S120:在目标采集网站包含的多个网页链接中,确定目标主题对应的目标网页链接。在步骤S110,确定了目标主题和目标采集网站。每个网站都包含有多个网页链接,不同网页链接对应的网页中包含不同的内容。目标采集网站同样包含多个网页链接。在目标采集网站包含的多个网页链接中,可以确定目标主题对应的目标网页链接。具体的,可以以目标采集网站为靶,筛选出与目标主题相关的一系列目标网页链接。目标网页链接可以有一个或多个,每个目标网页链接包含的内容与目标主题相关。S130:采集每个目标网页链接对应的网页中的内容,获得多条采集数据。在本专利技术实施例中,可以针对每个目标网页链接,通过非定向方式采集该目标网页链接对应的网页中的全部内容,获得多条采集数据。在实际应用中,可以开启多线程,分别对不同的目标网页链接对应的网页内容进行采集,避免资源竞争,提高采集效率。先确定出目标主题对应的目标网页链接,再采集每个目标网页链接对应的网页中的内容,使得本文档来自技高网...
【技术保护点】
一种数据采集方法,其特征在于,包括:确定目标主题和目标采集网站;在所述目标采集网站包含的多个网页链接中,确定所述目标主题对应的目标网页链接;采集每个目标网页链接对应的网页中的内容,获得多条采集数据;根据所述目标主题与每条采集数据的匹配程度,确定结果数据集合。
【技术特征摘要】
1.一种数据采集方法,其特征在于,包括:确定目标主题和目标采集网站;在所述目标采集网站包含的多个网页链接中,确定所述目标主题对应的目标网页链接;采集每个目标网页链接对应的网页中的内容,获得多条采集数据;根据所述目标主题与每条采集数据的匹配程度,确定结果数据集合。2.根据权利要求1所述的数据采集方法,其特征在于,在所述确定所述目标主题对应的目标网页链接之后、所述采集每个目标网页链接对应的网页上的内容之前,还包括:对确定的所述目标主题对应的目标网页链接进行过滤处理。3.根据权利要求1所述的数据采集方法,其特征在于,所述确定目标主题和目标采集网站,包括:根据用户输入的关键词,确定目标主题和目标采集网站。4.根据权利要求1至3任一项所述的数据采集方法,其特征在于,所述根据所述目标主题与每条采集数据的匹配程度,确定结果数据集合,包括:确定每条采集数据的关键词;确定所述目标主题与每条采集数据的关键词的文本相似度;针对每条采集数据,如果所述目标主题与该条采集数据的关键词的文本相似度高于预设第一阈值,则将该条采集数据归并到结果数据集合中。5.根据权利要求4所述的数据采集方法,其特征在于,所述确定每条采集数据的关键词,包括:针对每条采集数据,对该条采集数据进行分词处理,获得该条采集数据的基础词的集合;确定每个基础词在该条采集数据中出现的频度;将频度高于预设第二阈值的基础词确定为该条采集数据的关键词。6.一种数据采集装置,其特征在于,包括:目标确定模块,用于...
【专利技术属性】
技术研发人员:陈桓,蔡晓胜,张良杰,
申请(专利权)人:金蝶软件中国有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。