本发明专利技术涉及一种数据采集方法和系统,方法包括:获取采集条件,并根据采集条件获取目标数据,其中,采集条件包括采集对象和采集属性;从知识库获取对应目标数据的样本数据;根据目标数据和样本数据判断目标数据是否可信;若是,则采集目标数据存入目标数据库或大数据存储库。如此,可以根据知识库中的样本数据对目标数据进行正确性验证,在判定目标数据可信时才进行采集,避免采集到错误数据,提高数据采集的正确率。
【技术实现步骤摘要】
本专利技术涉及数据采集
,特别是涉及一种基于知识库面向大数据及普通数据的数据采集方法和系统。
技术介绍
对数据进行采集时,例如对大数据进行采集,传统的方法通常只是根据系统或数据库指定需要的数据类型进行采集后,直接将被采集数据存入系统或数据库以备用。例如,存放语言信息的语言数据库需要某个字词的正确释义或发音时,直接采集有这个字词释义或发音的语言信息放入语言数据库,而不会检验被采集的语言信息对该字词的释义或发音是否正确。对于被采集数据的来源可信度不明确的情况,这种传统的数据采集方法不会对数据的正确性进行检验,采集正确率低。
技术实现思路
基于此,有必要针对上述问题,提供一种采集正确率的数据采集方法和系统。一种数据采集方法,包括以下步骤:获取采集条件,并根据所述采集条件获取目标数据,其中,所述采集条件包括采集对象和采集属性;从知识库获取对应所述目标数据的样本数据;根据所述目标数据和所述样本数据判断所述目标数据是否可信;若是,则采集所述目标数据存入目标数据库或大数据存储库。一种数据采集系统,包括:目标数据获取模块,用于获取采集条件,并根据所述采集条件获取目标数据,其中,所述采集条件包括采集对象和采集属性;样本数据获取模块,用于从知识库获取对应所述目标数据的样本数据;数据分析模块,用于根据所述目标数据和所述样本数据判断所述目标数据是否可信;数据采集模块,用于在所述目标数据可信时,采集所述目标数据存入目标数据库或大数据存储库。上述数据采集方法和系统,通过获取采集条件,并根据采集条件获取目标数据,然后从知识库获取对应目标数据的样本数据,根据目标数据和样本数据判断目标数据是否可信,在目标数据可信时采集目标数据存入目标数据库或大数据存储库。如此,可以根据知识库中的样本数据对目标数据进行正确性验证,在判定目标数据可信时才进行采集,避免采集到错误数据,提高数据采集的正确率。附图说明图1为一实施例中本专利技术数据采集方法的流程图;图2为一实施例中本专利技术数据采集系统的模块图;图3为一实施例中数据分析模块的单元图。具体实施方式大数据指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,具有数量巨大、难于收集、处理、分析等特点。本专利技术所指的普通数据指非大数据。知识库指采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据、由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。样本数据指知识库中存储的标准数据。参考图1,本专利技术一实施例中的一种数据采集方法,基于知识库、面向大数据及普通数据实现,包括以下步骤。S110:获取采集条件,并根据采集条件获取目标数据。其中,采集条件指用于指定需要采集数据特征的信息,采集条件包括采集
对象和采集属性。通过根据采集条件可以获取符合该采集条件的目标数据。目标数据可以是大数据或普通数据。在其中一实施例中,采集数据为语音数据,以采集条件为某个指定字词的文本信息和/或语音信息为例,语音信息包括普通话发音信息、某种方言发音信息等,针对语音信息的采集条件中,其中采集对象即指需要被获取语音的某个指定字词,采集属性即指语音类别,包括文本信息、普通话发音信息、某种方言发音信息等。对应地,根据该采集条件获取的目标数据包括该指定字词的文本信息和/或语音信息。S130:从知识库获取对应目标数据的样本数据。样本数据为标准数据,可以用于检验目标数据的准确度。S150:根据目标数据和样本数据判断目标数据是否可信。若是,则执行步骤S170。S170:采集目标数据存入目标数据库或大数据存储库。其中,目标数据库指用于存储普通数据的传统数据库,例如关系型数据库;大数据存储库指用于存储大数据的存储库。当采集的数据为普通数据时,存入目标数据库,当采集的数据为大数据时,存入大数据存储库。通过判断目标数据是否可信,在数据采集之前进行正确性验证,提高数据采集的正确率。例如,目标数据为某字词的文本信息和/或语音信息的实施例中,采集目标数据存入语言数据库。在其中一实施例中,步骤S130包括:从目标数据中选取待对比数据,并从知识库中获取采集条件与待对比数据相同的标准数据作为样本数据。具体地,步骤S130可以选取多个目标数据中的一部分数据作为待对比数据,也可以选取所有的目标数据作为待对比数据。例如,获取的目标数据为某100个字词的粤语发音信息,则可以选取其中的5个字词作为待对比数据,从知识库中获取该5个字词的标准粤语发音信息作为样本数据;也可以将所有的100个字词作为待对比数据,从知识库中获取该100个字词的标准粤语发音信息作为样本数据。对应地,本实施例中,步骤S150包括步骤11和步骤12。步骤11:分别提取待对比数据与样本数据的预设特征。其中,预设特征可以根据目标数据的采集条件进行选择。例如,本实施例中,预设特征为采集条件中指定字词的文本信息和/或语音信息。步骤12:判断待对比数据的预设特征与样本数据的预设特征之间的匹配度是否大于或等于预设值。若是,表示目标数据中对应样本数据的数据与样本数据的预设特征很相似,判定目标数据可信。其中,预设值可以根据需要的数据采集正确率进行具体设置。通过将目标数据中几个或全部数据与对应的样本数据进行比对,判断目标数据与样本数据预设特征的相似度是否满足要求,从而对目标数据进行正确性验证,提高数据采集的正确率。在另一实施例中,步骤S130包括:从知识库中获取与目标数据的采集条件中采集对象不同、采集属性相同的标准数据作为样本数据。例如,获取的目标数据为某100个字词的粤语发音信息,则与该目标数据采集对象不同、采集属性相同的数据为其他字词的粤语发音信息。例如,步骤S130具体为从知识库中获取另外5个字词(不属于目标数据中的100个字词)的标准粤语发音信息作为样本数据。对应地,本实施例中,步骤S150包括步骤21至步骤23。步骤21:获取提供目标数据的被采集对象,并获取所述被采集对象提供的采集对象和采集属性均与样本数据相同的数据作为样本采集数据。例如,样本数据为知识库中某样本字词的标准文本信息和/或标准粤语发音信息时,对应获取被采集对象提供或录制的该样本字词的文本信息和/或粤语发音信息作为样本采集数据。本实施例中,被采集对象为人,即目标数据由被采集人提供。例如,目标数据为某字词的语音信息,该语音消息由用户A录制,则用户A为该目标数据的被采集人。可以理解,在其他的实施例中,被采集对象也可以是网站等。步骤22:分别提取样本采集数据和样本数据的预设特征。步骤23:判断样本采集数据的预设特征与样本数据的预设特征之间的匹配度是否大于或等于预设值。若是,则判定目标数据可信。通过将样本数据与被采集对象提供的样本采集数据进行预设特征的匹配度比对,匹配度大于预设值表明该采集人可信,从而该采集人对应的目标数据可信,实现对目标数据的正确性验证,提高数据采集的正确率。上述数据采集方法,通过获取采集条件,并根据采集条件获取目标数据,然后从知识库获取对应目标数据的样本数据,根据目标数据和样本数据判断目标数据是否可信,在目标数据可信时采集目标数据存入目标数据库或大数据存储库。如此,可以根据知识库中的样本文档来自技高网...
【技术保护点】
一种数据采集方法,其特征在于,包括以下步骤:获取采集条件,并根据所述采集条件获取目标数据,其中,所述采集条件包括采集对象和采集属性;从知识库获取对应所述目标数据的样本数据;根据所述目标数据和所述样本数据判断所述目标数据是否可信;若是,则采集所述目标数据存入目标数据库或大数据存储库。
【技术特征摘要】
1.一种数据采集方法,其特征在于,包括以下步骤:获取采集条件,并根据所述采集条件获取目标数据,其中,所述采集条件包括采集对象和采集属性;从知识库获取对应所述目标数据的样本数据;根据所述目标数据和所述样本数据判断所述目标数据是否可信;若是,则采集所述目标数据存入目标数据库或大数据存储库。2.根据权利要求1所述的数据采集方法,其特征在于,所述从知识库获取对应所述目标数据的样本数据的步骤包括:从所述目标数据中选取待对比数据,并从所述知识库中获取所述采集条件与所述待对比数据相同的标准数据作为所述样本数据。3.根据权利要求2所述的数据采集方法,其特征在于,所述根据所述目标数据和所述样本数据判断所述目标数据是否可信的步骤包括:分别提取所述待对比数据与所述样本数据的预设特征;判断所述待对比数据的预设特征与所述样本数据的预设特征之间的匹配度是否大于或等于预设值;若是,则判定所述目标数据可信。4.根据权利要求1所述的数据采集方法,其特征在于,所述从知识库获取对应所述目标数据的样本数据的步骤包括:从所述知识库中获取与所述目标数据的所述采集条件中采集对象不同、采集属性相同的标准数据作为所述样本数据。5.根据权利要求4所述的数据采集方法,其特征在于,所述根据所述目标数据和所述样本数据判断所述目标数据是否可信的步骤包括:获取提供所述目标数据的被采集对象,并获取所述被采集对象提供的采集对象和采集属性均与所述样本数据相同的数据作为样本采集数据;分别提取所述样本采集数据和所述样本数据的预设特征;判断所述样本采集数据的预设特征与所述样本数据的预设特征之间的匹配度是否大于或等于预设值;若是,则判定所述目标数据可信。6.一种数据采集系统,其特征在于...
【专利技术属性】
技术研发人员:朱定局,
申请(专利权)人:华南师范大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。