数据抽取方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:18668368 阅读:62 留言:0更新日期:2018-08-14 20:39
本发明专利技术提供的一种数据抽取方法、装置、电子设备及计算机可读存储介质,涉及计算机技术领域。其中,数据抽取方法及装置应用于存储有多个待抽取数据的电子设备,每个所述待抽取数据对应一索引,所述数据抽取方法包括:根据获取的起始索引,生成索引查找区间;从所述索引查找区间中获取一目标索引;抽取与所述目标索引对应的所述待抽取数据作为抽中数据;当所述抽中数据的数量未满足预设数量时,依据所述目标索引重新确定所述索引查找区间。也就是,根据每次抽取时确定的索引查找区间,在确保随机的同时保障抽到数据的不同,避免了创建数据副本,节约系统资源,提高处理效率。

Data extraction method, device, electronic device and computer readable storage medium

The invention provides a data extraction method, a device, an electronic device and a computer readable storage medium, and relates to the field of computer technology. The data extraction method and the device are applied to an electronic device storing a plurality of data to be extracted, each of which corresponds to an index. The data extraction method includes: generating an index lookup interval according to the acquired initial index; obtaining a target index from the index lookup interval; and extracting the said index from the index lookup interval; and The extracted data corresponding to the target index is used as the extracted data; when the number of the extracted data does not meet the preset number, the index search interval is redefined according to the target index. That is to say, according to the index search interval determined at each time of extraction, it ensures the randomness and the difference of the extracted data, avoids creating data duplicates, saves system resources and improves the processing efficiency.

【技术实现步骤摘要】
数据抽取方法、装置、电子设备及计算机可读存储介质
本专利技术涉及计算机
,具体而言,涉及一种数据抽取方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着通信技术的进步,互联网走近人们的生活,并改变着人物的生活方式。随机不重复的数据抽取作为生活中常用的一种抽取机制,在互联网时代,也有了更广泛的应用。例如从一组名单中随机抽取几个不重复的用户作为中奖用户,从几千个汉字中随机抽取几个不相同的汉字等等。相关技术在互联网产品中实现随机不重复抽取时,通过对已存储数据或其对应的索引随机打乱,再按照预设规则进行选取,从而实现随机不重复抽取。但,由于存储方面的限制,对已存储数据或其对应的索引随机打乱时需要创建数据副本,而在数据量大的情况下,创建数据副本对系统资源的占用大,不仅影响抽取效率,还会直接影响设备的正常运行。
技术实现思路
本专利技术实施例提供一种数据抽取方法、装置、电子设备及计算机可读存储介质,以改善上述问题。为了实现上述目的,本专利技术实施例采用的技术方案如下:本专利技术实施例提供一种数据抽取方法,应用于存储有多个待抽取数据的电子设备,每个所述待抽取数据对应一索引,所述数据抽取方法包括:根据获取的起始索引,生成索引查找区间;从所述索引查找区间中获取一目标索引;抽取与所述目标索引对应的所述待抽取数据作为抽中数据;当所述抽中数据的数量未满足预设数量时,依据所述目标索引重新确定所述索引查找区间。本专利技术实施例提供一种数据抽取装置,应用于存储有多个待抽取数据的电子设备,每个所述待抽取数据对应一索引,所述数据抽取装置包括:生成模块,用于根据获取的起始索引,生成索引查找区间;获取模块,用于从所述索引查找区间中获取一目标索引;抽取模块,用于抽取与所述目标索引对应的所述待抽取数据作为抽中数据;所述生成模块,还用于当所述抽中数据的数量未满足预设数量时,依据所述目标索引重新确定所述索引查找区间。本专利技术实施例提供一种电子设备,所述电子设备包括:存储器;处理器;存储有多个待抽取数据,其中,每个所述待抽取数据对应一索引;以及数据抽取装置,所述装置包括:生成模块,用于根据获取的起始索引,生成索引查找区间;获取模块,用于从所述索引查找区间中获取一目标索引;抽取模块,用于抽取与所述目标索引对应的所述待抽取数据作为抽中数据;所述生成模块,还用于当所述抽中数据的数量未满足预设数量时,依据所述目标索引重新确定所述索引查找区间。本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据抽取方法的步骤。与现有技术相比,本专利技术实施例提供的一种数据抽取方法,先根据获取的起始索引,生成索引查找区间。再从索引查找区间中确定目标索引,并抽取与所述目标索引对应的所述待抽取数据作为抽中数据。并且在抽中数据的数量未满足预设数量时,依据所述目标索引重新确定所述索引查找区间,以便进行下一次抽取。也就是,根据每次抽取时确定的索引查找区间,在确保随机的同时保障抽到数据的不同,避免了创建数据副本,节约系统资源,提高处理效率。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术较佳实施例提供的电子设备的方框示意图。图2为本专利技术较佳实施例提供的数据抽取方法的步骤流程图。图3为图2中步骤S101的子步骤流程图。图4为本专利技术实施例示出的一种待抽取数据与索引的示例图。图5为本专利技术较佳实施例提供的数据抽取装置的示意图。图6为图5中的生成模块的功能子模块示意图。图标:100-电子设备;111-存储器;112-处理器;113-通信单元;200-数据抽取装置;201-生成模块;2011-确定子模块;2012-生成子模块;202-获取模块;203-抽取模块。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。随机不重复的数据抽取是一种常用的抽取机制。其不仅在线下经常被使用(例如摇奖),也在线上的互联网产品中被广泛使用(例如随机筛选不同的汉字组成验证码)。相关技术中虽已提出了很多在互联网产品中使用的随机不重复抽取算法,但这些算法在面对日益增加的数据量,均存在不足。例如,采用将数据随机打乱,再取排列在几个数据,从而实现随机不重复抽取的算法,由于原数据已有对应的存储位置,在存储区域中原数据之间的存储顺序也固定。对其打乱本质上是创建与原数据的副本数据,在创建副本数据时,随机排列副本数据之间的顺序,使副本数据之间的顺序与原数据之间的顺序不同。也就是,在实际中无法直接对原数据之间的顺序进行打乱,只能通过创建副本数据的方式实现顺序的随机打乱。在面对大量数据时,创建副本数据对系统资源占用大,影响影响设备的性能,且创建时长还直接影响整个随机不重复抽取的效率。相关技术中,为了避免创建副本数据,虽然也可以采用直接从原数据中进行数据抽取,但是,由于在进行多次抽取时,若抽到重复数据则重新抽取,使抽取次数难以控制,抽取时长也不可控。相关技术中,为了避免相同的数据被多次抽中,也可以在每次抽取完成后需要将已被抽取的数据从存储区域内剔除,但剔除数据一方面不能保证原数据的完整性,另一方面,增加抽取时长,不宜适用于使用频繁对时效性要求高的场景(例如不宜应用于生成验证码)。因此,本专利技术实施例用于提供一种数据抽取方法、装置、电子设备100及计算机可读存储介质,以改善上述问题。请参照图1,图1是电子设备100的方框示意图。所述电子设备100包括数据抽取装置200、存储器111、处理器112及通信单元113。所述存储器111、处理器112及通信单元113各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据抽取装置200包括至少一个可以软件或固件(Firmware)的形式存储于所述存储器111中或固化在所述服务器100的操作系统(OperatingSystem,OS)中的软件功本文档来自技高网...

【技术保护点】
1.一种数据抽取方法,应用于存储有多个待抽取数据的电子设备,每个所述待抽取数据对应一索引,其特征在于,所述数据抽取方法包括:根据获取的起始索引,生成索引查找区间;从所述索引查找区间中获取一目标索引;抽取与所述目标索引对应的所述待抽取数据作为抽中数据;当所述抽中数据的数量未满足预设数量时,依据所述目标索引重新确定所述索引查找区间。

【技术特征摘要】
1.一种数据抽取方法,应用于存储有多个待抽取数据的电子设备,每个所述待抽取数据对应一索引,其特征在于,所述数据抽取方法包括:根据获取的起始索引,生成索引查找区间;从所述索引查找区间中获取一目标索引;抽取与所述目标索引对应的所述待抽取数据作为抽中数据;当所述抽中数据的数量未满足预设数量时,依据所述目标索引重新确定所述索引查找区间。2.如权利要求1所述的数据抽取方法,其特征在于,所述根据获取的起始索引,生成索引查找区间的步骤包括:确定终止索引;根据所述起始索引和所述终止索引,生成索引查找区间。3.如权利要求2所述的数据抽取方法,其特征在于,所述确定终止索引的步骤包括:获取第一参数及第二参数,其中所述第一参数与可抽取的数据的个数对应,所述第二参数与当前需抽取的数据个数对应;其中所述可抽取的数据不大于所述待抽取数据的个数;根据所述第一参数及第二参数,确定所述索引查找区间的终止索引。4.如权利要求3所述的数据抽取方法,其特征在于,所述根据所述第一参数及第二参数,确定所述索引查找区间的终止索引的步骤包括:当第一次进行数据抽取且所述第一参数和第二参数之间满足sum≤log2left时,根据所述待抽取数据的个数、第二参数及默认值,确定所述索引查找区间的终止索引;其中,所述sum代表第二参数,所述left代表第一参数;当不是第一次进行数据抽取且所述第一参数和第二参数之间满足sum≤log2left时,根据所述待抽取数据的个数、第二参数及前一次数据抽取时获取的所述目标索引,确定所述索引查找区间的终止索引。5.如权利要求3所述的数据抽取方法,其特征在于,所述根据所述第一参数及第二参数,确定所述索引查找区间的终止索引的步骤包括:当所述第一参数和第二参数满足sum>log2left时,根据所述起始索引、第一参数及第二参数,确定所述索引查找区间的终止索引,其中,所述sum代表第二参数,所述left代表第一参数。6.如权利要求2所述的数据抽取方法,其特征在于,所述从所述索引查找区间中获取一目标索引的步骤包括:生成一随机数;根据所述随机数、所述索引查找区间对应的所述起始索引及所述终止索引,计算所述目标索引。7.如权利要求1所述的数据抽取方法,其特征在于,所述数据抽取方法还包括:从重新确定的索引查找区间中获取一目标索引;根据从所述重新确定的索引查找区间中获取的目标索引,抽取对应的所述待抽取数据作为所述抽中数据;重复依据从所述重新确定的索引查找区间中获取的目标索引确定所述索引查找区间,直至所述抽中数据的数量满足预设数量。8.一种数据抽取...

【专利技术属性】
技术研发人员:林万琪
申请(专利权)人:广州爱九游信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1