数据采集中的存储方法及装置制造方法及图纸

技术编号:11170423 阅读:63 留言:0更新日期:2015-03-19 10:24
一种数据采集中的存储方法,包括:获取采集数据,获取所述采集数据的产生时间和采集时间;通过计算所述产生时间和采集时间的差得到偏移值;获取预设的偏移阈值,判断所述偏移值是否小于所述偏移阈值,若是,则获取所述采集数据对应的集中存储目录,获取在所述集中存储目录下的与所述产生时间对应的产生时间子目录,获取所述产生时间子目录下的与所述偏移值对应的偏移子目录中,并将所述采集数据存储在所述偏移子目录中。此外,还提供了一种数据采集中的存储装置。上述数据采集中的存储方法及装置能够数据读取时的读取效率。

【技术实现步骤摘要】
数据采集中的存储方法及装置
本专利技术涉及数据挖掘
,特别是涉及一种数据采集中的存储方法及装置。
技术介绍
在数据挖掘
中,需要采样得到大量数据才能根据采集的数据进行数据分 析,在传统技术中,如图1和图2所示,通常由多个采样服务器各自按照预设的周期T (例如 周期T可以是1天,采样服务器每天采集一次数据)进行采集,采样服务器采集数据的时间 即为采集数据的产生时间(如图1中的TO、T0+T等),采样服务器再不定期将采集数据发送 给统计服务器汇总存储,统计服务器接收到该采集数据的时间即为该采集数据的采集时间 (如图1中的T0+4T和T0+2T)。 统计服务器在将采集数据进行存储时,通常对同一类型的采集数据根据采集时间 建立目录,然后在该目录中根据采集数据的产生时间建立子目录。 专利技术人经研究发现上述存储方式至少存在以下问题:当需要根据产生时间进行检 索时,则需要遍历所有存储采集数据的目录并根据产生时间进行查找,使得遍历的目录数 量较多,使得读取效率不高。
技术实现思路
基于此,有必要提供一种能够提高读取效率的数据采集中的存储方法。 -种数据采集中的存储方法,包括: 获取采集数据,获取所述采集数据的产生时间和采集时间; 通过计算所述产生时间和采集时间的差得到偏移值; 获取预设的偏移阈值,判断所述偏移值是否小于所述偏移阈值,若是,则获取所述 采集数据对应的集中存储目录,获取在所述集中存储目录下的与所述产生时间对应的产生 时间子目录,获取所述产生时间子目录下的与所述偏移值对应的偏移子目录中,并将所述 采集数据存储在所述偏移子目录中。 此外,还有必要提供一种能够提高读取效率的数据采集中的存储装置。 -种数据采集中的存储装置,包括: 数据接收模块,用于获取采集数据,获取所述采集数据的产生时间和采集时间; 偏移值计算模块,用于通过计算所述产生时间和采集时间的差得到偏移值; 数据存储模块,用于获取预设的偏移阈值,判断所述偏移值是否小于所述偏移阈 值,若是,则获取所述采集数据对应的集中存储目录,获取在所述集中存储目录下的与所述 产生时间对应的产生时间子目录,获取所述产生时间子目录下的与所述偏移值对应的偏移 子目录中,并将所述采集数据存储在所述偏移子目录中。 上述数据采集中的存储方法及装置,设置了偏移阈值,并根据偏移阈值将获取到 的采集数据定位到集中存储目录中,并将其存储在该目录下的与采集数据的产生时间对应 的产生时间子目录下的与所述偏移值对应的偏移子目录中。使得在读取采集数据时,可根 据偏移值快速定位到相应的目录进行读取,与传统技术中遍历所有采集数据的读取方式相 t匕,提高了读取效率。 【附图说明】 图1为传统技术中数据采集系统中的数据流向图; 图2为一个实施例中数据采集中的存储方法的流程图; 图3为一个实施例中数据存储时的文件存储结构示意图; 图4为一个实施例中数据读取时定位集中存储目录中的偏移子目录的过程示意 图; 图5为一个实施例中数据采集中的存储装置的结构示意图; 图6为另一个实施例中数据采集中的存储装置的结构示意图。 【具体实施方式】 在一个实施例中,如图1所示,一种数据采集系统,包括统计服务器和与统计服务 器连接的多个采样服务器,采样服务器根据预设的采样周期(例如,小时、天等)采集数据, 采集到数据的时间即为该采集数据的产生时间(采集数据此时在采样服务器通过数据采集 生成,因此,相对于统计服务器该时间被称为产生时间),如图1所示,采样服务器可不定期 将采集数据上传给统计服务器,统计服务器接收到该采集数据的时间即为该采集数据的采 集时间(采集数据此时由采样服务器上传统计服务器,由统计服务器采集成功,因此,相对 于统计服务器该时间被称为采集时间)。 在本实施例中,如图2所示,一种数据采集中的存储方法,该方法完全依赖于计算 机程序,该计算机程序可运行于上述基于冯洛伊曼体系的统计服务器上,该方法包括: 步骤S102,获取采集数据,获取采集数据的产生时间和采集时间。 在本实例中,统计服务器可通过接收采样服务器上传的采集数据进行获取,采样 服务器在每个预设的时间间隔即周期中采集到采集数据后,可将其存储为独立的文件,该 文件的创建时间即为采集数据的产生时间;统计服务器接收到该采集数据时,可记录该时 间,该接收时记录的时间即为该采集数据的采集时间。 步骤S104,通过计算产生时间和采集时间的差得到偏移值。 偏移值即为采集时间和产生时间之间相差的采样周期的个数。例如,若采样周期 为天,则若产生时间为2013年8月1日,采集时间为2013年8月4日,则偏移值即为3。 步骤S106,获取预设的偏移阈值,判断偏移值是否小于偏移阈值,若是,则执行步 骤 S108 : 获取采集数据对应的集中存储目录,获取在集中存储目录下的与产生时间对应的 产生时间子目录,获取产生时间子目录下的与偏移值对应的偏移子目录中,并将采集数据 存储在偏移子目录中。 在本实施例中,若偏移值大于或等于偏移阈值,则执行步骤S110 : 获取采集数据对应的非集中存储目录,获取在非集中存储目录下的与采集时间对 应的采集时间子目录,将采集数据存储到采集时间子目录中。 集中存储目录与非集中存储目录为统计服务器中文件系统中的两个目录。优选 的,集中存储目录与非集中存储目录处于同一类型目录下,可预先对采集数据进行分类,将 数据类型相同的采集数据存储在同一类型目录下的集中存储目录或非集中存储目录中,即 可获取采集数据的数据类型;获取数据类型对应的类型目录;获取类型目录下的集中存储 目录/非集中存储目录。 例如,可根据采集数据的格式确定采集数据的数据类型。可将图片类型的采集数 据存储在图片目录下,可将视频类型的采集数据存储在视频目录下。相应的图片目录和视 频目录下可各自建立集中存储目录和非集中存储目录。 在本实施例对应的应用场景中,如图3所示,picture目录(类型目录)用于存储数 据类型为图片的采集数据,picture目录下的picturel目录为集中存储目录,picture目录 下picture2目录为非集中存储目录。预设的偏移阈值为6,可记录在配置文件中,可通过 读取配置文件获取该偏移阈值。若采集数据的偏移值小于6,则将其存储在picturel目录 中,也就是说picturel目录及其包含的子目录存储的采集数据的偏移值均在0至5之间。 如图3所示,若图片类型的采集数据的产生时间为2013年8月1日,则其在对应 的在picturel目录下的产品时间子目录即为20130801目录,若该采集数据的采集时间 为2013年8月4日,则其偏移值为3 (采集周期为每天),其对应的在产品时间子目录即 20130801目录下的偏移子目录即为p3目录,可将该采集数据存储在该p3目录下。也就是 说,图3中20130801目录下的p0至p5目录(偏移子目录)分别存储了产生时间为2013年 8月1日,而采集时间在2013年8月1日至2013年8月6日之间采集数据,即p0至p5目 录中存储的采集数据可以是由多本文档来自技高网...

【技术保护点】
一种数据采集中的存储方法,包括:获取采集数据,获取所述采集数据的产生时间和采集时间;通过计算所述产生时间和采集时间的差得到偏移值;获取预设的偏移阈值,判断所述偏移值是否小于所述偏移阈值,若是,则获取所述采集数据对应的集中存储目录,获取在所述集中存储目录下的与所述产生时间对应的产生时间子目录,获取所述产生时间子目录下的与所述偏移值对应的偏移子目录中,并将所述采集数据存储在所述偏移子目录中。

【技术特征摘要】
1. 一种数据采集中的存储方法,包括: 获取采集数据,获取所述采集数据的产生时间和采集时间; 通过计算所述产生时间和采集时间的差得到偏移值; 获取预设的偏移阔值,判断所述偏移值是否小于所述偏移阔值,若是,则获取所述采集 数据对应的集中存储目录,获取在所述集中存储目录下的与所述产生时间对应的产生时间 子目录,获取所述产生时间子目录下的与所述偏移值对应的偏移子目录中,并将所述采集 数据存储在所述偏移子目录中。2. 根据权利要求1所述的数据采集中的存储方法,其特征在于,所述判断所述偏移值 是否小于偏移阔值的步骤之后还包括: 若所述偏移值大于或等于所述偏移阔值,则获取所述采集数据对应的非集中存储目 录,获取在所述非集中存储目录下的与所述采集时间对应的采集时间子目录,将所述采集 数据存储到所述采集时间子目录中。3. 根据权利要求2所述的数据采集中的存储方法,其特征在于,所述获取所述采集数 据对应的集中存储目录/非集中存储目录步骤包括: 获取所述采集数据的数据类型; 获取所述数据类型对应的类型目录; 获取所述类型目录下的集中存储目录/非集中存储目录。4. 根据权利要求2所述的数据采集中的存储方法,其特征在于,所述方法还包括: 获取输入的采集时间关键字,提取第一输入时间; 在所述集中存储目录中,获取其包含的产生时间子目录对应的产生时间与所述第一输 入时间的差小于所述偏移阔值,且所述产生时间子目录对应的产生时间与其包含的偏移子 目录对应的偏移值之和等于所述第一输入时间的偏移子目录,读取所述偏移子目录中存储 的采集数据; 在所述非集中存储目录中,获取其包含的采集时间子目录对应的采集时间与所述第一 输入时间相同的采集时间子目录,读取所述采集时间子目录中存储的采集数据。5. 根据权利要求2所述的数据采集中的存储方法,其特征在于,所述方法还包括: 获取输入的产生时间关键字,提取第二输入时间; 在所述集中存储目录中,获取其包含的产生时间子目录对应的产生时间与所述第二输 入时间相同的产生时间子目录,读取所述产生时间子目录及其包含的偏移子目录中存储的 采集数据; 在所述非集中存储目录中,遍历所述采集时间子目录,读取采集时间子目录下的产生 时间与所述第二输入时间对应的采集数据。6. 根据权利要求2所述的数据采集中的存储方法,其特征在于,所述方法还包括: 遍历所述集中存储目录及其子目录、非集中存储目录及其子目录下存储的采集数据; 获取所述采集数据对应的产生时间和采集时间,并计算相应的偏移值; 根据公式: /',(71)=迅。xlOO% N 生成偏移值概率分布;其中,S(T)为偏移值小于T的采集数据的数量么和,N为采集数 据的总数量,P(T)为偏移值概率分布; 获取预设的概率阔值,根据所述概率阔值更新所述偏移阔值。7. -种数...

【专利技术属性】
技术研发人员:邱跃鹏廖建魁章猛范成涛李恭伟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1