一种GPU上数据流处理系统及其数据流处理方法技术方案

技术编号:10973887 阅读:173 留言:0更新日期:2015-01-30 05:51
本发明专利技术公开了一种GPU上数据流处理系统及其数据流处理方法,属于GPU上数据流处理的技术领域,一种GPU上数据流处理系统,数据源的数据流通过数据流处理系统至客户端,数据流处理系统包括CPU主机和GPU设备;CPU主机包括CPU端加载引擎模块、CPU端缓冲模块、数据流预处理模块、数据流减负模块和可视化模块;GPU设备包括GPU端加载引擎模块、GPU端缓冲模块、数据流概要抽取模块、数据流处理模型库和数据流处理模块;CPU端加载引擎模块的装载或存储单元通过互联网络与数据源、GPU端加载引擎模块的装载或存储单元以及客户端的交互。本发明专利技术具有显著的速度优势,很好地满足了高维数据流的实时性需求,可以作为通用的分析方法广泛应用于高维数据流挖掘领域。

【技术实现步骤摘要】
一种GPU上数据流处理系统及其数据流处理方法
本专利技术涉及一种GPU上数据流处理的
,具体地说是一种GPU上数据流处理系统及其数据流处理方法。
技术介绍
GPU(GraphicProcessingUnit),中文翻译为“图形处理器”。GPU是显卡的“心脏”,也就相当于CPU在电脑中的作用。GPU具有相当高的内存带宽,以及大量的执行单元,它可帮助CPU进行一些复杂的计算工作,使显卡减少了对CPU的依赖。传统上,GPU的应用被局限于处理图形渲染计算任务,无疑是对计算资源的极大浪费。随着GPU可编程性的不断提高,利用GPU完成通用计算的研究渐渐活跃起来。将GPU用于图形渲染以外领域的计算成为GPGPU(General-purposecomputingongraphicsprocessingunits,基于GPU的通用计算)。GPGPU计算通常采用CPU+GPU异构模式,由CPU负责执行复杂逻辑处理和事务管理等不适合数据并行的计算,由GPU负责计算密集型的大规模数据并行计算。这种利用GPU强大处理能力和高带宽弥补CPU性能不足的计算方式在发掘计算机潜在的性能,在成本和性价比方面有显著优势。但是传统的GPGPU受硬件可编程和开发方式的制约,应用领域受到了限制,开发难度也很大。2007年,由NVIDIA推出的CUDA(ComputeUnifiedDeviceArchitecture,统一计算设备架构),这一编程接口弥补了传统GPGPU的不足。利用CUDA编程接口,可以用C语言直接调用GPU资源,而无需将其映射到图形API,为GPU的非图形编程普及消除了障碍。CUDA模型将CPU作为主机(Host),GPU作为协处理器(co-processor)或设备(device),两者协同工作。CPU负责进行逻辑性强的事物处理和串行计算,GPU则专注于执行高度线程化的并行处理任务。CPU、GPU各自拥有相互独立的存储器地址空间:主机端内存和设备端显存。一旦确定了程序中的并行计算函数(kernel),就考虑把这部分计算交给GPU。(数据流的定义)数据流实际上就是连续移动的元素队伍,其中的元素是由相关数据的集合组成。令t表示任一时间戳,at表示在该时间戳到达的数据,流数据可以表示成{…,at-1,at,at+1,…}.区别于传统应用模型,流数据模型具有以下4点共性:(1)数据实时到达;(2)数据到达次序独立,不受应用系统所控制;(3)数据规模宏大且不能预知其最大值;(4)数据一经处理,除非特意保存,否则不能被再次取出处理,或者再次提取数据代价昂贵。同时,流是以双重身份出现的:(1)作为一个软件可见的程序变量存在。(2)作为一个硬件可见的管理单位存在。实际应用中流往往具有很多属性,当流被映射到硬件中时,这些属性仍然被保持或者变个形式被硬件所见。现有技术的数据挖掘中,为了消除数据中的噪音、空值和异常值等错误数据,以保证结果的准确性,通常会在挖掘数据库中的静态数据集之前进行预处理操作;当然,数据流中也避免不了各种错误数据,为了提高挖掘结果的精确度,对其进行预处理也是十分必要的。然而数据流挖掘一般都是在线进行的,无法在挖掘前预处理数据。GPU并行计算如何在数据流挖掘领域应用?在计算资源受限的环境下,如何保证数据流处理的实时性和通用性?
技术实现思路
本专利技术的技术任务是提供一种具有显著的速度优势,很好地满足了高维数据流的实时性需求,可以作为通用的分析方法广泛应用于高维数据流挖掘领域的一种GPU上数据流处理系统及其数据流处理方法。本专利技术的技术任务是按以下方式实现的,数据源输出的是高维的时间序列数据流,经数据流处理系统处理后,再输出给客户端的是数据流的频繁模式或查询结果。一种GPU上数据流处理系统,数据源(datasources)的数据流通过数据流处理系统至客户端(client),数据流处理系统包括CPU主机(CPU-Host)和GPU设备(GPU-Device);CPU主机包括CPU端加载引擎模块(CPU-SideLoadEngineArea)、CPU端缓冲模块(CPU-SideBufferArea)、数据流预处理模块(DataStreamPreprocessingArea)、数据流减负模块(DataStreamLoadSheddingArea)和可视化模块(VisualArea),CPU端加载引擎模块设置有装载或存储单元(Load/StoreUnit),CPU端缓冲模块设置有内存(MainMemory,MM),CPU端加载引擎模块的装载或存储单元、数据流预处理模块、数据流减负模块和可视化模块均与CPU端缓冲模块的内存连接交互,CPU端加载引擎模块的装载或存储单元与可视化模块连接交互;GPU设备包括GPU端加载引擎模块(GPU-SideLoadEngineArea)、GPU端缓冲模块(GPU-SideBufferArea)、数据流概要抽取模块(DataStreamSynopsisExtractionArea)、数据流处理模型库(DataStreamProcessingModelLibrary)和数据流处理模块(DataStreamProcessingArea),GPU端加载引擎模块设置有装载或存储单元(Load/StoreUnit),GPU端缓冲模块设置有显存(DeviceMemory,DM),数据流概要抽取模块用于集成概要抽取方法供数据流处理模块调用,数据流处理模型库用于集成数据流处理算法供数据流处理模块调用,GPU端加载引擎模块的装载或存储单元、数据流处理模块均与GPU端缓冲模块的显存连接交互,数据流概要抽取模块、数据流处理模型库均与GPU端加载引擎模块的装载或存储单元连接,GPU端缓冲模块的显存中开辟有存储空间为滑动窗口;CPU端加载引擎模块的装载或存储单元通过互联网络(InterconnectionNetwork)与数据源、GPU端加载引擎模块的装载或存储单元以及客户端的交互。CPU端缓冲模块还设置有用于管理内存的内存管理器,内存管理器内设置有输入监测器,输入监测器用于监视内存中临时存储未处理的数据流;CPU端加载引擎模块包括速度调节器(SpeedRegulator)、装载或存储单元(Load/StoreUnit)和初始化集成器(InitializationIntegrator);速度调节器用于根据内存的缓存状态调整数据源的数据流流入CPU端加载引擎模块的装载或存储单元内的流速,速度调节器内设有反馈机制(FeedbackMechanism);初始化集成器用于集成CPU主机和GPU设备的初始化操作。一种GPU上数据流处理方法,数据源输出的数据流通过数据流处理系统处理后将数据结果传输至客户端;数据流的处理流程如下:(1)、加载数据流:数据源中的数据流流入CPU端加载引擎模块的装载或存储单元,由CPU端加载引擎模块的装载或存储单元将数据流存储到CPU端缓冲模块的内存中;(2)、数据流预处理:数据流预处理模块将内存中的原始数据流进行预处理,并把预处理过的数据流存入内存;(3)、传输数据流:预处理过的数据流由内存至CPU端加载引擎模块的装载或存储单元,由CPU端加载引擎模块的装载或存储单元至互联网络,经互联网络到达GPU端加载引擎本文档来自技高网
...
一种GPU上数据流处理系统及其数据流处理方法

【技术保护点】
一种GPU上数据流处理系统,其特征在于数据源的数据流通过数据流处理系统至客户端,数据流处理系统包括CPU主机和GPU设备;CPU主机包括CPU端加载引擎模块、CPU端缓冲模块、数据流预处理模块、数据流减负模块和可视化模块,CPU端加载引擎模块设置有装载或存储单元,CPU端缓冲模块设置有内存,CPU端加载引擎模块的装载或存储单元、数据流预处理模块、数据流减负模块和可视化模块均与CPU端缓冲模块的内存连接交互,CPU端加载引擎模块的装载或存储单元与可视化模块连接交互;GPU设备包括GPU端加载引擎模块、GPU端缓冲模块、数据流概要抽取模块、数据流处理模型库和数据流处理模块,GPU端加载引擎模块设置有装载或存储单元,GPU端缓冲模块设置有显存,数据流概要抽取模块用于集成概要抽取方法供数据流处理模块调用,数据流处理模型库用于集成数据流处理算法供数据流处理模块调用,GPU端加载引擎模块的装载或存储单元、数据流处理模块均与GPU端缓冲模块的显存连接交互,数据流概要抽取模块、数据流处理模型库均与GPU端加载引擎模块的装载或存储单元连接,GPU端缓冲模块的显存中开辟有存储空间为滑动窗口;CPU端加载引擎模块的装载或存储单元通过互联网络与数据源、GPU端加载引擎模块的装载或存储单元以及客户端的交互。...

【技术特征摘要】
1.一种GPU上数据流处理系统,其特征在于数据源的数据流通过数据流处理系统至客户端,数据流处理系统包括CPU主机和GPU设备;CPU主机包括CPU端加载引擎模块、CPU端缓冲模块、数据流预处理模块、数据流减负模块和可视化模块,CPU端加载引擎模块设置有装载或存储单元,CPU端缓冲模块设置有内存,CPU端加载引擎模块的装载或存储单元、数据流预处理模块、数据流减负模块和可视化模块均与CPU端缓冲模块的内存连接交互,CPU端加载引擎模块的装载或存储单元与可视化模块连接交互;GPU设备包括GPU端加载引擎模块、GPU端缓冲模块、数据流概要抽取模块、数据流处理模型库和数据流处理模块,GPU端加载引擎模块设置有装载或存储单元,GPU端缓冲模块设置有显存,数据流概要抽取模块用于集成概要抽取方法供数据流处理模块调用,数据流处理模型库用于集成数据流处理算法供数据流处理模块调用,GPU端加载引擎模块的装载或存储单元、数据流处理模块均与GPU端缓冲模块的显存连接交互,数据流概要抽取模块、数据流处理模型库均与GPU端加载引擎模块的装载或存储单元连接,GPU端缓冲模块的显存中开辟有存储空间为滑动窗口;CPU端加载引擎模块的装载或存储单元通过互联网络与数据源、GPU端加载引擎模块的装载或存储单元以及客户端的交互;CPU端加载引擎模块的装载或存储单元用于将数据源的数据流存储到CPU端缓冲模块的内存中,并用于将内存回传的预处理过的数据流经互联网络送达GPU端加载引擎模块的装载或存储单元,并用于将GPU端加载引擎模块的装载或存储单元回传的数据结果加载到内存,并用于将数据结果发送给可视化模块,并用于将可视化模块规范化后的数据结果展示给客户端;数据流预处理模块用于将CPU端缓冲模块的内存中的原始数据流进行预处理,并把预处理过的数据流存入内存;CPU端缓冲模块的内存用于与CPU端加载引擎模块的装载或存储单元进行交互,并用于和数据流预处理模块进行交互;GPU端加载引擎模块的装载或存储单元用于将CPU端加载引擎模块的装载或存储单元经过互联网络传输过来的预处理过的数据流加载到GPU端缓冲模块的显存的滑动窗口中,并用于将显存回传的数据结果经互联网络送达至CPU端加载引擎模块的装载或存储单元;数据流处理模块用于调用数据流概要抽取模块中的概要抽取方法,对滑动窗口中的数据流进行概要抽取,并将最终形成的概要数据结构存储到显存中;并且数据流处理模块用于调用数据流处理模型库中的数据流处理算法对概要数据进行处理,并把处理的数据结果存储到显存;GPU端缓冲模块的显存用于与GPU端加载引擎模块的装载或存储单元进行交互,并用于和数据流处理模块进行交互;可视化模块用于将数据结果规范化之后发送给CPU端加载引擎模块的装载或存储单元。2.根据权利要求1所述的一种GPU上数据流处理系统,其特征在于CPU端缓冲模块还设置有用于管理内存的内存管理器,内存管理器内设置有输入监测器,输入监测器用于监视内存中临时存储未处理的数据流;CPU端加载引擎模块包括速度调节器、装载或存储单元和初始化集成器;速度调节器用于根据内存的缓存状态调整数据源的数据流流入CPU端加载引擎模块的装载或存储单元内的流速,速度调节器内设有反馈机制;初始化集成器用于集成CPU主机和GPU设备的初始化操作。3.一种GPU上数据流处理方法,其特征在于数据源输出的数据流通过权利要求1或2中任意一种数据流处理系统处理后将数据结果传输至客户端;数据流的处理流程如下:(1)、加载数据流:数据源中的数据流流入CPU端加载引擎模块的装载或存储单元,由CPU端加载引擎模块的装载或存储单元将数据流存储到CPU端缓冲模块的内存中;(2)、数据流预处理:数据流预处理模块将内存中的原始数据流进行预处理,并把预处理过的数据流存入内存;(3)、传输数据流:预处理过的数据流由内存至CPU端加载引擎模块的装载或存储单元,由CPU端加载引擎模块的装载或存储单元至互联网络,经互联网络到达GPU端加载引擎模块的装载或存储单元,再由GPU端加载引擎模块的装载或存储单元将其加载到显存的滑动窗口中;(4)、数据流概要抽取:由数据流处...

【专利技术属性】
技术研发人员:卢晓伟沈铂周勇
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1