分布式混合架构的海量数据处理和可视化系统及方法技术方案

技术编号:10868626 阅读:176 留言:0更新日期:2015-01-07 09:57
本发明专利技术涉及分布式混合架构的海量数据处理和可视化系统及方法,其特征在于,硬件系统包括:一台高性能图形工作站,一台的高速磁盘阵列,若干台计算节点,一台千兆或万兆以太网交换机,一台路由器;相应数据处理和可视化方法包括前端工作站方法和计算节点方法,前端工作站方法运行在前端工作站上,在计算节点必要的配合下,完成数据加载、数据处理、可视化和交互操作等工作;计算节点方法运行在计算节点上,以守护进程的方式运行,监听特定端口,检测到有计算任务发来,则根据任务信息启动相应的外存算法对数据进行处理,并将计算状态信息返回给前端工作站。本发明专利技术可以最大程度地保证网络带宽的利用率,同时提高前端工作站的用户操作响应速度。

【技术实现步骤摘要】
分布式混合架构的海量数据处理和可视化系统及方法
本专利技术涉及一种海量数据处理和可视化系统,特别是关于一种分布式混合架构的 海量数据处理和可视化系统及方法。
技术介绍
随着各种图像获取设备硬件技术和成像手段的不断发展,所获得数据的空间分辨 率越来越高,同时采集的数据从静态的三维标量场向动态的四维标量场的转变,使得设备 获取的数据量急剧上升,数据量庞大,给传统的标量场数据处理和可视化方法带来了严峻 的挑战,对于一些复杂的可视化方法,要获得实时交互的处理速度尤其困难。近年来,针对 海量数据的处理和可视化方法的研究主要集中在三个方面:1、设计高效的外存算法对海量 数据进行处理。外存算法主要采用两种计算模式:一种是批处理计算模式,若处理过程中 对原始数据的访问是有序的或者能够通过某种方式转化成有序访问,则适合用此种计算模 型;另一种是在线计算模型,其基本出发点是将海量原始数据进行分块处理,使分块后的 数据能够载入内存,同时将分块后的数据组织成便于高效检索的结构,在计算时可直接通 过查询操作取得所需数据。2、采用各种并行技术对海量数据进行处理。并行技术是对海量 数据进行高效处理和可视化的关键技术之一,这项技术通过加入大量的硬件计算单元对海 量数据进行同步并行处理。这类方法主要采用MPI (Message Passing Interface,消息传递 接口)或者分布式的计算模式在大范围的联网硬件平台上实现对海量数据的快速处理。3、 基于图形处理单元(GPU)的并行能力设计高效的海量数据可视化算法。高性能的gpu具有 强大的浮点运算能力和灵活的编程接口,基于其强大的并行处理特性,GPU有望成为未来高 性能浮点运算的有力工具。海量标量场数据处理和可视化领域,目前缺乏一个技术成熟,目 标明确,方便可用的海量数据处理和可视化系统,以ParaView为代表的大型软件虽然数据 处理和可视化功能较为强大,但由于其采用分布式存储和计算的模式,基于MPI实现计算 节点之间的协同工作,导致计算节点配置复杂,对计算节点本身以及网络传输的可靠性要 求较高,不利于构建稳定可靠的分布式海量数据处理和可视化系统。
技术实现思路
针对上述问题,本专利技术的目的是提供一种高效、稳定、可靠、交互性能好的分布式 混合架构的海量数据处理和可视化系统及方法。 为实现上述目的,本专利技术采取以下技术方案:分布式混合架构的海量数据处理和 可视化系统,其特征在于,它包括一前端工作站、一数据存储中心、若千计算节点和一套网 络设备;所述前端工作站是高性能图形工作站,用于对海量数据的实时显示和交互操作,同 时管理网络中可供使用的所述计算节点,向所述计算节点发布计算任务;所述数据存储中 心是高速磁盘阵列,用于存储海量原始数据,并提供对海量数据的高速共享和读写访问;所 述计算节点是具备计算能力的硬件设备,其采用分布式并行的方式运行耗时的海量数据处 理算法;所述网络设备包括一千兆或万兆以太网交换机,用于构建高速骨干网络;一路由 器,用于和外网存在的所述计算节点建立通信链路;支持千兆或万兆传输速率的高速网线; 所述前端工作站、数据存储中心和计算节点用高速网线连接到所述以太网交换机,构成高 速骨干网,同时,所述骨干网通过一路由器和防火墙与外部网络相连,用于与分布在不同物 理位置的所述计算节点建立通信链路。 所述前端工作站配备有高性能的CPU、GPU、大容量高速内存,以及至少一块千兆或 万兆高速以太网卡。 所述数据存储中心至少配备一块千兆或万兆高速以太网卡。 -种分布式混合架构的海量数据处理和可视化方法,它包括以下步骤:1)设置一 包括前端工作站、数据存储中心、计算节点和网络设备的分布式混合架构的海量数据处理 和可视化系统;2)前端工作站在计算节点的配合下,完成数据加载、数据处理和对原始海 量数据做多级重采样的可视化和交互操作;3)基于预处理结果,进行以下操作:①读取消 息循环中下一条消息;②判断当前消息是否是窗口尺寸改变消息,若是则根据当前渲染窗 口尺寸,计算能广生最清晰体绘制投影结果的最佳数据级数k,然后设置窗口刷新方式为 正常刷新,并发送窗口刷新消息后,回到步骤①;否则进入步骤③;③判断当前消息是否 是鼠标交互消息,若是则处理鼠标消息,更新相关场景渲染参数,然后设置窗口刷新方式为 鼠标交互刷新,并发送窗口刷新消息,回到步骤①;否则进入步骤④;④判断当前消息是 否是窗口刷新消息,若是进入步骤⑤;否则回到步骤①;⑤判断当前窗口刷新消息的刷新 方式是否是鼠标交互刷新,若是则采用OpenGL着色语言实现的光线投射体绘制算法,对 第η级数据进行GHJ加速体绘制渲染,并显示渲染结果后,回到步骤①;否则进入步骤⑥; ⑥判断第k级数据的数据量是否小于某一给定阈值Τ,若是则采用OpenGL着色语言实现的 光线投射体绘制算法,利用GPU的并行计算能力,对第k级数据进行GPU加速体绘制渲染, 并显示渲染结果后,回到步骤①;否则采用OpenMP实现的光线投射体绘制算法,利用多核 CPU的并行计算能力,启动第k级数据的体绘制渲染,然后进入步骤⑦;⑦检测消息循环中 是否有鼠标交互消息,若是则中断当前绘制过程,回到步骤①;否则进入步骤⑧;⑧判断渲 染是否结束,若是则显示渲染结果后,回到步骤①;否则完成下一个投影像素点的计算,并 回到步骤⑦。 所述步骤2)中的数据加载过程包括以下步骤:①由前端工作站计算待加载数据 的数据量;②判断待加载数据的数据量是否超过预先设定的阈值,若待加载数据的数据量 超过预先设定的阈值,说明其为海量数据,则进入步骤③;否则将数据加载到前端工作站1 的内存中以备后续渲染和处理,并进入步骤⑧;③遍历计算节点列表,查找可用计算节点, 与可用计算节点建立TCP连接,将数据加载任务,传送到可用计算节点;④监听已建立连接 的计算节点回的状态信息;⑤对计算节点发回的状态信息进行判断:若计算节点发回错 误信息,则进入步骤⑧;否则进入步骤⑥;⑥继续对计算节点回的状态信息进行判断,若计 算节点发回结束信息,则进入步骤⑦;否则回到步骤④;⑦前端工作站根据计算节点发 回的关于加载后的数据存储位置的信息,到数据存储中心读取相应数据,然后进入步骤⑧; ⑧结束数据加载过程并显示加载结果。 所述步骤2)中的数据处理过程包括以下步骤:①由前端工作站计算待处理数据 的数据量;②判断待处理的数据量是否超过预先设定的阈值,若待处理数据的数据量超过 预先设定的阈值,说明其为海量数据,则进入步骤③;否则直接在前端工作站执行相应内存 算法对数据进行处理,并进入步骤⑧;③遍历计算节点列表,查找可用计算节点,与可用计 算节点建立TCP连接,将数据处理任务,传送到可用计算节点;④监听已建立连接的计算节 点发回的状态信息;⑤对计算节点发回的状态信息进行判断:若计算节点发回错误信 息,则进入步骤⑧;否则进入步骤⑥;⑥继续对计算节点发回的状态信息进行判断,若计算 节点发回结束消息,则进入步骤⑦;否则回到步骤④;⑦前端工作站根据计算节点发回 的处理后的数据存储位置,到数据存储中心读取相应数据,然后进入步骤⑧;⑧结束数据处 理过程并显示处理结果。 所述步骤2)中,对原始海量数据本文档来自技高网
...
分布式混合架构的海量数据处理和可视化系统及方法

【技术保护点】
分布式混合架构的海量数据处理和可视化系统,其特征在于,它包括一前端工作站、一数据存储中心、若干计算节点和一套网络设备;所述前端工作站是高性能图形工作站,用于对海量数据的实时显示和交互操作,同时管理网络中可供使用的所述计算节点,向所述计算节点发布计算任务;所述数据存储中心是高速磁盘阵列,用于存储海量原始数据,并提供对海量数据的高速共享和读写访问;所述计算节点是具备计算能力的硬件设备,其采用分布式并行的方式运行耗时的海量数据处理算法;所述网络设备包括一千兆或万兆以太网交换机,用于构建高速骨干网络;一路由器,用于和外网存在的所述计算节点建立通信链路;支持千兆或万兆传输速率的高速网线;所述前端工作站、数据存储中心和计算节点用高速网线连接到所述以太网交换机,构成高速骨干网,同时,所述骨干网通过一路由器和防火墙与外部网络相连,用于与分布在不同物理位置的所述计算节点建立通信链路。

【技术特征摘要】
1. 分布式混合架构的海量数据处理和可视化系统,其特征在于,它包括一前端工作站、 一数据存储中心、若干计算节点和一套网络设备; 所述前端工作站是高性能图形工作站,用于对海量数据的实时显示和交互操作,同时 管理网络中可供使用的所述计算节点,向所述计算节点发布计算任务; 所述数据存储中心是高速磁盘阵列,用于存储海量原始数据,并提供对海量数据的高 速共享和读写访问; 所述计算节点是具备计算能力的硬件设备,其采用分布式并行的方式运行耗时的海量 数据处理算法; 所述网络设备包括一千兆或万兆以太网交换机,用于构建高速骨干网络;一路由器,用 于和外网存在的所述计算节点建立通信链路;支持千兆或万兆传输速率的高速网线; 所述前端工作站、数据存储中心和计算节点用高速网线连接到所述以太网交换机,构 成高速骨干网,同时,所述骨干网通过一路由器和防火墙与外部网络相连,用于与分布在不 同物理位置的所述计算节点建立通信链路。2. 如权利要求1所述的分布式混合架构的海量数据处理和可视化系统,其特征在于, 所述前端工作站配备有高性能的CPU、GPU、大容量高速内存,以及至少一块千兆或万兆高速 以太网卡。3. 如权利要求1所述的分布式混合架构的海量数据处理和可视化系统,其特征在于, 所述数据存储中心至少配备一块千兆或万兆高速以太网卡。4. 如权利要求2所述的分布式混合架构的海量数据处理和可视化系统,其特征在于, 所述数据存储中心至少配备一块千兆或万兆高速以太网卡。5. -种采用如权利要求1?4中任一项所述系统的分布式混合架构的海量数据处理和 可视化方法,它包括以下步骤: 1) 设置一包括前端工作站、数据存储中心、计算节点和网络设备的分布式混合架构的 海量数据处理和可视化系统; 2) 前端工作站在计算节点的配合下,完成数据加载、数据处理和对原始海量数据做多 级重采样的可视化和交互操作; 3) 基于预处理结果,进行以下操作: ① 读取消息循环中下一条消息; ② 判断当前消息是否是窗口尺寸改变消息,若是则根据当前渲染窗口尺寸,计算能产 生最清晰体绘制投影结果的最佳数据级数k,然后设置窗口刷新方式为正常刷新,并发送 窗口刷新消息后,回到步骤①;否则进入步骤③; ③ 判断当前消息是否是鼠标交互消息,若是则处理鼠标消息,更新相关场景渲染参数, 然后设置窗口刷新方式为鼠标交互刷新,并发送窗口刷新消息,回到步骤①;否则进入步 骤④; ④ 判断当前消息是否是窗口刷新消息,若是进入步骤⑤;否则回到步骤①; ⑤ 判断当前窗口刷新消息的刷新方式是否是鼠标交互刷新,若是则采用OpenGL着 色语言实现的光线投射体绘制算法,对第η级数据进行GPU加速体绘制渲染,并显示渲染结 果后,回到步骤①;否则进入步骤⑥; ⑥ 判断第k级数据的数据量是否小于某一给定阈值Τ,若是则采用OpenGL着色语言实 现的光线投射体绘制算法,利用GPU的并行计算能力,对第k级数据进行GPU加速体绘制渲 染,并显示渲染结果后,回到步骤①;否则采用OpenMP实现的光线投射体绘制算法,利用多 核CPU的并行计算能力,启动第k级数据的体绘制渲染,然后进入步骤⑦; ⑦ 检测消息循环中是否有鼠标交互消息,若是则中断当前绘制过程,回到步骤①;否则 进入步骤⑧; ⑧ 判断渲染是否结束,若是则显示渲染结果后,回到步骤①;否则完成下一个投影像素 点的...

【专利技术属性】
技术研发人员:薛健吕科潘卫国
申请(专利权)人:中国科学院大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1