基于大数据平台的海量医疗数据分析系统技术方案

技术编号:21574279 阅读:131 留言:0更新日期:2019-07-10 16:08
本发明专利技术公布一种基于大数据平台的海量医疗数据分析系统,该系统包括:数据层、访问控制层以及应用层;其中,所述数据层是最底层,主要负责实现文件的分片管理和负载均衡控制;所述访问控制层是中间层,负责对所述数据层提供的原始数据集进行并行计算处理,并将处理结果上交至所述应用层;所述应用层是系统的最高层,负责为用户提供了操作界面接口。本发明专利技术方案引入Hadoop技术构架,将海量异构数据经特征抽取后产生的结果保存至磁盘,同时融合了多节点分布式计算技术,将各类纷繁复杂的数据进行有效地撷取管理并整合成为具备支持决策的实用数据源,实现了医院对于海量医疗数据的整合加工及定量分析的需求。

Massive Medical Data Analysis System Based on Big Data Platform

【技术实现步骤摘要】
基于大数据平台的海量医疗数据分析系统
本专利技术属于大数据分析
,涉及一种基于大数据平台的海量医疗数据分析系统。
技术介绍
近年来,计算机技术和互联网技术得到了前所未有的飞速发展,人类社会迈入了大数据时代,医疗产业信息化建设也随之不断加速,各类医疗信息数据量呈现出了爆炸式的增长趋势。传统的以数据仓库存储模式为主体医院信息系统(HIS)由于受到硬件成本的限制,对于大量非结构化数据处理时容易遇到性能瓶颈,很难做到存储能力和计算能力的双向扩展。在IT系统和计算机网络的相关基础设施及应用中,时刻都在产生大量的数据信息,如何在合理时间内将各类纷繁复杂的数据进行有效地撷取管理,并整合成为具备支持决策的实用数据源已成为现阶段的研究热点。目前众多机构虽然已经拥有了数量较大的原始积累数据,却普遍缺乏高效的数据挖掘分析手段,同时数据仓库的日常维护成本也在逐年升高。
技术实现思路
本专利技术目的在于提供一种基于大数据平台的海量医疗数据分析系统,针对目前部分医院对于庞大医疗数据处理能力匮乏问题,引入Hadoop技术构架,将海量异构数据经特征抽取后产生的结果保存至磁盘,同时融合了多节点分布式计算技术,将各类纷繁复杂的数据进行有效地撷取管理并整合成为具备支持决策的实用数据源,有效地改善了传统医疗数据信息系统分析效率较低的现状,实现了医院对于海量医疗数据的整合加工及定量分析的需求。为解决上述技术问题,本专利技术采用如下的技术方案:一种基于大数据平台的海量医疗数据分析系统,该系统包括:数据层、访问控制层以及应用层;其中,所述数据层是最底层,主要负责实现文件的分片管理和负载均衡控制;所述访问控制层是中间层,负责对所述数据层提供的原始数据集进行并行计算处理,并将处理结果上交至所述应用层;所述应用层是系统的最高层,负责为用户提供了操作界面接口。进一步地,所述数据层负责将现有的医院信息系统提交的各类医疗数据文件通过切割分块的形式保存至Hadoop集群数据节点。进一步地,所述访问控制层由命名节点模块与运算中心子模块组成;其中,所述命名节点子模块管理命名空间镜像以及各文件块和数据节点的对应关系;所述运算中心子模块通过调用命名节点提供的元数据信息,对原始数据集进行Map/Reduce处理,并指导文件的读写流程。进一步地,所述应用层主要可使用户通过本层接口向所述访问控制层下达操作指令以及接收系统的辅助诊断报告及数据统计分析结果。本专利技术与现有技术相比具有以下的有益效果:本专利技术方案针对目前部分医院对于庞大医疗数据处理能力匮乏问题,引入Hadoop技术构架,将海量异构数据经特征抽取后产生的结果保存至磁盘,同时融合了多节点分布式计算技术,将各类纷繁复杂的数据进行有效地撷取管理并整合成为具备支持决策的实用数据源,有效地改善了传统医疗数据信息系统分析效率较低的现状。附图说明图1是基于大数据平台的海量医疗数据分析系统的整体框架设计图。图2是基于大数据平台的海量医疗数据分析系统的分布式存储实现原理图。具体实施方式下面结合附图及具体实施例对本专利技术进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。参照图1,本专利技术的一种基于大数据平台的海量医疗数据分析系统,该系统包括:数据层、访问控制层以及应用层;其中,所述数据层是最底层,主要负责实现文件的分片管理和负载均衡控制;所述访问控制层是中间层,负责对所述数据层提供的原始数据集进行并行计算处理,并将处理结果上交至所述应用层;所述应用层是系统的最高层,负责为用户提供了操作界面接口。针对目前各大医院内部医疗数据信息化建设的实际运行情况,本系统通过与传统的医院信息系统进行协同工作,可以对现有单节点医疗数据库中存放各类医疗数据转为分布式存储管理;并通过调用运算中心子模块设计的Map/Reduce算法,实现对海量数据的高效统计分析和医疗辅助诊断。数据层是由一系列安装了Linux操作系统的普通PC和现有医院信息系统的医疗数据库构成,Hadoop分布式文件系统(HDFS)运行在众多PC构成的数据节点集群中,主要负责对原始医疗数据进行导入和分布式存储管理,其工作原理如图2所示。目前现有的医院信息系统(HIS)主要由电子病历子系统(EMR)和影像归档通信子系统(PACS)构成,其中EMR用于存放病人的基本信息、医检结果以及诊断报告等结构化数据,PACS存放的是各类数字化医学影像、声音等非结构化数据。在Hadoop项目中,除HDFS和Map/Reduce编程模型外,还包括了结构化数据仓库基础构架Hive,非关系型数据库Hbase,以及传统数据仓库与HDFS之间的数据导入工具Sqoop等第三方模块。在将原始医疗数据进行分布式处理之前,先在命名节点中安装Hive和Hbase,再利用Sqoop工具提供的JavaAPI与传统医疗数据库连接。需要导入的各类数据,首先判断其是否为结构化数据,如果是结构化数据,Sqoop工具将通过JDBC/ODBC接口连接Hive,然后查询与该数据对应的存储表单是否已经存在,如果不存在则创建新表后存入Hive;如果已经存在,再判断数据量是否超过设定阀值(Threshold),如果没有超过,直接存入Hive;如果超过,则需要增加分区后再存入Hive。当数据为非结构化数据时,Sqoop工具将通过Hbase接口连接Hbase,并提交插入请求;请求得到响应后,再对Hbase表进行扫描并定位插入位置,同时设定时间戳,将数据插入Hbase数据库。数据写入HDFS的执行流程如下所示:(1)客户端开发库(Client)启动数据节点,并向上层的命名节点发起RPC请求。(2)命名节点会检查需要创建的文件是否已经存在以及创建者的操作权限,若检查成功,则为文件创建一个记录;检查失败,向客户端抛出异常。(3)当RPC写入请求得到响应后,客户端开发库(Client)会将需要写入的文件切分成多个Packets,然后向命名节点申请新的Blocks,并将本地文件与HDFS数据块的映射列表,以“块报告”的形式提交给命名节点。(4)命名节点向客户端返回所管理的数据节点的配置信息,客户端将根据数据节点的IP地址,以管道(Pipeline)的形式,按顺序写入到每一个数据块节点中。当原始医疗数据全部写入HDFS后,命名节点将所有文件的元数据信息(如文件的属性,文件的块列表,文件块与数据节点的对应关系等)提交给运算中心,运算中心会根据设计好的Map/Reduce算法对分布式文件集进行特定的读写操作和分析处理。在患者实际就医过程中,通常需要进行大量的医疗检查,由于患者的体质差异,同一类型疾病的医检项目可能会在不同患者的检查过程中呈现出不同的数据结果。因此,部分患者在医检过后,还需要经过一段时间的入院观察治疗才能最终定性所患疾病的具体类型。而在医院现存的电子病历中,包含了众多已确诊病症的医检数据及患者的个人信息,基于Hadoop的医疗大数据分析系统,可以通过对HDFS中存放的所有电子病历文件进行Map/Reduce处理,将不同病症的各类医检项目数据值进行区间归纳,并生成辅助检测模板以提高医院的工作效率,同时还可以对各年龄段患者的主要易发病进行高速数据统计。算法实现如下:Mapper算法:(1)打开电子病历文件,当文件非空且本文档来自技高网...

【技术保护点】
1.基于大数据平台的海量医疗数据分析系统,其特征在于,所述系统包括:数据层、访问控制层以及应用层;其中,所述数据层是最底层,主要负责实现文件的分片管理和负载均衡控制;所述访问控制层是中间层,负责对所述数据层提供的原始数据集进行并行计算处理,并将处理结果上交至所述应用层;所述应用层是系统的最高层,负责为用户提供了操作界面接口。

【技术特征摘要】
1.基于大数据平台的海量医疗数据分析系统,其特征在于,所述系统包括:数据层、访问控制层以及应用层;其中,所述数据层是最底层,主要负责实现文件的分片管理和负载均衡控制;所述访问控制层是中间层,负责对所述数据层提供的原始数据集进行并行计算处理,并将处理结果上交至所述应用层;所述应用层是系统的最高层,负责为用户提供了操作界面接口。2.根据权利要求1所述的基于大数据平台的海量医疗数据分析系统,其特征在于,所述数据层负责将现有的医院信息系统提交的各类医疗数据文件通过切割分块的形式保存至Hadoop集群数据...

【专利技术属性】
技术研发人员:周峻松徐继峰祁建明陈墩金
申请(专利权)人:广州明领基因科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1