基于HDFS的区域医学影像分布式存储架构设计

发布者:Amybaby最新更新时间:2015-01-27 来源: 南方医科大学学报关键字:医学影像  分布式  架构 手机看文章 扫描二维码
随时随地手机看文章
    摘要:构建区域医学影像协作平台是均衡医疗资源、提高基层医院诊疗水平、降低医疗费用的有效途径,但是构建区域化影像平台在技术和成本上还存在巨大的挑战。本文详细分析了传统集中式存储和HDFS(Hadoop Distributed File System)分布式存储系统的优缺点,设计了一种适合HDFS特点的S-DICOM文件格式,以及集中式存储(FC SAN)和分布式存储(HDFS集群)结合的统一存储架构,开发了一套SDFO(S-DICOM File Operator)中间件,为上层的PACS应用组件提供透明的存储访问接口。测试结果表明此架构可以满足海量医学影像资料的快速存取和处理需求。

  随着X线机、CT、磁共振等大型影像设备在临床上的广泛应用,影像检查已成为临床诊断最重要的依据之一。但是昂贵的影像设备和重复的影像检查也成为医院和病人医疗支出的重要部分。同时,影像诊断难度大、操作复杂度高、专业性强,基层医院极其缺乏优秀的影像诊断人才。医疗设备和人才的不均衡,也是造成目前“看病难、看病贵”的重要原因。构建区域一体化的医疗协作平台,是均衡医疗资源、提高基层医院诊疗水平、实现“有序医疗”的重要途径。其中区域医学影像协作平台的构建,是区域医疗协作的重要组成部分,但是构建区域化的医学影像协作平台在技术和成本上还存在着巨大的挑战。

  1 构建区域医学影像协作平台面临的挑战

  数字医学影像技术目前已有成熟的国际标准,即DICOM 3.0,遵照其标准建设的 PACS 系统也已从单机、科室逐步发展到全院、区域。目前国内许多大型三甲医院已开展全院PACS应用,实现了医院无胶片化。PACS系统区域化将是下一阶段政府卫生部门和医疗机构的主要研究目标,但是构建大型区域医学影像中心和协作平台目前还面临巨大的挑战。

  1.1 建设费用高

  PACS 的数据量远远大于 HIS、LIS 等其它医疗系统,区域医学影像数据达到数百TB甚至PB级,采用传统存储架构(如FC SAN/iSCSI等)费用极高。

  1.2 传输带宽存在瓶颈

  即使是高性能的FC SAN,其网络带宽和处理能力也难以达到PB级数据的快速处理和传输要求。

  1.3 可用性受限

  大型医院PACS系统常用“在线-近线-离线”的存储模式,离线数据大多存储在磁带库中,其可用性较差,数据不能实时获取。

  1.4 缺乏一体化的应用平台

  目前的医学影像协作,如远程影像会诊基本采用“点对点”的模式,缺乏一体化、跨平台、高可用的区域医学影像协同应用软件。随着云计算技术的飞速发展,为构建低成本、高可用、高性能的区域医学影像协作平台提供了一条有效的途径。云计算是Google率先提出来的一种新的技术和运营模式,从应用范围来看,云计算可分为公有云、私有云和混合云。从服务模式来看,云计算可分为 IaaS、SaaS和PaaS。区域医学影像云计算平台属于混合云的范畴,我们承担的课题就是研究通过医疗集团内部医院之间的高速城域网、医保网、电子政务外网、互联网等传输介质,为各类医疗机构提供SaaS模式的医学影像协作应用系统,包括Web DICOM终端、影像会诊、影像转诊、远程教育、数字胶片代存等服务。而高性能、高可靠的海量图像存储系统将是医学影像云计算平台的基础和关键,本文主要介绍一种基于Hadoop 平台的分布式存储和传统集中式存储(FCSAN)相结合的存储架构的设计和实现。

  2 Hadoop 平台简介

  Hadoop是目前应用最广泛的开源分布式存储和计算平台之一。它是根据Google的GFS分布式文件系统和Map/Reduce分布式计算技术而开发的开源平台,其设计目标是在普通的硬件平台上构建大容量、高性能、高可靠的分布式存储和分布式计算架构。Hadoop目前已在Yahoo、Facebook、亚马逊、百度、中移动等公司取得了广泛应用。其中Yahoo、FaceBook等公司已构建了数千至数万台普通服务器组成的大型Hadoop应用集群,FaceBook上存储的图像数据量目前已超过1 PB即1024 TB)。

  2.1 Hadoop集群的特点和适用性

  Hadoop HDFS分布式文件系统具有如下特点:(1)非常适合海量数据的存储和处理;(2)可扩展性高,只需简单添加服务器数量,即可实现存储容量和计算能力的线性增长;(3)数据冗余度高,缺省每份数据在3台服务器上保留备份;(4)适合“流式”访问,即一次写入,多次读取,数据写入后极少修改,这非常适合医学影像文件的特点;(5)除了数据存储能力外,Hadoop MapReduce分布式计算框架还可充分利用各服务器CPU的计算资源,便于后期开展基于海量医学影像数据的图像融合、图像内容检索、三维重建等数据密集型计算。

    2.2 存在的问题

  Hadoop在构建医学影像存储系统时还存在以下问题:1)Hadoop的设计理念是针对大文件进行优化的,其默认的数据块大小为64 MB,而医学影像资料中常见的CT、MRI 的图像大小大多为 512 KB 左右,一次拍摄产生的图像数量大约为100 ~200幅,如果直接将这些大量的小文件存储在HDFS文件系统中,过多的小文件将导致HDFS的主节点NameNode内存消耗过大,降低整个集群的性能。2)HDFS的设计理念不适合实时应用,在数据写入的过程中,每个数据块需复制3份,其写入性能大大低于读取性能,因此不太适合需要快速获取图像资料并撰写诊断报告的PACS实时应用。

  3 系统设计

  针对上述问题,我们设计了一种适合Hadoop平台的序列DICOM文件格式(S-DICOM),以及一套传统的集中存储和HDFS分布式文件系统相结合的S-DICOM文件存储架构。

  3.1 S-DICOM文件格式

  CT、MRI等DICOM文件大小虽然只有512 KB左右,但是病人的每个部位的检查通常都有100~200张图片,这样每个病人每次检查的数据量也将达到50~100MB。而另一种常见的医学影像设备X线机(CR、DR),其单幅图像的数据量约为8~20 MB,每次检查拍摄的图片一般为2~4幅,其总数据量也满足HDFS文件系统的要求。因此,将一个病人一次检查的所有图像合并成一个文件,再存储到HDFS中是比较合理的。我们采用了Hadoop的SequenceFile文件格式,将每个DICOM文件转化成健值对(key/value)的形式,然后合并成一个单独的S-DICOM文件,其中key为原DICOM文件名,value为DICOM文件内容,文件格式(图1)。

基于HDFS的区域医学影像分布式存储架构设计

  3.2 混合式存储架构

  单纯的HDFS分布式文件系统不适合实时应用,但是具备低成本、高可扩展、高性能、高可靠的特点,传统的集中存储(FC SAN)则非常适合小文件的快速写。因此,结合两者的优点我们设计了一套混合式存储模式,其核心是SDFO(S-DICOM File Operator)中间件,主要用于屏蔽底层操作细节,为上层的SaaS模式医学影像应用系统和DICOM应用组件提供统一的图像查询、读取和写入接口。SDFO的核心主要由SDFO Lo-cator、SDFO Reader、SDFO Writer、SDFO Converter、SDFO Client 五个部分组成。SDFO Locator 用于检索DICOM 文件的存储位置,SDFO Reader 用于读取 DI-COM 文件,SDFO Writer 负责将从影像设备获取的图像写入集中存储(FC SAN),SDFO Converter负责定时将FC SAN中的DICOM图像转换为S-DICOM格式,合并后存储到HDFS中。其系统框架(图2)。

基于HDFS的区域医学影像分布式存储架构设计

  医院PACS系统中存储的图像,超过3个月后,其访问量将大大下降,因此我们将3个月内的DICOM文件以其原始文件格式存储在FC SAN中,超过3个月的图像则定时转换成S-DICOM格式,存储到HDFS中(也可根据需要设置存储超期时间)。利用Hadoop HDFS的线性扩展能力,我们可以将传统PACS的“在线-近线-离线”模式简化为“在线-近线”模式,解决离线数据可用性差的问题。

    3.2.1 图像读取流程

   SDFO 从 Hadoop HDFS 集群和FC SAN中检索和读取图像的流程(图3)。

基于HDFS的区域医学影像分布式存储架构设计

  (1)从DICOM Locator获取图像存放的路径,如果图像存放在FC SAN中,则跳至第6步;

  (2)从HDFS的NameNode获取文件数据块所在的DataNodes位置;

  (3)调用SDFO的read方法,开始获取图像;

  (4)从HDFS的DataNode 1获取第一个数据块,以此类推至其它的数据块,此步骤可以并行操作;

  (5)从HDFS的DataNode n中获取最后一个数据块,将所有的数据块合并成完整的文件,关闭HDFS数据流,并将其转换成标准的DICOM图像;

  (6)存放在FC SAN中的DICOM文件直接通过JAVA的本地文件系统接口读取。

  3.2.2 图像写入流程   

  SDFO 中间件中DICOM 文件的写入方式与传统的文件写入方式相同,直接通过JAVA本地文件系统接口写入FC SAN。

  3.2.3 图像转换流程

  图像转换流程定时将FC SAN中的 DICOM 文件合并成 S-DICOM 文件,存入 HDFS中。其转换流程(图4)。

基于HDFS的区域医学影像分布式存储架构设计

  (1)调用JAVA的本地文件系统接口,循环获取FCSAN 中某个文件夹下的文件列表(每个病人每次检查的所有图像存放在一个单独的文件夹中),将每个DI-COM文件转化成一个健值对(key/value),将key/vlaue健值对顺序写入一个单独的S-DICOM文件数据流;

  (2)调用DistributeFileSystem的create方法,通过NameNode的RPC接口创建文件,并获取用于存放数据块的DataNodes列表;

  (3)调用FSDataOutputStream,将S-DICOM文件转换成内部的数据队列,将数据写入第一个DataNode;

  (4)数据块写入成功后,第一个DataNode将写入的数据块复制到第二个DataNode,依次类推至第三个DataNode。

  (5)按相反的顺序,第三个DataNode写入成功后,依次向第二个和第一个DataNode返回ack packet,确认数据写入成功;

  (6)循环写入所有的数据块后,调用close方法关闭FSDataOutputStream;

  (7)向NameNode发送complete指令,确认文件写入完成,更新NameNode的元数据;

  (8)向DICOM Locator写入DICOM文件的存储路径。

  4 应用测试效果

  4.1 软硬件配置

  我们目前已搭建了20台服务器组成的Hadoop集群。CPU:Intel Xeon E5504;内存:8 GB DDR3;网卡:两块1000 Mbps以太网卡;硬盘:4块1 TB SATA。存储空间共计80 TB,按照Hadoop缺省配置,每个数据块在3台不同的服务器上保存副本,因此实际存储容量约为27 TB。每台服务器均接入千兆汇聚层交换机,汇聚层交换机万兆上联。操作系统:64位CentOS 5.4;Java环境:JDK 1.6.0-b09;Hadoop平台:Hadoop 0.20.2。

    4.2 测试结果

  DICOM图像的写入以及3个月内图像的读取均是直接通过FC SAN完成的,其性能与普通的PACS环境区别不大,因此我们主要测试读取3个月以前的S-DI-COM 图像以及将 DICOM 图像合并转换成 S-DICOM图像的性能。Hadoop支持分布式读写,我们分别测试了1~5个SDFO Client的情况下,S-DICOM读取和转换的性能如下表所示(单位:MB/s):

基于HDFS的区域医学影像分布式存储架构设计

  从测试结果可以看出SDFO的读性能基本是与Client 数量线性相关的,这是由于 Hadoop 中的数据块是均匀分布在各DataNode中的,读取文件时可以聚合各DataNode的网络带宽,随着DataNode数量的增大,其聚合的总带宽将远远超过传统的FC SAN传输速率。根据测试情况来看,客户端同时读取和转换一个病人一次检查的S-DICOM文件时间约为1~2 s左右,这样的延时对PACS系统的操作是可以忽略的。

  从测试结果也可看出Hadoop的写入性能不佳,单个Client写入HDFS的速率只能达到10 MB/s左右,这是由于HDFS写入文件时需要同时写入3个副本相关。

  但随着SDFO Client数量的增加,写入速率也相应增大,当SDFO Client数量为5时,总写入速率约为33MB/s。一个大型三甲医院PACS系统每天产生的图像数据量约为20 GB左右,全部转换成S-DICOM文件耗时约10 min,对于拥有较多医院的区域,可以通过增加SDFO客户端数量的方式,近似线性地提高转换和存储性能,在每天的夜间空闲时段进行数据转换任务也是可以接受的。

  5 总结与展望

  Hadoop平台是构建超大规模数据集群,实现存储聚合和数据密集型分布式计算的优秀平台,它可以有效解决构建区域医学影像数据中心的成本高、可扩展性差、传输带宽不足、离线数据可用性差的问题。但是Hadoop HDFS也存在不适合CT、MRI等小文件的存储及实时应用的问题。为此我们设计了一种S-DICOM文件格式,使其适应HDFS的特点,同时通过传统的集中式存储(FC SAN)和分布式存储(HDFS集群)组合的存储架构,开发了一套SDFO中间件,为上层的PACS应用组件提供透明的DICOM文件访问接口。该系统在测试平台上取得了比较满意的效果,能满足大型区域医学影像中心的功能和性能要求。今后我们将在此基础上开展进一步的研究工作:1)进一步提高系统的安全性,完善应用系统、存储架构和网络拓扑等方面的加密和授权机制,确保病人的隐私和数据安全;2)充分利用Hadoop集群的分布式计算能力,开发基于MapReduce算法的图像融合、图像内容检索、三维重建等应用。



 

关键字:医学影像  分布式  架构 引用地址:基于HDFS的区域医学影像分布式存储架构设计

上一篇:新技术可显著提升激光成像质量
下一篇:眼球追踪技术未来将用于诊断脑震荡

推荐阅读最新更新时间:2024-03-16 11:56

分布式图像拼接控制器技术解析
本文主要介绍了DVCS控制系统及其他控制器所采用的不同技术及特点分析。 1. 什么是分布式图像拼接控制器?它由哪些部分组成? 分布式图像拼接控制器是以IP网络作为信号传输的通道,采用实时影像处理技术,把各种视频信号源(RGB信号,视频信号,高清视频,音频信号等)进行压缩编码,把数据打包成能够在以太网上传输的IP码流,显示端接收各种信号码流并实时解码,将IP码流信号还原成视频信号进行显示。 分布式图像拼接控制器通常由以下几个部分组成: (1) 信号源输入处理器,能够将各种不同的视频信号(RGB信号,视频信号,高清信号,音频信号等)实时编码成能够在以太网上传输的IP码流; (2) 显示输出处理器,能够接收各种不同的
[嵌入式]
分布式太阳能是在北美组串式逆变器的主要市场
根据北美屋顶开发商反馈,分布式发电项目是在美国组串式逆变器的主要市场。 加拿大的Abundant Solar Energy拥有300MW屋顶项目储备,专注于大型C&I系统,但低于5MW。 Abundant Solar Energy的首席执行官Richard Lu表示:“在分布式发电领域,人们不再寻找大型集中式逆变器。人们正更多着眼于组串式逆变器。我们正在一个地点从事数百千瓦。” 至于微型逆变器,Lu对这项技术有所怀疑,称每个项目更多单位意味着更多的失败,尽管不那么显著,但他表示,这可能使投资者对于顺利运行电站感到迷茫。 Lu表示,组串式逆变器可以提供大数据,而其利益,必须在平常的成本效益分析中考量。 Lu表示:“对我而言,整体解决
[新能源]
Intel服务器处理器9月全面迈入四核心
今年9月2日,Intel将在桌面、移动和服务器三个领域同时做出调整,多款处理器的价格均会大幅下调,并推出一系列新产品。在服务器方面,Intel将正式发布Tigerton X eon MP 7300系列四路四核心处理器,从而使其服务器处理器产品线全面进入四核心时代。 Tigerton Xeon MP 7300系列共有8款型号,从高到低分别是X7350、E7340、E7330、E7320、L7345、E7220、E7210,主频1.60-2.93GHz,前端总线1066MHz,二级缓存4/6/8MB,售价从856美元到2301美元不等。 曾在去年10月份进行过展示的Tigerton Xeon MP 7300基于新的Core架构,
[焦点新闻]
MIPS分拆出售 Imagination取得与ARM架构对抗本钱
    MIPS曾是业界最受欢迎的RISC处理器架构,即便是现在,其架构先进程度亦超过对手,但因为商业经营策略的失败,加上高层在面对ARM强大市场压力下,已经没有能力以及意愿带领MIPS扩展业务,早在数年前就已经对市场放出有意愿出售... MIPS分拆出售 Imagination取得与ARM架构对抗本钱(1) MIPS出售分为2个部分,分别是489项剥离资产专利、82项与MIPS架构授权直接相关的保留专利,以及公司的经营业务。 其中AST联盟与ARM合资购买489项专利,而Imagination则购买82项MIPS架构专利,以及MIPS公司的经营业务。
[手机便携]
基于AUTOSAR软件架构的故障诊断逻辑
曾经看到汽车仪表出现故障灯时,总是很好奇想知道这个图标是什么意思,什么时候会出现,又什么时候会消失。恰好这两年接触到了这些知识,有所了解,在此分享给感兴趣的朋友。 本文将从系统,设计和实现3个角度来介绍汽车控制器(ECU)故障诊断系统: 在系统角度,了解为什么需要故障诊断系统,利用它可以做什么,以及它是什么; 在设计角度,了解故障怎么管理,怎么识别,怎么处理; 在实现角度,了解基于AUTOSAR架构的故障诊断系统实现机制。 1 ECU故障诊断系统介绍 汽车上任何一个零件或任何零件间都可能会产生失效,即使失效的概率极低,但没法保证百分之百不会失效。基于这样的事实,我们没办法阻止,但是尽可能去识别到潜在的失效,这样才能最大限度去避
[嵌入式]
基于AUTOSAR软件<font color='red'>架构</font>的故障诊断逻辑
AMD驳斥英特尔言论 称其不敢面对现实
  新浪科技讯 北京时间2月28日消息,据国外媒体报道,针对英特尔Conroe和Merom处理器在性能上比AMD同类产品高20%的言论,一位AMD高管上周五予以反击。AMD首席销售和营销长亨里-理查德(Henri Richard)在接受国外媒体采访时表示:“英特尔之所以发表这样的言论,主要因为不敢谈论现有产品。所有人都知道,英特尔现有的处理器并不怎么好。”   一位英特尔高管此前表示,将于今年下半年上市的新型英特尔处理器,在性能上比AM   D同类产品高20%。Conroe和Merom是首款采用英特尔下一代架构的台式机和笔记本处理器,这一架构可以看作是Core Duo理念的延伸,主要目标是降低功耗。英特尔现有的Pentium
[焦点新闻]
如何在现有整车架构和软件资产下进行SOA的设计开发
随着行业的 SOA 理念大火,带着一系列的解读和思考观点横行于世,笔者大多仔细研读过,虽然增加了很多碎片化知识和曾经的盲点,但也同样带来了更多的疑惑,本文撰写初衷是基于车厂的角度思考,如何在现有整车架构和软件资产下,进行 SOA 的设计开发,并从工具链和操作方法上给出案例。 1. 分布式 ECU-基于信号的架构设计 现在我们来看,在域控制器开发阶段,针对传统车厂,在分布式 ECU,或区域控制器集成,已经有了深厚的架构开发和经验积累的前提条件下,如何转型并进行中央域控的服务设计。 本章节描述现阶段,面对分布式 ECU,如何进行基于信号的整车电子电器架构开发。如下为介绍 MBSE 理论的较为经典文章。 服务设计相对软件架构设计影响较大
[嵌入式]
如何在现有整车<font color='red'>架构</font>和软件资产下进行SOA的设计开发
IDF:Intel新一代Nehalem架构解析
  以“芯动力 新世界”为主题的2008年春季英特尔信息技术峰会IDF(Intel Developer Forum)将于2008年4月2~3日在上海国际会议中心举行。从数字企业、移动计算到软件与解决方案、技术与研发,英特尔将与业界分享最新的产品、平台方面的技术动态,推动国内外IT业界的合作,促进信息产业的发展。这是2008年上半年全球唯一的一场IDF,再次选择在中国首发,凸显出中国在全球IT产业发展的重要战略地位。   Intel IDF 2008春季技术峰会第一天,Intel再次让大家感到其强悍的实力。Intel向大家展示了Nehalem强大的模块化设计的同时还将Nehalem的技术做了详细介绍。 Intel企业微处理器事
[新品]
小广播
添点儿料...
无论热点新闻、行业分析、技术干货……
最新医疗电子文章
换一换 更多 相关热搜器件

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 医学成像 家庭消费 监护/遥测 植入式器材 临床设备 通用技术/产品 其他技术 综合资讯

词云: 1 2 3 4 5 6 7 8 9 10

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved