一种基于Hadoop分布式文件预览方法及其系统技术方案

技术编号:7917758 阅读:246 留言:0更新日期:2012-10-25 02:49
本发明专利技术提供一种基于Hadoop分布式文件预览方法,包括:步骤1、将源文件存储于Hadoop分布式文件系统中;步骤2、将存储于Hadoop分布式文件系统的源文件转换成SWF文件和文本文件;步骤3、将文本文件进行索引提取,建立索引;步骤4、根据索引从Hadoop分布式存储中读取需要预览展示的SWF文件进行播放。本发明专利技术还提供一种基于Hadoop分布式文件预览方法。通过本发明专利技术提供一种基于Hadoop分布式文件预览方法及其系统,使得同时处理大文件多文件转换时效性得到显著提升,增强系统海量文件转换处理能力与海量索引检索能力,以及播放预览文件的流畅性。

【技术实现步骤摘要】

本专利技术涉及计算机领域,特别是涉及一种文件预览方法及系统。
技术介绍
文件预览是指将一定格式的文件,如微软Office文件、PDF文件、文本文件和一些图片文件,在不经过文件编辑的情况下展示出文件内容。现有的文件预览方式主要有基于网页的预览、基于缩略图的浏览、苹果公司的Quick Look和基于Flash的预览。基于网页的浏览是指将文件内容转换为HTML格式进行展示,它的缺点是丢失文件格式信息。基于缩略图的浏览是将文件内容按页生成图片,以图片方式进行查看,它的缺点是无法进行文本的查找。QuickLook技术是一种用在Mac OSX系统上的一种文件预览方式,缺点是只能用于Mac OSX系统上,并且也不支持文件内容查找。基于Flash的文件预览是将文件转换为SWF文件格式,并在网页中嵌入SWF播放器进行查看文件。此解决方案的文件预览基于Flash技术。上述的文件预览解决方案只针对了文件格式的转换与文件的预览,但存在有以下问题对文件可靠性、海量文件转换的时效性、海量文件检索的问题。同时处理大文件或多文件时,转换时效性及效率较低;在系统存在海量文件时,文件检索效率低;在慢速网络或者文件较大情况下播放预览文件不流畅,影响用户体验。所以,有必要提出一种新的技术方案,以解决在文件预览时提高文件可靠性、海量文件转换的时效性、海量文件检索的问题。
技术实现思路
本专利技术的目的在于提供一种基于Hadoop分布式文件预览方法及其系统,使得同时处理大文件多文件转换时效性得到显著提升,增强系统海量文件转换处理能力与海量索引检索能力,并能通过分页播放预览文件实现在慢速网络或者文件较大情况下仍然能够有效的维护用户体验的流畅性。为解决以下技术问题,本专利技术提供一种基于Hadoop分布式文件预览方法,包括步骤I、将源文件存储于Hadoop分布式文件系统中;步骤2、将存储于Hadoop分布式文件系统的源文件转换成SWF文件和TXT文件;步骤3、将已转换为文本文件进行索引提取,建立索引;步骤4、根据索引从Hadoop分布式存储中读取需要预览展示的SWF文件进行播放。进一步地,所述步骤2具体包括步骤2. I、获取存储于Hadoop分布式文件系统的源文件;步骤2. 2、将源文件转换成PDF文件;步骤2. 3、将PDF文件格式抽取纯文本内容,存为文本文件;步骤2. 4、将PDF文件转换为SWF文件。、步骤2. 5、将转换成功后的文本文件和SWF文件格式存回Hadoop分布式存储中。进一步地,所述步骤3具体包括步骤3. I、在Hadoop分布式存储中建立索引目录;步骤3. 2、将转换为纯文本文件进行索引提取建立索引;步骤3. 3、将建立好的索引写入合并到Hadoop索引目录中。进一步地,所述步骤4具体包括步骤4. I、根据索引从Hadoop分布式存储中读取需要预览展示的SWF文件; 步骤4. 2、将读取到的SWF文件加载到文件预览播放器播放。为解决以下技术问题,本专利技术还提供一种基于Hadoop分布式文件预览系统,包括文件存储装置、文件转换装置、文件索引装置、文件预览装置,所述文件存储装置,用于存储待转换的源文件,以及转换成功的文本文件和SWF文件;所述文件转换装置,用于将源文件转换为纯文本文件格式和SWF格式;所述文件索引装置,将转换为纯文本文件进行索引提取建立索引;所述文件预览装置,用于根据索引播放需要预览展示的SWF文件。进一步地,所述文件存储装置基于Hadoop分布式文件系统中,真实数据存储于Hadoop数据结点上。进一步地,所述文件转换装置包括转换任务调度器、转换任务执行器,所述转换任务调度器,用于提交文件转换任务,并将转换任务调度所述转换任务执行器;所述转换任务执行器,用于执行转换任务调度器派发的文件转换任务。进一步地,所述转换任务调度器是基于Hadoop MapReduce实现,将提交文件转换Map任务调度所述转换任务执行器。进一步地,所述转换任务执行器包括文件转换任务守护进程、OpenOffice服务、以及 SWFTools,所述文件转换任务守护进程,用于在收到文件转换任务后,将此次转换任务保存到磁盘中,守护文件转换进度直至文件转换任务完成;所述OpenOffice服务,用于将OpenOffice支持的文件格式转换成PDF文件;所述SWFTools,用于将PDF文件转换为SWF文件。进一步地,所述文件预览装置是基于Flash播放器,能够直接从Hadoop分布式存储中读取需要预览展示的SWF文件。与现有技术相比,本专利技术提供的一种基于Hadoop分布式文件预览方法及其系统,具有以下技术优点一、通过Hadoop海量存储与分布式任务管理平台,以每Hadoop MapReduce的任务调度方式进行,利用Hadoop集群进行文件转换任务,让同时大文件多文件转换处理时效性得到显著提升,文件转换效率高,同时将文件存储于Hadoop分布式存储中,文件不会损坏,保证文件的有效性与冗余性,以达到在有多台集群结点出现故障的情况下转换工作仍能正常进行。二、在文件索引方面,索引建立采用分布式多结点进行,由文件守护进程集群进行文件索引建立,索引分两级存储,一级位于Hadoop分布式存储中,一级位于文件守护进程内存中;采用分布式检索方式,返回所有文件守护进程所维护的内存索引进行索引查询,有效提升索引查询速度。三、通过对Hadoop任务管理器与传统SWF播放器的改进,使系统达到海量文件转换处理能力与海量索引检索能力,并能通过分页播放预览文件实现在慢速网络或者文件较大情况下仍然能够有效的维护用户体验的流畅性。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分 ,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图I是本专利技术提供的一种基于Hadoop分布式文件预览系统结构示意图。图2是本专利技术提供的一种基于Hadoop分布式文件预览方法的流程图。图3是本专利技术提供的文件具体转换过程的流程图。图4是本专利技术提供的建立文件索引的流程图。具体实施例方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。如图I所示,本专利技术提供一种基于Hadoop分布式文件预览系统,包括文件存储装置10、文件转换装置20、文件索引装置30、文件预览装置40。文件存储装置10,用于存储待转换的源文件,以及转换成功的纯文本TXT文件和SffF文件。其中,文件存储装置基于Hadoop分布式文件系统中,真实数据存储于Hadoop数据结点上。文件存储装置10存储要进行预览的文件格式如下所述源文件格式源文件格式即最初需要预览的文件格式,此文件格式可以是微软Office文件格式、PDF文件格式、GIF/PNG/JPEG图片格式和纯文本文件文件格式。纯文本TXT格式纯文本格式是指文件中的纯文本内容,无表格、无图表也无具体文件格式信息,纯文本格式用于文件索引装置30建立索引与检索。SWF文件格式SWF文件格式是文件预览装置40支持的文件格式,对于一个需要转换的文件会被分为N个SWF文件,N可以手工配置。文件预览装置40可以识别并加载本文档来自技高网...

【技术保护点】
一种基于Hadoop分布式文件预览方法,其特征在于,包括:步骤1、将源文件存储于Hadoop分布式文件系统中;步骤2、将存储于Hadoop分布式文件系统的源文件转换成SWF文件和TXT文件;步骤3、将已转换为文本文件进行索引提取,建立索引;步骤4、根据索引从Hadoop分布式存储中读取需要预览展示的SWF文件进行播放。

【技术特征摘要】

【专利技术属性】
技术研发人员:李伟
申请(专利权)人:深圳市远行科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1