海量文件型数据的索引生成方法及装置和搜索系统制造方法及图纸

技术编号:2820807 阅读:318 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种文件型数据的索引生成方法,用于从文件型数据仓库生成供搜索的索引仓库,该方法包括:目录遍历步骤,遍历所述文件型数据仓库;数据格式解析步骤,对由在所述目录遍历步骤中遍历的各个文件型数据进行数据格式的解析;元数据抽取步骤,从由已完成数据格式解析的所述各个文件型数据中抽取作为信息内容的元数据;元数据快照生成步骤,由所述元数据生成元数据快照;路径转换步骤,将所述元数据快照的本地路径转换为对外服务的网络路径;索引生成步骤,将所述元数据快照生成索引。由此,能够对跨节点的海量文件型科学数据,直接、快速地挖掘包含其中的大量描述信息,并将这些描述信息自动索引以供搜索。

【技术实现步骤摘要】

本专利技术涉及数据搜索
,尤其涉及地球科学和环境科学等领域 的海量文件型数据的索引生成方法和搜索方法以及索引生成装置和搜索 系统。
技术介绍
在以往的数据搜索领域,搜索引擎已在超文本(HTML)中应用广泛, 包括GOOGLE、 BAIDU等大型搜索引擎能够高效的抽取网页并建立索 引,目前它们的搜索对象也扩展到mp3, video等非超文本领域,即直接 利用对象中自我描述信息(即元数据)作为索引对象。例如,在mp3文件 中的歌手、乐队,唱片风格、发行版权等元数据信息均可作为索引对象。 这些数据搜索采用的是抓取到本地后再解析的技术。然而,在海洋、大气、环境和空间科学等学科领域,数据以海量文件 型数据形式存在,并且将海量文件型数据以文件的形式按目录树方式存放 己约定俗成。其中,文件型数据是指基于文件的(file-based)、且被按照 一定的格式存储的、使用时由相应的应用程序通过相应的解码程序直接进 行读取的数据。这些二进制文件中也含有大量的描述信息,但是,对其索 引却难以采用类似mp3/video等文件抓取再解析的技术路线,这是因为(1) 文件型科学数据所占存储空间巨大,单个文件通常为从几十兆 到几百兆甚至GB量级且数量多,难以按照常规的做法抓取到本地后解析;(2) 文件型科学数据的数据结构多样,以地球科学为例,常用的数 据格式多达上百种,因此,提供远程解析的接口方式则开发成本过高;(3) 科学数据的管理模式,通常由大型的科学数据中心下属多个数 据分中心,组成星形拓普的层级结构,对分级数据的访问涉及复杂的权限, 特别是对跨节点、跨数据仓库索引的融合受到复杂共享策略的约束。为了获得文件型数据的描述信息,传统的做法是依靠人工提供的摘要 信息。g卩,将对文件型数据的描述信息通过人工填加的方式存放于关系型 数据库中。此类型的搜索是对数据库中数据表字段的匹配过程。目前大型 数据中心普遍采用这种方式。但是,上述基于人工方式的技术的缺陷是(1) 信息抽取过程复杂,需要人为地向数据表内添加元数据信息, 无法直接利用到数据内部已有的描述信息;(2) 搜索的准确率低。通常对关键词匹配仅限于人工登记的有限信 息,在多个结果匹配的情况下,缺少评分机制。(3) 扩展性差。访问数据的途径,只能透过数据库返回的文件型数据固定的URL地址。当数据仓库的存储路径发生改变后,必须大量更改数据库字段。(4) 系统的开发和部署复杂,费用高,对维护人员的也有一定的技术要求。因此,在使用海量文件型数据的领域,迫切需要一种针对海量文件型 数据,能够快速准确地生成索引的方法及相应的搜索系统。然而,到目前 为止,在该
中还没有一种能够对海量、跨节点文件型科学数据, 直接、快速地挖掘包含其中的大量描述信息,并将这些描述信息自动索引 的方法及装置,也缺少相应的交互式搜索方法及系统。
技术实现思路
鉴于上述问题,本专利技术的目的在于提供一种对海量的文件型数据直 接、快速、准确地生成索引的方法及装置,包括相应的搜索方法及系统。 本专利技术提供的文件型数据的索引生成方法,用于从文件型数据仓库生成供搜索的索引仓库,其特征在于,包括目录遍历步骤,通过爬虫程序,遍历所述文件型数据仓库;数据格式解析步骤,利用数据格式解析器,对由在所述目录遍历步骤中遍历的所述文件型数据仓库中的各个文件型数据进行数据格式的解析;元数据抽取步骤,利用元数据抽取器,从由已完 成数据格式解析的所述各个文件型数据中抽取作为信息内容的元数据;元 数据快照生成步骤,利用元数据快照生成器,由所述元数据生成元数据快照;路径转换步骤,利用路径转换器,将所述元数据快照中的文件型数据 的本地路径转换为对外服务的网络路径;索引生成步骤,利用索引生成器, 通过索引程序对己完成路径转换的所述元数据快照生成索引,并按照一定 的命名方式存储于所述索引仓库中。利用上述方法,能够对海量的文件型数据,根据解析出的数据类型, 直接抽取其中具有信息价值的元数据,进而将利用模板生成的元数据快照 自动编制成索引文件,以供使用者方便搜索。因此,能够获得信息抽取过 程简单、搜索的准确率高、扩展性好、系统的开发和部署简单且成本低的 文件型数据的索引生成方法。更优选的方式是,在所述数据格式解析步骤中,所述数据格式解析器 首先依据文件扩展名预估文件解码格式,之后再通过二进制文件解码程序 对预估结果验证。并且,在所述数据格式解析步骤中,在利用所述格式解 析器进行格式解析时,如果扩展名解析结果与该扩展名对应的二进制解码 程序不匹配,则格式解析器将首先遍历整个格式解析的函数库,若有解码 程序匹配,在所述元数据抽取步骤中采用该解码程序,若没有匹配的解码 程序,则进入未知元数据快照生成步骤。更优选的方式是,在所述元数据抽取步骤中,在所述元数据抽取器抽 取文件型数据的元数据时,针对每一个不同数据结构的二进制文件,编写 唯一的二进制文件解码程序。更优选的方式是,在所述元数据快照生成步骤中,所述元数据快照生 成器利用其具有的主模板定制快照页面的结构,再利用其具有的副模板具体采集文件型数据中的元数据。更优选的方式是,在所述目录遍历步骤中,所述爬虫程序遍历所述数 据仓库中的文件型数据,若遍历失败,则结束本流程,若遍历正常,则对 每一个文件型数据调用所述格式解析器解析数据格式,如果格式解析正确 则进入所述元数据抽取步骤,否则进入未知元数据快照生成步骤;在所述 元数据抽取步骤中,如果抽取成功,则进入所述元数据快照生成步骤,否则进入所述未知元数据快照生成步骤;在所述元数据快照生成步骤中,生成相应的元数据快照,如果生成成功,则进入所述路径转换步骤,否则进入所述未知元数据快照生成步骤;在所述未知元数据快照生成步骤中,如果生成未知元数据快照成功,则进入所述路径转换步骤,若失败则结束本 流程。更优选的方式是,在所述路径转换步骤中,利用正则表达式对元数据快照进行替换,将本地路径转换为HTTP/FTP/NFS网络路径,如果转换成 功,进入所述索引生成步骤,否则结束本流程。更优选的方式是,在所述索引生成步骤中,利用索引生成器将生成的 元数据快照生成索引,如果失败则结束本流程,如果成功则将生成索引按 一定的命名方式存储于索引仓库。更优选的方式是,所述索引生成步骤进一步包括对索引仓库中的索引 文件进行合并的步骤。根据该方法,通过索引合并机制,实现跨节点、跨 数据仓库的文件型数据的索引仓库,以便使用者能在更大的范围内进行快 速搜索。本专利技术还提供一种文件型数据的搜索方法,通过该搜索方法,对文件型数据仓库中的文件型数据进行搜索查询,其特征在于,包括索引仓库生成步骤,利用上述的文件型数据的索引生成方法,从所述文件型数据仓库生成供搜索的索引仓库的步骤;信息发送步骤,利用信息收发装置,通 过网络CGI平台或者命令行平台,将外部节点上的搜索信息发送出去;信 息查询步骤,利用信息査询装置接收在所述信息收发步骤中发送的搜索信 息,与在所述索引仓库生成步骤中生成的索引仓库进行正则匹配,得到相 应的元数据快照,并按照评分算法排列结果;信息接收步骤,所述信息査 询装置将包括相应的所述网络路径的元数据快照反馈给所述信息收发装 置。更优选的方式是,如果在所述信息査询步骤中匹配未成功,则所述信 息查询装置将本文档来自技高网
...

【技术保护点】
一种文件型数据的索引生成方法,用于从文件型数据仓库生成供搜索的索引仓库,其特征在于,包括: 目录遍历步骤,通过爬虫程序,遍历所述文件型数据仓库; 数据格式解析步骤,利用数据格式解析器,对由在所述目录遍历步骤中遍历的所述文件型数据仓库中的各个文件型数据进行数据格式的解析; 元数据抽取步骤,利用元数据抽取器,从由已完成数据格式解析的所述各个文件型数据中抽取作为信息内容的元数据; 元数据快照生成步骤,利用元数据快照生成器,由所述元数据生成元数据快照; 路径转换步骤,利用路径转换器,将所述元数据快照中的文件型数据的本地路径转换为对外服务的网络路径; 索引生成步骤,利用索引生成器,通过索引程序对已路径转换的所述元数据快照生成索引,并按照一定的命名方式存储于所述索引仓库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:马晓光周广庆李磊
申请(专利权)人:中国科学院大气物理研究所
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1