海量文件型数据的索引生成方法及装置和搜索系统制造方法及图纸

技术编号：2820807 阅读：319 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种文件型数据的索引生成方法，用于从文件型数据仓库生成供搜索的索引仓库，该方法包括：目录遍历步骤，遍历所述文件型数据仓库；数据格式解析步骤，对由在所述目录遍历步骤中遍历的各个文件型数据进行数据格式的解析；元数据抽取步骤，从由已完成数据格式解析的所述各个文件型数据中抽取作为信息内容的元数据；元数据快照生成步骤，由所述元数据生成元数据快照；路径转换步骤，将所述元数据快照的本地路径转换为对外服务的网络路径；索引生成步骤，将所述元数据快照生成索引。由此，能够对跨节点的海量文件型科学数据，直接、快速地挖掘包含其中的大量描述信息，并将这些描述信息自动索引以供搜索。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据搜索
，尤其涉及地球科学和环境科学等领域的海量文件型数据的索引生成方法和搜索方法以及索引生成装置和搜索系统。
技术介绍
在以往的数据搜索领域，搜索引擎已在超文本(HTML)中应用广泛，包括GOOGLE、 BAIDU等大型搜索引擎能够高效的抽取网页并建立索引，目前它们的搜索对象也扩展到mp3， video等非超文本领域，即直接利用对象中自我描述信息(即元数据)作为索引对象。例如，在mp3文件中的歌手、乐队，唱片风格、发行版权等元数据信息均可作为索引对象。这些数据搜索采用的是抓取到本地后再解析的技术。然而，在海洋、大气、环境和空间科学等学科领域，数据以海量文件型数据形式存在，并且将海量文件型数据以文件的形式按目录树方式存放己约定俗成。其中，文件型数据是指基于文件的(file-based)、且被按照一定的格式存储的、使用时由相应的应用程序通过相应的解码程序直接进行读取的数据。这些二进制文件中也含有大量的描述信息，但是，对其索引却难以采用类似mp3/video等文件抓取再解析的技术路线，这是因为(1) 文件型科学数据所占存储空间巨大，单个文件通常为从几十兆到几百兆甚至GB量级且数量多，难以按照常规的做法抓取到本地后解析；(2) 文件型科学数据的数据结构多样，以地球科学为例，常用的数据格式多达上百种，因此，提供远程解析的接口方式则开发成本过高；(3) 科学数据的管理模式，通常由大型的科学数据中心下属多个数据分中心，组成星形拓普的层级结构，对分级数据的访问涉及复杂的权限，特别是对跨节点、跨数据仓库索引的融合受到...

【技术保护点】
一种文件型数据的索引生成方法，用于从文件型数据仓库生成供搜索的索引仓库，其特征在于，包括：　目录遍历步骤，通过爬虫程序，遍历所述文件型数据仓库；　数据格式解析步骤，利用数据格式解析器，对由在所述目录遍历步骤中遍历的所述文件型数据仓库中的各个文件型数据进行数据格式的解析；　元数据抽取步骤，利用元数据抽取器，从由已完成数据格式解析的所述各个文件型数据中抽取作为信息内容的元数据；　元数据快照生成步骤，利用元数据快照生成器，由所述元数据生成元数据快照；　路径转换步骤，利用路径转换器，将所述元数据快照中的文件型数据的本地路径转换为对外服务的网络路径；　索引生成步骤，利用索引生成器，通过索引程序对已路径转换的所述元数据快照生成索引，并按照一定的命名方式存储于所述索引仓库中。

【技术特征摘要】

【专利技术属性】
技术研发人员：马晓光，周广庆，李磊，
申请(专利权)人：中国科学院大气物理研究所，
类型：发明
国别省市：11[]

全部详细技术资料下载我是这个专利的主人