一种全文检索系统中可定制的数据抓取方法技术方案

技术编号：10121843 阅读：217 留言：0更新日期：2014-06-12 11:11

本发明专利技术涉及一种全文检索系统中可定制的数据抓取方法，通过在文档存储系统和全文检索系统设置建索引模块，对指定格式的文档建立索引，该方法具体包括以下步骤：步骤101.建索引模块从文档存储系统获取文件元数据，包括需要进行搜索的信息和文件的头信息；步骤102.建索引模块内部通过文件的头信息识别文件类型，对指定不需要的文件不获取文件内容，并过滤掉无需建立索引的文件；步骤103.建索引模块从文档存储系统获取需要建立索引的文件的内容；步骤104.建索引模块提交文件元数据和文件给全文检索系统建立索引。与现有技术相比，本发明专利技术具有维护方便、提高检索效率、降低访问压力等优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种全文检索系统中可定制的数据抓取方法
本专利技术涉及一种信息检索技术，尤其是涉及一种全文检索系统中可定制的数据抓取方法。
技术介绍
随着企业的不断发展，企业的文档服务器上的文档不断增加，传统时代通过大脑记忆和肉眼查找文档的方式已经完全不能满足大部分的企业需求。有时对文档存储系统上的文档进行归档，可以解决一部分问题。但是如果归完档之后还是很多的情况下，也不能快速地准确地进行查找。目前，为了满足对拥有大规模的文档服务器进行快速准确的查找的需求，通常采用文档存储系统和全文检索系统相结合的做法。普通的搜索关键字，都是打开文件，顺序读取文件内容查找关键词。而全文检索是建立关键词与文档的索引关系，当输入关键词的时候，可以直接定位到该文件，所以全文检索系统能够满足大数据量下的搜索性能。常见的建索引方法有以下两种：第一种，文档上传过程就立即或者后台自动建立索引。这种方式因建立索引的时间开销而降低了原本的文档访问的流畅性。而且某些系统甚至还需要将已存在的文档重新导入一遍才能让全文检索建立索引。显而易见，这种将文档存储和全文检索深度耦合的做法对于已经有大规模文档的服务器不太适用，同时加大了整个服务器的维护难度。第二种，单独一台全文检索服务器，先从文档服务器上面把所有文件下载下来，然后建立索引，这种方式较第一种有了很大的进步。但是对于全文检索系统来说，部分文档(比如视频音频图片等文件)容量大，将全部的文档内容提交去建索引意义不大。没有将这些文档过滤掉，下载这些大文件增加了文档服务器的访问压力。然而有的时候企业的文档服务器甚至可能只需要检索某几类最常用的文档类型的数据，其中有：...
一种全文检索系统中可定制的数据抓取方法

【技术保护点】
一种全文检索系统中可定制的数据抓取方法，其特征在于，通过在文档存储系统和全文检索系统设置建索引模块，对指定格式的文档建立索引，该方法具体包括以下步骤：步骤101，建索引模块从文档存储系统获取文件元数据，包括需要进行搜索的信息和文件的头信息；步骤102，建索引模块内部通过文件的头信息识别文件类型，对指定不需要的文件不获取文件内容，并过滤掉无需建立索引的文件：步骤103，建索引模块从文档存储系统获取需要建立索引的文件的内容；步骤104，建索引模块提交文件元数据和文件给全文检索系统建立索引。

【技术特征摘要】
1.一种全文检索系统中可定制的数据抓取方法，其特征在于，通过在文档存储系统和全文检索系统设置建索引模块，对指定格式的文档建立索引，该方法具体包括以下步骤：步骤101，建索引模块从文档存储系统获取文件元数据，包括需要进行搜索的信息和文件的头信息；步骤102，建索引模块内部通过文件的头信息识别文件类型，对指定不需要的文件不获取文件内容，并过滤掉无需建立索引的文件；步骤103，建索引模块从文档存储系统获取需要建立索引的文件的内容；步骤104，建索引模块提交文件元数据和文件给全文检索系统建立索引；该方法具体为：步骤201，建索引模块浏览文档存储系统目录下所有文件的元数据，并将这些元数据存放置容器中，然后执行步骤202；步骤202，若该目录下...

【专利技术属性】
技术研发人员：刘浪，
申请(专利权)人：上海爱数软件有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人