一种基于树形结构的索引方法技术

技术编号：13063641 阅读：68 留言：0更新日期：2016-03-24 02:00

本发明专利技术提出了一种基于树形结构的索引方法，用于中文搜索引擎中对中文网页数据的处理，包括：步骤S100，网页数据预处理；(1)提取网页中的文本信息，生成相应的文本并对文本进行编号；(2)生成网页索引文件；(3)将文本中的标点符号去掉，使文本成为短字符串的集合；步骤S200，建立网页数据索引文件。本发明专利技术采用二元内相关后续树模型为网页数据创建索引，同时考虑了字索引和词索引的优缺点，在减少索引空间的同时提高了检索效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理领域，具体涉及。
技术介绍
随着互联网的飞速发展，信息的指数增长，数据形式的多样性，人们很难在海亮的信息中快速地找到符合自己需求的部分。全文数据库的出现，大大改善了这一现状。全文数据库，也称为文本数据库，它是管理海量文本的系统。全文数据库要完成的工作仍然是传统数据库的两大功能:存储和检索，具体而言就是文本数据的存储和任意字符串的检索。作为检索条件的字符串可以是常量型字符串，也可以是正则表达式(或其他方式，比如距离限制等等)表示的一组具有共同特征的字符串集合。目前比较常见和流行的全文检索模型有以下几种模型:署名文件(SignatureFiles)、位图(Bit Map)、倒排表(Inverted List)、Σ2矩阵Pat树和Pat数组等等。这些模型在专家们的努力下，已经相当成熟并在实践中得到广泛应用。从书目索引延伸出来的方法就是现在应用最广泛的倒排表模型。它具有创建索引速度较快的特点，在网络搜索引擎中广泛应用。但其所需的存储空间较大，查询速度较慢。署名文件虽然实现简单，但是要找到一个合适的散列函数和一个宽度适合的矢量非常困难，而且因对象而异。如果没有选择好，则查询结果就会出现相当的不确定性。位图文件索引结构思路简单，使用方便，时间效率高，在布尔检索上尤其高效，但是其空间效率很低，即使使用了位图压缩算法，仍然难以接受。Pat树模型的最大优点是检索效率很高，尤其对模型特殊的检索，如前缀检索、范围检索等检索效率更高。然而同位图模型一样，空间效率极低，而且创建过程中空间开销更大，创建效率也很低。Pat数组是对Pat树的修改，它将Pa...

【技术保护点】
一种基于树形结构的索引方法，用于中文搜索引擎中对中文网页数据的处理，包括：步骤S100，网页数据预处理；步骤S200，建立网页数据索引文件。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈虹宇，罗阳，苗宁，
申请(专利权)人：四川神琥科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人