本发明专利技术公开了一种分布式安全检索系统,属于计算机信息检索技术领域,包括用户客户端,向管理服务器发起索引和检索请求;管理服务器,分布用户客户端的索引和检索指令到索引服务器,接收处理结果并返回给用户客户端;索引服务器,存储分布式密文倒排索引,接收管理服务器提交的索引和检索指令,并返回结果;加密服务器,接收管理服务器加密请求,按指定密钥对索引词和检索词进行加密,并返回加密后的信息;密钥矩阵,存储索引词和检索词的加密密钥。本发明专利技术还进一步提出了适用于所述系统的索引和检索方法。本发明专利技术可以实现大规模涉密文档的高效检索和安全性要求,同时降低了密文倒排索引遭受统计攻击的风险,而且优化了管理服务器的通信负载。
【技术实现步骤摘要】
本专利技术属于计算机信息检索技术和信息安全
,具体涉及一种分布式安全检索系统。
技术介绍
计算机技术的发展大大提高了文档管理的效率,信息检索技术更是将电子文档的 管理效率提高到了极致。通过对文档建立倒排索引,可以实现基于索引项(Term)的快速检 索。目前绝大部分信息检索系统都是应用于非涉密普通文档的管理,而在军事、政府以及大 企业等应用领域,需要管理大量的涉密文档,为此,需要一种安全的检索系统来提高涉密文 档的管理效率。针对涉密文档的安全检索系统不仅要能实现高效的信息检索,而且要能保 证数据的安全。 分布式倒排索引可以用来处理超大数量的文档检索,也就是将倒排索引分布到多 个索引服务器上。实现倒排索引分布的常用方法有基于文档的分布和基于索引词的分布。 基于文档的分布方法将文档划分为不同的子集,然后将这些子集分布到不同的索引服务器 分别建立倒排索引。这种方式的可扩展性高,但搜索效率比较差。基于索引词的分布方法 先将文档分词,然后把不同的索引词分布到多个索引服务器,在索引服务器上对索引词及 相关信息建立倒排索引。这种方法构建的倒排索引精简,搜索效率高,但可扩展性比较差。 倒排索引的结构为倒排表,其中关键的部分是索引词,因为通过索引词可以重构 文档。要保证文档数据的安全,就必须保证倒排索引的安全,尤其是其中索引词的安全。加 密是信息安全领域保证数据安全最常用的手段,通过加密索引词,形成密文倒排索引,不仅 可以实现文档的高效检索,而且可以保证文档数据的安全。为了处理大规模涉密文档,分布 式安全检索系统是一种解决方案。基于文档的密文倒排索引分布由于倒排索引冗长,检索 效率比较低。目前基于索引词的密文倒排索引分布方法中,由于相同的明文索引词对应相 同的密文索引词,存在较高的统计攻击风险。无论是基于文档还是基于索引词的密文倒排 索引分布方法中,管理服务器都要把检索请求分布到多个索引服务器进行检索,接收返回 结果并合并这些检索结果。因为每个索引服务器包含大量的检索结果,如果一个检索请求 被分布到许多索引服务器,会大大增加管理服务器的通信开销,可能导致管理服务器成为 通信瓶颈节点。本专利技术提出了一种分布式安全检索系统,可以实现大规模涉密文档的高效 检索和安全性要求,同时降低了密文倒排索引遭受统计攻击的风险,而且也考虑了管理服 务器的通信负载均衡问题。
技术实现思路
本专利技术的主要目的在于提供一种分布式安全检索系统,具有对大规模涉密文档建 立分布式密文倒排索引和进行分布式检索两大功能,从而实现对涉密文档的安全管理;本 专利技术的进一步的目的是提供一种适用于所述检索系统的分布式索引方法和分布式检索方 法,从而更好地实现对涉密文档的安全管理。 本专利技术提供的一种分布式安全检索系统,包括n个用户客户端,管理服务器,m个 索引服务器,加密服务器以及密钥矩阵,n为正整数,表示用户客户端的个数,m为大于等于 2的正整数,表示索引服务器的个数,用户客户端通过互联网与管理服务器连接,管理服务 器、索引服务器和加密服务器通过内部网络互连,密钥矩阵存储于管理服务器或加密服务 器中; 用户客户端用于用户向管理服务器发起检索请求,通过管理服务器在索引服务器 进行检索,并将结果显示给用户,对于管理用户,能够向管理服务器发起索引请求,对提交 的文档建立分布式密文倒排索引; 管理服务器用于接收用户客户端请求,执行索引或检索指令,并将索引或检索指 令分布后发送到各个索引服务器,执行索引或检索操作,然后接收索引服务器返回结果,将 结果传送给用户客户端; 索引服务器用于存储分布式密文倒排索引,并且接收管理服务器发出的索引和检 索指令,实现对管理服务器传送过来的索引词建立密文倒排索引和对密文倒排索引进行检 索,将索引和检索的处理结果返回给管理服务器; 加密服务器用于接收管理服务器加密请求,按指定密钥实现对索引和检索操作中 索引词和检索词的加密,并将加密后的信息返回给管理服务器; 密钥矩阵用于存储索引词和检索词的加密密钥,是由索引词或检索词的加密密钥构成的矩阵,其行号为索引服务器编号,其列号为索引词或检索词密级;密钥矩阵接收管理服务器的访问,获取索引词和检索词的加密密钥,并提供给管理服务器。 作为本专利技术的改进技术方案,所述分布式安全检索系统将涉密文档按照下述步骤的索引方法建立分布式密文倒排索引 (Al)在管理服务器,对涉密文档进行分词,形成一系列明文索引词; (A2)在管理服务器,按照步骤(A21)至(A23)对明文索引词进行处理,得到密文索引词,并传输密文索引词及相关信息到相应索引服务器; (A21)按明文索引词和索引词密级进行哈希运算,获得索引词所属索引服务器编 号; (A22)根据索引词密级和索引词所属索引服务器编号,通过密钥矩阵获得加密密 钥; (A23)访问加密服务器,使用密钥加密明文索引词得到密文索引词,并将密文索引 词及相关信息发送给相应索引服务器,相关信息包括索引词所属文档的编号和密级; (A3)在索引服务器,对密文索引词及相关信息建立倒排索引,其中倒排记录表包 含索引词所属文档的编号、密级信息。 作为本专利技术的进一步改进技术方案,所述分布式安全检索系统按照下述步骤的检 索方法实现对分布式密文倒排索引进行检索的功能 (Bl)在管理服务器,对检索信息进行分词处理后,得到一系列明文检索词; (B2)在管理服务器,按照步骤(B21)至(B23)对每个明文检索词进行处理,得到密 文检索词及检索词所属索引服务器编号; (B21)按检索词以及检索词密级或者用户指定的检索密级进行哈希运算,获得检 索词所属索引服务器编号; (B22)根据检索词密级或用户指定的检索密级和检索词所属索引服务器编号,通 过密钥矩阵获得加密密钥; (B23)访问加密服务器,利用密钥加密检索词为密文检索词,返回密文检索词和检 索词所属索引服务器编号; (B3)在管理服务器,对密文检索词和检索词所属索引服务器编号,按照步骤 (B31)至(B33)进行处理,得到一个或多个检索分组,并通过管理服务器发送检索分组到检 索分组中的第一个索引服务器; (B31)按索引服务器编号合并所有的密文检索词、检索词所属索引服务器编号数 据,得到索引服务器编号、密文检索词列表数据集合; (B32)根据管理服务器通信流量,划分索引服务器编号、密文检索词列表数据集 合,得到检索分组,该检索分组是一个索引服务器列表,包含一个或多个索引服务器,以及 对应索引服务器的密文检索词; (B33)输出检索分组,一个检索分组包含一个或多个索引服务器编号以及对应索 引服务器的密文检索词; (B4)在索引服务器,检索密文倒排索引,找出那些命中密文检索词的结果,如果当 前索引服务器有接收到上一个索引服务器传送过来的检索结果,合并检索结果,完成操作 后,将检索请求及检索结果传送到检索分组中的下一个索引服务器,如果是检索分组中的 最后一个索引服务器,将结果传回管理服务器; (B5)管理服务器接收索引服务器的返回结果,如果有多个索引服务器返回结果,则合并这些结果,返回结果给用户客户端,用户客户端显示结果给用户。 本专利技术提出了一种分布式安全检索系统,可以实现对涉密文档构建分布式密文倒排索引,并进行安全的分布式检索。本专利技术对本文档来自技高网...
【技术保护点】
一种分布式安全检索系统,包括n个用户客户端,管理服务器,m个索引服务器,加密服务器以及密钥矩阵,n为正整数,表示用户客户端的个数,m为大于等于2的正整数,表示索引服务器的个数,用户客户端通过互联网与管理服务器连接,管理服务器、索引服务器和加密服务器通过内部网络互连,密钥矩阵存储于管理服务器或加密服务器中; 用户客户端用于用户向管理服务器发起检索请求,通过管理服务器在索引服务器进行检索,并将结果显示给用户,对于管理用户,能够向管理服务器发起索引请求,对提交的文档建立分布式密文倒排索引; 管理服务器用于接收用户客户端请求,执行索引或检索指令,并将索引或检索指令分布后发送到各个索引服务器,执行索引或检索操作,然后接收索引服务器返回结果,将结果传送给用户客户端; 索引服务器用于存储分布式密文倒排索引,并且接收管理服务器发出的索引和检索指令,实现对管理服务器传送过来的索引词建立密文倒排索引和对密文倒排索引进行检索,将索引和检索的处理结果返回给管理服务器; 加密服务器用于接收管理服务器加密请求,按指定密钥实现对索引和检索操作中索引词和检索词的加密,并将加密后的信息返回给管理服务器; 密钥矩阵用于存储索引词和检索词的加密密钥,是由索引词或检索词的加密密钥构成的矩阵,其行号为索引服务器编号,其列号为索引词或检索词密级;密钥矩阵接收管理服务器的访问,获取索引词和检索词的加密密钥,并提供给管理服务器。...
【技术特征摘要】
【专利技术属性】
技术研发人员:李瑞轩,高国强,文坤梅,辜希武,吴炜,卢正鼎,胡和平,路松峰,左翠华,燕昆,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:83[]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。