System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种加速批量文件搜索模型制造技术_技高网

一种加速批量文件搜索模型制造技术

技术编号:40248100 阅读:9 留言:0更新日期:2024-02-02 22:43
本发明专利技术公开一种加速批量文件搜索模型,包括文件索引和与文件索引关联构成的文件元数据,文件索引的权限控制包含目录空间、租户信息、用户信息和文件权限;文件索引的创建包括租户、文件服务和索引服务,索引服务采用异步方式创建以及更新,对于更新异常的数据除了对应的尝试处理外,增加补偿机制,定时对遗漏或异常文件更新。本申请通过文件汇聚到统一的文件索引,支持文件关键字查询,实现低延迟的文件数据更新,支持关键字分词搜索、权限控制、文件路径搜索等多个条件搜索,与业务中文件信息元数据查询、预览、编辑等业务解耦,注重数据的统一汇总,注重查询效率,注重查询结果的高覆盖率和精准度以及权限控制。

【技术实现步骤摘要】

本专利技术属于文件搜索,具体涉及一种加速批量文件搜索模型


技术介绍

1、对于目前公司规范化管理中,知识库存储是对公司极其重要的规范化管理环节,知识库管理用来记载信息和知识,便于团队沉淀经验、共享资源,团队协作与安全管控,形成完整的知识体系并持续进化。

2、目前公司大量的文件存储在服务终端,文件分散、非结构化数据检索困难。常用的文件搜索是针对结构化的文件元数据查询,而目前的elasticsearch检索应用的场景在日志分析以及网站博客中,将全文搜索应用在知识库文件存储中不常使用。

3、公司目前的知识库工具可以管理公司的文件,也可以通过权限控制设置访问权限,但是文件搜索主要是通过文件名称的模糊匹配来实现,这样搜索出来的数据要精确知道文件名中包含的关键字,否则就无法查找所需文件。


技术实现思路

1、为了弥补现有技术的不足,本专利技术设计提供一种加速批量文件搜索模型的方案,以解决现有的公司知识库中无法通过文件关键字搜索文件匹配范围的问题。

2、一种加速批量文件搜索模型,包括文件索引,以及与文件索引关联构成的文件元数据,所述文件索引的权限控制通过所述文件元数据的关联关系控制,其权限控制包含目录空间、租户信息、用户信息和文件权限,

3、所述文件元数据用以存储文件的名称属性、文件类型属性、文件大小属性以及关联文件库的地址属性;

4、所述目录空间用以存储表、索引和其他对象的元数据,包括表的名称、列的名称、列的数据类型、索引的名称信息;</p>

5、所述租户信息用以控制文件元数据的物理隔离以及文档索引的逻辑隔离;

6、所述用户信息用以对文档的归属权限控制;

7、所述文件权限用以控制文件的授权过程、授权信息以及外链分享,是所述文件索引中粒度最细的权限。

8、进一步地,所述文件索引的创建包括租户、文件服务和索引服务,索引服务采用异步方式创建以及更新,对于更新异常的数据除了对应的尝试处理外,增加补偿机制,定时对遗漏或异常文件更新。

9、进一步地,所述文件索引的创建包括以下工作:

10、空间维护:租户信息下任何空间目录中维护的数据都要通过文件服务的推送,汇聚到索引服务中;

11、文件上传:文件上传过程除了常规把文件存储到文件存储空间外,还需要把文件的元数据信息,文档的内容识别信息存储到索引服务中,当前操作采用异步实现,目的是不影响文件存储过程,对业务解藕;

12、权限控制:是针对文档或者目录中间的可见范围设置的细粒度控制;

13、文件回收:同时也要在索引服务中更新体现,回收后的文件将不可见。

14、进一步地,所述文件索引的创建操作方法类是fileconsumer,通过异步消费的方式,消费不同空间目录下文档操作,通过fileproducer识别租户,文件标识,操作标识等发送消息;所述文件索引的创建的具体步骤包括:

15、s1、根据租户id、文件元数据id和文件编辑类型作为入参对象,查询不同租户下,文件的元数据信息和详细信息;

16、s2、根据文件的编辑类型策略处理文件同步的过程:增加时,先判断是否存在该租户下的索引,目的是在第一次同步时做索引初始化使用;编辑时,不但要更新编辑的内容,同时权限的变更也要同步变更到索引;删除时,索引中的文档信息做物理删除,不做保留;

17、s3、索引中文档信息的处理异常情况,则需要记录数据库中等待重试再次更新。

18、具体地,所述空间维护中,空的空间目录对索引服务是没有意义的,只有包含文件实体的空间目录才可以作为属性添加到索引文档中。

19、进一步地,所述文件搜索的权限控制支持saas版多租户权限隔离级别,包括设置目录权限、更新文档权限、设置文档权限、更新文档权限、修改文档权限;

20、文件在创建时隐含部分的权限规则,文件的存储空间中是文件的组织范围权限,文件的来源是文件的所属权限;

21、通过设置文件的权限,可以对文件的组织范围以及人员可见搜索,组织权限设置不但要将组织的信息更新到索引服务,组织下人员信息更新到索引服务中权限项中。

22、与现有技术相比,本专利技术有以下优点:

23、(1)通过文件汇聚到统一的文件索引服务器,支持文件关键字查询,实现低延迟的文件数据更新,支持关键字分词搜索,支持权限控制,支持文件路径搜索等多个条件搜索,该方案与业务中文件信息元数据查询、预览、编辑等业务解耦,注重数据的统一汇总,注重查询效率,注重查询结果的高覆盖率和精准度以及权限控制。

24、(2)对业务应用系统的依赖程度降低,对数据库的性能压力得到释放;将分散的文件数据得以聚合,文件搜索可移植、可复用性强,提升文件搜索性能,将全文搜索应用到知识库中,实现搜索新方式,实现文件搜索的精准性。

本文档来自技高网...

【技术保护点】

1.一种加速批量文件搜索模型,其特征在于,包括文件索引,以及与文件索引关联构成的文件元数据,所述文件索引的权限控制通过所述文件元数据的关联关系控制,其权限控制包含目录空间、租户信息、用户信息和文件权限,

2.根据权利要求1所述的一种加速批量文件搜索模型,其特征在于,所述文件索引的创建包括租户、文件服务和索引服务,索引服务采用异步方式创建以及更新,对于更新异常的数据除了对应的尝试处理外,增加补偿机制,定时对遗漏或异常文件更新。

3.根据权利要求2所述的一种加速批量文件搜索模型,其特征在于,所述文件索引的创建包括以下工作:

4.根据权利要求3所述的一种加速批量文件搜索模型,其特征在于,所述文件索引的创建操作方法类是FileConsumer,通过异步消费的方式,消费不同空间目录下文档操作,通过FileProducer识别租户,文件标识,操作标识等发送消息;所述文件索引的创建的具体步骤包括:

5.根据权利要求3所述的一种加速批量文件搜索模型,其特征在于,所述空间维护中,空的空间目录对索引服务是没有意义的,只有包含文件实体的空间目录才可以作为属性添加到索引文档中。

6.根据权利要求3所述的一种加速批量文件搜索模型,其特征在于,所述文件搜索的权限控制支持SaaS版多租户权限隔离级别,包括设置目录权限、更新文档权限、设置文档权限、更新文档权限、修改文档权限;

...

【技术特征摘要】

1.一种加速批量文件搜索模型,其特征在于,包括文件索引,以及与文件索引关联构成的文件元数据,所述文件索引的权限控制通过所述文件元数据的关联关系控制,其权限控制包含目录空间、租户信息、用户信息和文件权限,

2.根据权利要求1所述的一种加速批量文件搜索模型,其特征在于,所述文件索引的创建包括租户、文件服务和索引服务,索引服务采用异步方式创建以及更新,对于更新异常的数据除了对应的尝试处理外,增加补偿机制,定时对遗漏或异常文件更新。

3.根据权利要求2所述的一种加速批量文件搜索模型,其特征在于,所述文件索引的创建包括以下工作:

4.根据权利要求3所述的一种加速批量文件搜索模型,...

【专利技术属性】
技术研发人员:康宁波李志伟王海超仇晨
申请(专利权)人:苏州沙咖智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1