文件名索引生成方法、装置、及文件查找方法、装置制造方法及图纸

技术编号:37805064 阅读:11 留言:0更新日期:2023-06-09 09:35
本公开提供了一种文件名索引生成方法、装置、及文件查找方法、装置,涉及计算机技术领域,尤其涉及文件查找、文件索引技术领域。具体实现方案为:获取待处理文件的文件名和文件标识;对文件名按照预设的切词规则进行切分得到文件名中的至少一个字段;对至少一个字段按照预设的过滤规则进行过滤,将过滤后得到的各字段分别作为索引词;根据索引词和文件标识生成待处理文件的文件名索引。能够通过在生成相应文件的文件名索引时对切词后的各字段进行过滤,减少生成的文件名索引的数据量,提高文件查找时的速度。查找时的速度。查找时的速度。

【技术实现步骤摘要】
文件名索引生成方法、装置、及文件查找方法、装置


[0001]本公开涉及计算机
,尤其涉及文件查找、文件索引
,具体涉及一种文件名索引生成方法、装置、及文件查找方法、装置。

技术介绍

[0002]目前的文件名索引技术,是通过切词将文件名切割为单字作为索引词,然后通过索引存储格式写入数据库,并在用户查找相关文件时,将用户输入的查询词按照相同的切词规则切割成单字,并根据单字和索引的对应关系召回文件的技术。
[0003]但该文件名索引技术中存储的索引数据量较大,导致文件查询速度较慢。

技术实现思路

[0004]本公开提供了一种文件名索引生成方法、装置、及文件查找方法、装置,能够通过在生成相应文件的文件名索引时对切词后的各字段进行过滤,减少生成的文件名索引的数据量,提高文件查找时的速度。
[0005]根据本公开的第一方面,提供了一种文件名索引生成方法,包括:获取待处理文件的文件名和文件标识;对文件名按照预设的切词规则进行切分得到文件名中的至少一个字段;对至少一个字段按照预设的过滤规则进行过滤,将过滤后得到的各字段分别作为索引词;根据索引词和文件标识生成待处理文件的文件名索引。
[0006]根据本公开的第二方面,提供了一种文件名索引生成装置,包括:获取模块,用于获取待处理文件的文件名和文件标识;
[0007]生成模块,用于对文件名按照预设的切词规则进行切分得到文件名中的至少一个字段;对至少一个字段按照预设的过滤规则进行过滤,将过滤后得到的各字段分别作为索引词;根据索引词和文件标识生成待处理文件的文件名索引。
[0008]根据本公开的第三方面,提供了一种文件查找方法,包括:获取用户输入的查询词;对查询词按照预设的切词规则进行切分得到查询词中的至少一个字段;根据至少一个字段,从预设的文件名索引库中匹配对应的文件名索引,预设的文件名索引库中包括各文件对应的文件名索引,文件名索引是根据如第一方面提供的文件名索引生成方法生成的;根据匹配得到的文件名索引,确定对应的文件。
[0009]根据本公开的第四方面,提供了一种文件查找装置,包括:获取模块,用于获取用户输入的查询词;查找模块,用于对查询词按照预设的切词规则进行切分得到查询词中的至少一个字段;根据至少一个字段,从预设的文件名索引库中匹配对应的文件名索引,预设的文件名索引库中包括各文件对应的文件名索引,文件名索引是根据如第二方面提供的文件名索引生成装置生成的;根据匹配得到的文件名索引,确定对应的文件。
[0010]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第三方面提供的方
法。
[0011]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行根据第一方面或第三方面提供的方法。
[0012]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据第一方面或第三方面提供的方法。
[0013]本公开能够通过对待处理文件的文件名进行切词,然后将切词结果进行过滤的方式,过滤掉文件名中被用户查询用到的概率较低的字段。从而减小最终生成的文件名索引的数据量,节省文件名索引库的空间,提高文件查找速度。
[0014]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0015]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0016]图1为本公开实施例提供的文件名索引生成方法的流程示意图;
[0017]图2为本公开实施例提供的文件查找方法的流程示意图之一;
[0018]图3为本公开实施例提供的文件查找方法的流程示意图之二;
[0019]图4为本公开实施例提供的文件名索引生成装置的组成示意图;
[0020]图5为本公开实施例提供的文件查找装置的组成示意图;
[0021]图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]本公开提供的文件名索引生成方法和文件名索引生成装置,适用于根据文件的文件名生成文件对应的文件名索引的情况。本公开所提供的文件名索引生成方法可以由文件名索引生成装置执行,该文件名索引生成装置可以采用软件和/或硬件实现,并具体配置于电子设备中,该电子设备可以是移动终端(如手机、平板等)、服务器、计算机、车载设备、单片机等设备或其他计算设备此处不做限制。
[0024]本公开提供的文件查找方法和文件查找装置,适用于根据用户输入的查询词查找相关文件的情况。本公开所提供的文件查找方法可以由文件查找装置执行,该文件查找装置可以采用软件和/或硬件实现,并具体配置于电子设备中,该电子设备可以是移动终端(如手机、平板等)、服务器、计算机、车载设备、单片机等设备或其他计算设备此处不做限制。
[0025]以下首先对本公开所提供的文件名索引生成方法和文件查找方法分别进行详细说明。
[0026]目前,网盘用户在搜索群组内分享的文件时,一般通过文件名的关键词搜索相关文件。因为网盘文件名的命名规则非常不统一且用户一般记不住文件名称,用户通过自己
记忆的关键词通常难以搜索到想要的文件名列表。文件名索引技术是通过切词将文件名切割为单字作为索引词,然后通过索引存储格式写入数据库。在用户查找相关文件时也会将用户输入的查询词按照相同的切词规则切割成单字。通过切词后的查询词单字召回包含这些单字对应的索引词的索引对应的文件,并向用户展示。
[0027]但是,目前的文件名索引技术,存储的索引通常数据量较大,导致查询速度较慢。
[0028]对此,本公开提供了一种文件名索引生成方法,包括:获取待处理文件的文件名和文件标识;对文件名按照预设的切词规则进行切分得到文件名中的至少一个字段;对至少一个字段按照预设的过滤规则进行过滤,将过滤后得到的各字段分别作为索引词;根据索引词和文件标识生成待处理文件的文件名索引。
[0029]本公开能够通过对待处理文件的文件名进行切词,然后将切词结果进行过滤的方式,过滤掉文件名中被用户查询用到的概率较低的字段。从而减小最终生成的文件名索引的数据量,节省文件名索引库的空间,提高文件查找速度。
[0030]图1为本公开实施例提供的文件名索引生成方法的流程示意图。如图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件名索引生成方法,其特征在于,包括:获取待处理文件的文件名和文件标识;对所述文件名按照预设的切词规则进行切分得到所述文件名中的至少一个字段;对所述至少一个字段按照预设的过滤规则进行过滤,将过滤后得到的各字段分别作为索引词;根据所述索引词和所述文件标识生成所述待处理文件的文件名索引。2.根据权利要求1所述的方法,其特征在于,所述预设的切词规则为通过自然语言处理NLP切词工具进行切分。3.根据权利要求2所述的方法,其特征在于,所述根据所述索引词和所述文件标识生成所述待处理文件的文件名索引,包括:根据预设的索引存储格式存储所述索引词和所述文件标识,生成所述待处理文件的文件名索引,所述预设的索引存储格式包括用于存储索引词的索引词位和用于存储所述文件标识的标识位,所述索引词位包括槽位,所述槽位用于存储所述索引词位对应存储的索引词的首字符。4.根据权利要求1至3任一项所述的方法,其特征在于,所述预设的过滤规则包括以下至少一个:过滤包含在预设的无用字段集中的字段;过滤与文件名中的后缀对应的字段;过滤包含特殊字符的字段;过滤包含广告词的字段。5.一种文件查找方法,其特征在于,包括:获取用户输入的查询词;对所述查询词按照预设的切词规则进行切分得到所述查询词中的至少一个字段;根据所述至少一个字段,从预设的文件名索引库中匹配对应的文件名索引,所述预设的文件名索引库中包括各文件对应的文件名索引,所述文件名索引是根据如权利要求1至4任一项所述的文件名索引生成方法生成的;根据匹配得到的文件名索引,确定对应的文件。6.根据权利要求5所述的方法,其特征在于,所述预设的切词规则为通过自然语言处理NLP切词工具进行切分。7.根据权利要求5或6所述的方法,其特征在于,在所述根据匹配得到的文件名索引,确定对应的文件之后,所述方法还包括:以文件名的形式展示确定出的所述文件。8.根据权利要求7所述的方法,其特征在于,确定出的所述文件包括多个,所述以文件名的形式展示确定出的所述文件,包括:根据所述查询词分别对确定出的各所述文件的文件名是否包含完整的所述查询词进行校验;将包含完整的所述查询词的文件名排序在前进行展示。9.一种文件名索引生成装置,其特征在于,包括:获取模块,用于获取待处理文件的文件名和文件标识;
生成模块,用于对所述文件名按照预设的切词规则进行切分得到所述文件名中的至少一个字段;对所述至少一个字段按照预设的过滤规则进行过滤,将过滤后得到的各字段分别作为索引词;根据所述索引词和所述文件标识生成所述待处理文...

【专利技术属性】
技术研发人员:唐鑫杰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1