文档检索方法、装置、电子设备和存储介质制造方法及图纸

技术编号:39008437 阅读:10 留言:0更新日期:2023-10-07 10:39
本发明专利技术提供一种文档检索方法、装置、电子设备和存储介质,该方法包括:接收用户输入的待检索内容;将所述待检索内容与辅助检索词汇表进行匹配,获得预设数量的辅助检索词汇;将所述待检索内容和所述辅助检索词汇的笛卡尔积作为检索条件集合,进行文档检索。可以减少检索时长并提高文档检索的准确度。检索时长并提高文档检索的准确度。检索时长并提高文档检索的准确度。

【技术实现步骤摘要】
文档检索方法、装置、电子设备和存储介质


[0001]本专利技术涉及检索领域,尤其涉及一种文档检索方法、装置、电子设备和存储介质。

技术介绍

[0002]相关技术的文档检索方法一般直接将需要检索的文本进行分词处理,再将分词结果进行简单处理,作为查询条件与文档库中提取的全部关键词进行相似度计算、匹配,来获得检索结果。由于被检索文档和检索的关键词数量多,直接将检索关键词与文档提取出的全部关键词进行相似度计算、匹配,耗时长且检索结果、检索覆盖范围不够准确。

技术实现思路

[0003]本专利技术提供一种文档检索方法、装置、电子设备和存储介质,用以减少检索时长并提高文档检索的准确度。
[0004]本专利技术提供一种文档检索方法,包括:
[0005]接收用户输入的待检索内容;
[0006]将所述待检索内容与辅助检索词汇表进行匹配,获得预设数量的辅助检索词汇;
[0007]将所述待检索内容和所述辅助检索词汇的笛卡尔积作为检索条件集合,进行文档检索。
[0008]根据本专利技术提供的文档检索方法,所述辅助检索词汇表包括以下一项或多项:
[0009]至少一个词汇组,所述至少一个词汇组由聚类算法对多个词汇聚类获得,或,对近义词表、同义词表、和行业词汇表中的一项或多项中的词汇聚类获得,所述至少一个词汇组中包含至少一个词汇;
[0010]从至少一个标准化文档中提取的至少一个关键词,所述至少一个标准化文档为所述文档检索能检索到的所有标准化文档中的至少一个标准化文档;
>[0011]所述从至少一个标准化文档中提取的至少一个关键词在至少一个标准化文档中被提取的总次数;
[0012]同义词表;
[0013]近义词表;
[0014]行业词汇表。
[0015]根据本专利技术提供的文档检索方法,所述将所述输入的待检索内容与辅助检索词汇表进行匹配,获得预设数量的辅助检索词汇,包括:
[0016]对所述输入的待检索内容进行分词处理,获得一个或多个待检索关键词;
[0017]将所述一个或多个待检索关键词分别与所述辅助检索词汇表进行匹配,得到所述一个或多个待检索关键词一一对应的辅助检索词汇;
[0018]在所述一个或多个待检索关键词匹配到的一一对应的所有辅助检索词汇中,选择从至少一个标准化文档中提取的关键词且在至少一个标准化文档中被提取的总次数最高的前N个辅助检索词汇作为所述一个或多个待检索关键词一一对应的辅助检索词汇,其中N
为预设值。
[0019]根据本专利技术提供的文档检索方法,所述将所述待检索内容和所述辅助检索词汇的笛卡尔积作为检索条件集合,进行文档检索,包括:
[0020]将所述一个或多个待检索关键词,和,所述一个或多个待检索关键词分别对应的N个辅助检索词汇组成一个或多个词汇集合;
[0021]将所述一个或多个集合词汇的笛卡尔积作为检索条件集合;
[0022]将所述检索条件集合作为预构建的文档关键词数据库的检索条件,在所述预构建的文档关键词数据库中进行检索;
[0023]其中,所述预构建的文档关键词数据库基于输入的标准化文档,采用TF

IDF算法提取所述输入的标准化文档的关键词和TF

IDF值,并存储前M个关键词及对应的文档ID和存储路径,M为预设值。
[0024]根据本专利技术提供的文档检索方法,所述方法还包括:
[0025]将所述标准化文档输入文档预处理模块,获得所述从标准化文档中提取的关键词,其中,所述文档预处理模块用于采用TF

IDF算法提取所述标准化文档的关键词。
[0026]根据本专利技术提供的文档检索方法,所述方法还包括:
[0027]在所述检索条件集合中的关键词与所述预构建的文档关键词数据库中存储的一个或多个标准化文档的M个关键词相匹配的情况下,输出所述一个或多个标准化文档对应的文档ID及路径;在所述检索条件集合中的关键词未在所述预构建的文档关键词数据库中匹配到关键词的情况下,将所述检索条件集合作为查询条件,在标准文档库中进行文档检索。
[0028]本专利技术还提供一种文档检索装置,包括:
[0029]接收模块,用于接收用户输入的待检索内容;
[0030]匹配模块,用于将所述待检索内容与辅助检索词汇表进行匹配,获得预设数量的辅助检索词汇;
[0031]检索模块,用于将所述待检索词汇和所述辅助检索词汇的笛卡尔积作为检索条件集合,进行文档检索。
[0032]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述文档检索方法。
[0033]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述文档检索方法。
[0034]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现所述文档检索方法。
[0035]本专利技术提供的文档检索方法、装置、电子设备和存储介质,通过对待检索内容进行适当地扩展再进行文档检索,可以减少检索时长并提高文档检索的准确度。
附图说明
[0036]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些
附图获得其他的附图。
[0037]图1是本专利技术提供的文档检索方法的流程示意图之一;
[0038]图2是本专利技术提供的文档检索方法的流程示意图之二;
[0039]图3是本专利技术提供的文档检索方法的流程示意图之三;
[0040]图4是本专利技术提供的文档检索装置的结构示意图;
[0041]图5是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0042]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0043]证券行业属于强监管行业,证券业务人员在工作过程中需要进行大量的文档信息查询工作,来确定相关要求、规范。相关技术的文档检索方法一般直接将需要检索的文本进行分词处理,再将分词结果进行简单处理,作为查询条件与文档库中提取的全部关键词进行相似度计算、匹配,来获得检索结果。由于被检索文档和检索的关键词数量多,直接将检索关键词与文档提取出的全部关键词进行相似度计算、匹配,耗时长且检索结果、检索覆盖范围不够准确。
[0044]本专利技术提供一种文档检索方法、装置、电子设备和存储介质,用以减少检索时长并提高文档检索的准确度。
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文档检索方法,其特征在于,包括:接收用户输入的待检索内容;将所述待检索内容与辅助检索词汇表进行匹配,获得预设数量的辅助检索词汇;将所述待检索内容和所述辅助检索词汇的笛卡尔积作为检索条件集合,进行文档检索。2.根据权利要求1所述的文档检索方法,其特征在于,所述辅助检索词汇表包括以下一项或多项:至少一个词汇组,所述至少一个词汇组由聚类算法对多个词汇聚类获得,或,对近义词表、同义词表、和行业词汇表中的一项或多项中的词汇聚类获得,所述至少一个词汇组中包含至少一个词汇;从至少一个标准化文档中提取的至少一个关键词,所述至少一个标准化文档为所述文档检索能检索到的所有标准化文档中的至少一个标准化文档;所述从至少一个标准化文档中提取的至少一个关键词在至少一个标准化文档中被提取的总次数;同义词表;近义词表;行业词汇表。3.根据权利要求2所述的文档检索方法,其特征在于,所述将所述输入的待检索内容与辅助检索词汇表进行匹配,获得预设数量的辅助检索词汇,包括:对所述输入的待检索内容进行分词处理,获得一个或多个待检索关键词;将所述一个或多个待检索关键词分别与所述辅助检索词汇表进行匹配,得到所述一个或多个待检索关键词一一对应的辅助检索词汇;在所述一个或多个待检索关键词匹配到的一一对应的所有辅助检索词汇中,选择从至少一个标准化文档中提取的关键词且在至少一个标准化文档中被提取的总次数最高的前N个辅助检索词汇作为所述一个或多个待检索关键词一一对应的辅助检索词汇,其中N为预设值。4.根据权利要求3所述的文档检索方法,其特征在于,所述将所述待检索内容和所述辅助检索词汇的笛卡尔积作为检索条件集合,进行文档检索,包括:将所述一个或多个待检索关键词,和,所述一个或多个待检索关键词分别对应的N个辅助检索词汇组成一个或多个词汇集合;将所述一个或多个集合词汇的笛卡尔积作为检索条件集合;将所述检索条件集合作为预构建的文档关键词数据库的检索条件,在所述...

【专利技术属性】
技术研发人员:徐峰潘晓明陈曦周亚崔海雪章晗孙乐义朱丹万海波袁林
申请(专利权)人:华安证券股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1