文档检索方法、装置、设备及存储介质制造方法及图纸

技术编号:39285641 阅读:8 留言:0更新日期:2023-11-07 10:57
本发明专利技术涉及数据查询技术领域,公开了一种文档检索方法、装置、设备及存储介质,该方法包括:获取用户输入的检索词条的目标词串,并确定目标词串的语义重要度;获取与目标词串相匹配的候选文档,并确定目标词串与候选文档之间的相关度;根据语义重要度对相关度进行优化,获得优化后相关度;通过优化后相关度对候选文档进行排序后展示。本发明专利技术通过确定所述目标词串的语义重要度,并根据语义重要度对目标词串与候选文档之间的相关度进行优化,避免了在候选文档为与重要度较低的词汇相匹配的文档时,若该候选文档的相关度较高,则该候选文档也会进行展示的情况,使检索结果更加符合用户需求,有效提高了用户体验。有效提高了用户体验。有效提高了用户体验。

【技术实现步骤摘要】
文档检索方法、装置、设备及存储介质


[0001]本专利技术涉及数据查询
,尤其涉及一种文档检索方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网技术的发展,互联网上的信息呈爆炸式的增长,越来越多的用户通过网络搜索所需的文档。相关技术中的文档检索方式是查询与检索词条中各词汇匹配的候选文档,然后计算各候选文档与所匹配词汇的相关度,根据各候选文档的相关度高低进行排序展示。
[0003]但是,上述方式中在候选文档为与重要度较低的词汇相匹配的文档时,若该候选文档的相关度较高,那么该候选文档也会进行展示,导致检索结果无法满足用户需求,影响用户体验。

技术实现思路

[0004]本专利技术的主要目的在于提供了一种文档检索方法、装置、设备及存储介质,旨在解决现有技术在候选文档为与重要度较低的词汇相匹配的文档时,若该候选文档的相关度较高,那么该候选文档也会进行展示,无法满足用户预期,影响用户体验的技术问题。
[0005]为实现上述目的,本专利技术提供了一种文档检索方法,所述文档检索方法应用于在线排序模型,所述方法包括以下步骤:
[0006]获取用户输入的检索词条的目标词串,并确定所述目标词串的语义重要度;
[0007]获取与所述目标词串相匹配的候选文档,并确定所述目标词串与所述候选文档之间的相关度;
[0008]根据所述语义重要度对所述相关度进行优化,获得优化后相关度;
[0009]通过所述优化后相关度对所述候选文档进行排序后展示。
[0010]可选地,所述确定所述目标词串的语义重要度的步骤,包括:
[0011]获取所述目标词串中各分词相对所述检索词条的原始词重要度;
[0012]根据所述各分词的数量确定所述检索词条的分词后句子长度;
[0013]基于所述分词后句子长度对所述原始词重要度进行优化,获得所述目标词串的语义重要度。
[0014]可选地,所述基于所述分词后句子长度对所述原始词重要度进行优化,获得所述目标词串的语义重要度的步骤,包括:
[0015]通过预设词重要度优化公式基于所述分词后句子长度对所述原始词重要度进行统一化处理,获得所述目标词串的语义重要度,其中,所述预设词重要度优化公式为:
[0016]W=Important(Sent)*len(Sent),
[0017]式中,W为统一化词重要度,Important(C)为原始词重要度,len(Sent)为分词后句子长度。
[0018]可选地,所述根据所述语义重要度对所述相关度进行优化,获得优化后相关度的步骤,包括:
[0019]通过预设相关度优化公式基于所述语义重要度对所述相关度进行优化,获得各分词的优化后分词相关度,其中,所述预设相关度优化公式为:
[0020]S
tw
=W
i
*S
i

[0021]式中,S
tw
为优化后分词相关度,W
i
为目标词串中词语i的统一化词重要度,S
i
为目标词串中词语i与候选文档的相关度;
[0022]通过预设相关度叠加公式将所述各分词的优化后分词相关度进行叠加,获得所述目标词串的优化后相关度,其中,所述预设相关度叠加公式为:
[0023][0024]式中,R
doc
为优化后相关度,S
tw
为优化后分词相关度。
[0025]可选地,所述获取与所述目标词串相匹配的候选文档的步骤,包括:
[0026]从预设倒排数据库中查询与所述目标词串中各分词匹配的匹配词串;
[0027]基于所述匹配词串从预设正排数据库中并发查询与所述匹配词串相匹配的匹配文档;
[0028]召回所述匹配文档,并将所述匹配文档作为与所述目标词串相匹配的候选文档。
[0029]可选地,所述获取与所述目标词串相匹配的候选文档的步骤之前,还包括:
[0030]获取样本文档,并根据所述样本文档的格式选取对应的解析策略对所述样本文档进行解析,获得格式统一的解析后文档;
[0031]采用多粒度的切词粒度对所述解析后文档的标题进行切词,获得倒排索引;
[0032]基于所述倒排索引构建预设倒排数据库,并根据与所述倒排索引对应的目标样本文档构建预设正排数据库。
[0033]可选地,所述在线排序模型的构建包括:
[0034]获取由预设文档构成的初始数据,并根据所述预设文档中的预设行业关键词对所述初始数据进行标注,获得标注数据;
[0035]通过所述标注数据对transformer模型进行训练,获得离线排序模型,其中,所述离线排序模型的输出结果为将transformer模型后两层输出结果合并后获得的单层结果;
[0036]基于所述离线排序模型对预设未标注文档数据进行预测,获得所述预设未标注文档数据的样本相关度结果;
[0037]根据所述样本相关度结果对XGBoost模型进行训练,获得在线排序模型。
[0038]此外,为实现上述目的,本专利技术还提出一种文档检索装置,所述装置包括:
[0039]语义重要度模块,用于获取用户输入的检索词条的目标词串,并确定所述目标词串的语义重要度;
[0040]文档相关度模块,用于获取与所述目标词串相匹配的候选文档,并确定所述目标词串与所述候选文档之间的相关度;
[0041]相关度优化模块,用于根据所述语义重要度对所述相关度进行优化,获得优化后相关度;
[0042]候选文档展示模块,用于通过所述优化后相关度对所述候选文档进行排序后展
示。
[0043]此外,为实现上述目的,本专利技术还提出一种文档检索设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文档检索程序,所述文档检索程序配置为实现如上文所述的文档检索方法的步骤。
[0044]此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有文档检索程序,所述文档检索程序被处理器执行时实现如上文所述的文档检索方法的步骤。
[0045]本专利技术提供了一种文档检索方法、装置、设备及存储介质,该方法通过获取用户输入的检索词条的目标词串,并确定目标词串的语义重要度;然后获取与目标词串相匹配的候选文档,并确定目标词串与候选文档之间的相关度;最后根据语义重要度对相关度进行优化,获得优化后相关度;通过优化后相关度对候选文档进行排序后展示。本专利技术通过确定所述目标词串的语义重要度,并根据语义重要度对目标词串与候选文档之间的相关度进行优化,避免了在候选文档为与重要度较低的词汇相匹配的文档时,若该候选文档的相关度较高,则该候选文档也会进行展示的情况,使检索结果更加符合用户需求,有效提高了用户体验。
附图说明
[0046]图1为本专利技术实施例方案涉及的硬件运行环境的文档检索设备结构示意图;
[0047]图2为本专利技术文档检索方法第一实施例的流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档检索方法,其特征在于,所述文档检索方法应用于在线排序模型,所述方法包括以下步骤:获取用户输入的检索词条的目标词串,并确定所述目标词串的语义重要度;获取与所述目标词串相匹配的候选文档,并确定所述目标词串与所述候选文档之间的相关度;根据所述语义重要度对所述相关度进行优化,获得优化后相关度;通过所述优化后相关度对所述候选文档进行排序后展示。2.如权利要求1所述的文档检索方法,其特征在于,所述确定所述目标词串的语义重要度的步骤,包括:获取所述目标词串中各分词相对所述检索词条的原始词重要度;根据所述各分词的数量确定所述检索词条的分词后句子长度;基于所述分词后句子长度对所述原始词重要度进行优化,获得所述目标词串的语义重要度。3.如权利要求2所述的文档检索方法,其特征在于,所述基于所述分词后句子长度对所述原始词重要度进行优化,获得所述目标词串的语义重要度的步骤,包括:通过预设词重要度优化公式基于所述分词后句子长度对所述原始词重要度进行统一化处理,获得所述目标词串的语义重要度,其中,所述预设词重要度优化公式为:W=Important(Sent)*len(Sent),式中,W为统一化词重要度,Important(C)为原始词重要度,len(Sent)为分词后句子长度。4.如权利要求3所述的文档检索方法,其特征在于,所述根据所述语义重要度对所述相关度进行优化,获得优化后相关度的步骤,包括:通过预设相关度优化公式基于所述语义重要度对所述相关度进行优化,获得各分词的优化后分词相关度,其中,所述预设相关度优化公式为:S
tw
=W
i
*S
i
,式中,S
tw
为优化后分词相关度,W
i
为目标词串中词语i的统一化词重要度,S
i
为目标词串中词语i与候选文档的相关度;通过预设相关度叠加公式将所述各分词的优化后分词相关度进行叠加,获得所述目标词串的优化后相关度,其中,所述预设相关度叠加公式为:式中,R
doc
为优化后相关度,S
tw
为优化后分词相关度。5.如权利要求1所述的文档检索方法,其特征在于...

【专利技术属性】
技术研发人员:彭怀瑾王东李洪菊成龙李志荣
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1