一种文本查询方法、装置、设备以及计算机存储介质制造方法及图纸

技术编号:34369808 阅读:11 留言:0更新日期:2022-07-31 10:35
本申请实施例公开了一种文本查询方法、装置、设备以及计算机存储介质,该方法包括:获取待查询文本与至少一个候选文本;基于至少一个候选文本,计算待查询文本与每一候选文本的时间差因子、关键字重合因子和文本结构因子;根据待查询文本与每一候选文本的时间差因子、关键字重合因子和文本结构因子,确定待查询文本与每一候选文本之间的相关度值;根据待查询文本与每一候选文本之间的相关度值,对待查询文本对应的查询结果进行显示。这样,能够根据待查询文本与候选文本的相关度值,得到待查询文本对应的查询结果,从而不仅提高了查询结果的准确性,而且提高了查询效率。而且提高了查询效率。而且提高了查询效率。

A text query method, device, device and computer storage medium

【技术实现步骤摘要】
一种文本查询方法、装置、设备以及计算机存储介质


[0001]本申请涉及信息检索
,尤其涉及一种文本查询方法、装置、设备以及计算机存储介质。

技术介绍

[0002]舆情系统中会面临这样一种需求:用户希望检索某篇文章在已有文章中有没有出现,同时希望搜索引擎返回的结果能够按照相关程度排列。
[0003]在目前的解决方案中,要么是直接使用关键字作为索引查找,但是这种情况要么仅能搜索关键字完全一样的文章且无法对关键字不相同的文章排序,准确度低;要么是通过遍历计算文本正文的编码与文本距离进行排序,虽然较为准确但耗时较长,难以满足实时返回结果的需求。

技术实现思路

[0004]有鉴于此,本申请提出了一种文本查询方法、装置、设备以及计算机存储介质。
[0005]本申请的技术方案是这样实现的:
[0006]第一方面,本申请实施例提供了一种文本查询方法,该方法可以包括:
[0007]获取待查询文本与至少一个候选文本;
[0008]基于所述至少一个候选文本,计算所述待查询文本与每一候选文本的时间差因子、关键字重合因子和文本结构因子;
[0009]根据所述待查询文本与每一候选文本的时间差因子、关键字重合因子和文本结构因子,确定所述待查询文本与每一候选文本之间的相关度值;
[0010]根据所述待查询文本与每一候选文本之间的相关度值,对所述待查询文本对应的查询结果进行显示。
[0011]在一些实施例中,所述根据所述待查询文本与每一候选文本之间的相关度值,对所述待查询文本对应的查询结果进行显示,可以包括:
[0012]将所述相关度值与预设门限值进行比较;
[0013]根据比较结果,从所述至少一个候选文本中选择所述相关度值大于所述预设门限值的至少一个目标文本0;
[0014]根据所述待查询文本与所述至少一个目标文本之间的相关度值,对所述至少一个目标文本进行排序,得到所述目标文本的排序结果;
[0015]确定所述排序结果为所述待查询文本对应的查询结果,并对所述查询结果进行显示。
[0016]在一些实施例中,所述基于所述至少一个候选文本,计算所述待查询文本与每一候选文本的时间差因子,可以包括:
[0017]确定所述待查询文本与第一候选文本的发布时间差;
[0018]利用第一计算模型对所述发布时间差进行归一化计算,得到所述待查询文本与所
述第一候选文本的时间差因子;
[0019]其中,所述第一候选文本为所述至少一个候选文本中的任意一个。
[0020]在一些实施例中,所述基于所述至少一个候选文本,计算所述待查询文本与每一候选文本的关键字重合因子,可以包括:
[0021]确定所述待查询文本的第一关键字信息以及第一候选文本的第二关键字信息;
[0022]对所述第一关键字信息和所述第二关键字信息进行字符匹配,确定重合字符数;
[0023]计算所述重合字符数与所述第一关键字信息的总字符数的比值,将所述比值确定为所述待查询文本与所述第一候选文本的关键字重合因子;
[0024]其中,所述第一候选文本为所述至少一个候选文本中的任意一个。
[0025]在一些实施例中,所述基于所述至少一个候选文本,计算所述待查询文本与每一候选文本的文本结构因子,可以包括:
[0026]确定所述待查询文本的第一文本长度和第一语句数量、第一候选文本的第二文本长度和第二语句数量;
[0027]利用第二计算模型对所述第一文本长度和所述第二文本长度进行归一化计算,得到所述待查询文本与所述第一候选文本的文本长度差因子;以及利用所述第二计算模型对所述第一语句数量和所述第二语句数量进行归一化计算,得到所述待查询文本与所述第一候选文本的语句数量差因子;
[0028]根据所述文本长度差因子和所述语句数量差因子,确定所述待查询文本与所述第一候选文本的文本结构因子;
[0029]其中,所述第一候选文本为所述至少一个候选文本中的任意一个。
[0030]在一些实施例中,所述根据所述文本长度差因子和所述语句数量差因子,确定所述待查询文本与所述第一候选文本的文本结构因子,可以包括:
[0031]确定所述文本长度差因子和所述语句数量差因子对应的预设权重值;
[0032]利用所述预设权重值对所述文本长度差因子和所述语句数量差因子进行加权和计算,得到所述待查询文本与所述第一候选文本的文本结构因子。
[0033]在一些实施例中,所述根据所述待查询文本与每一候选文本的时间差因子、关键字重合因子和文本结构因子,确定所述待查询文本与每一候选文本之间的相关度值,可以包括:
[0034]根据所述关键字重合因子、所述文本结构因子和预设常数值,确定第一值;
[0035]对所述第一值与所述时间差因子进行乘积计算,得到所述待查询文本与每一候选文本之间的相关度值。
[0036]第二方面,本申请实施例提供了一种文本查询装置,可以包括:
[0037]获取单元,配置为获取待查询文本与至少一个候选文本;
[0038]计算单元,配置为基于所述至少一个候选文本,计算所述待查询文本与每一候选文本的时间差因子、关键字重合因子和文本结构因子;
[0039]确定单元,配置为根据所述待查询文本与每一候选文本的时间差因子、关键字重合因子和文本结构因子,确定所述待查询文本与每一候选文本之间的相关度值;
[0040]显示单元,配置为根据所述待查询文本与每一候选文本之间的相关度值,对所述待查询文本对应的查询结果进行显示。
[0041]第三方面,本申请实施例提供了一种电子设备,包括:
[0042]存储器,用于存储能够在处理器上运行的计算机程序;
[0043]处理器,用于在运行所述计算机程序时,执行如第一方面中任一项所述的文本查询方法。
[0044]第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时实现如第一方面中任一项所述的文本查询方法。
[0045]本申请实施例所提供的一种文本查询方法、装置、设备以及计算机存储介质,获取待查询文本与至少一个候选文本;基于至少一个候选文本,计算待查询文本与每一候选文本的时间差因子、关键字重合因子和文本结构因子;根据待查询文本与每一候选文本的时间差因子、关键字重合因子和文本结构因子,确定待查询文本与每一候选文本之间的相关度值;根据待查询文本与每一候选文本之间的相关度值,对待查询文本对应的查询结果进行显示。这样,通过综合考虑时间差因子、关键字重合因子和文本结构因子等多种因素来计算待查询文本与候选文本的相关度值,然后根据该相关度值确定待查询文本对应的查询结果,从而不仅提高了查询结果的准确性,而且提高了查询效率。
附图说明
[0046]图1为本申请实施例提供的一种文本查询方法的流程示意图;
[0047]图2为本申请实施例提供的一种第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本查询方法,所述方法包括:获取待查询文本与至少一个候选文本;基于所述至少一个候选文本,计算所述待查询文本与每一候选文本的时间差因子、关键字重合因子和文本结构因子;根据所述待查询文本与每一候选文本的时间差因子、关键字重合因子和文本结构因子,确定所述待查询文本与每一候选文本之间的相关度值;根据所述待查询文本与每一候选文本之间的相关度值,对所述待查询文本对应的查询结果进行显示。2.根据权利要求1所述的方法,所述根据所述待查询文本与每一候选文本之间的相关度值,对所述待查询文本对应的查询结果进行显示,包括:将所述相关度值与预设门限值进行比较;根据比较结果,从所述至少一个候选文本中选择所述相关度值大于所述预设门限值的至少一个目标文本0;根据所述待查询文本与所述至少一个目标文本之间的相关度值,对所述至少一个目标文本进行排序,得到所述目标文本的排序结果;确定所述排序结果为所述待查询文本对应的查询结果,并对所述查询结果进行显示。3.根据权利要求1所述的方法,所述基于所述至少一个候选文本,计算所述待查询文本与每一候选文本的时间差因子,包括:确定所述待查询文本与第一候选文本的发布时间差;利用第一计算模型对所述发布时间差进行归一化计算,得到所述待查询文本与所述第一候选文本的时间差因子;其中,所述第一候选文本为所述至少一个候选文本中的任意一个。4.根据权利要求1所述的方法,所述基于所述至少一个候选文本,计算所述待查询文本与每一候选文本的关键字重合因子,包括:确定所述待查询文本的第一关键字信息以及第一候选文本的第二关键字信息;对所述第一关键字信息和所述第二关键字信息进行字符匹配,确定重合字符数;计算所述重合字符数与所述第一关键字信息的总字符数的比值,将所述比值确定为所述待查询文本与所述第一候选文本的关键字重合因子;其中,所述第一候选文本为所述至少一个候选文本中的任意一个。5.根据权利要求1所述的方法,所述基于所述至少一个候选文本,计算所述待查询文本与每一候选文本的文本结构因子,包括:确定所述待查询文本的第一文本长度和第一语句数量、第一候选文本的第二文本长度和第二语句数量;利用第二计算...

【专利技术属性】
技术研发人员:刘韫文刘成
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1