一种数据查询方法、装置和可读介质制造方法及图纸

技术编号:21477529 阅读:30 留言:0更新日期:2019-06-29 04:48
本发明专利技术公开了一种数据查询方法、装置和可读介质,所述方法中,在对用户提交的搜索串进行分词后,针对分词后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与搜索串之间关系的第一关联特征值、用于表征该关键词与搜索串中该关键词的邻近词之间关系的第二关联特征值、搜索串中该关键词的邻近词的词本身特征值和搜索串的特征值;分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、邻近词的词本身特征值和搜索串的特征值,确定各个关键词在搜索串中的权重;基于搜索串中各个关键词的权重,确定查询关键词并进行查询获得搜索串的查询结果,由此得到的关键词的权重更能够符合该关键词在搜索串中的实际重要度。

【技术实现步骤摘要】
一种数据查询方法、装置和可读介质
本专利技术涉及数据处理
,尤其涉及一种数据查询方法、装置和可读介质。
技术介绍
在搜索中,文档召回过程一般为:先对搜索串(query)进行分词处理得到若干个关键词,然后确定每一关键词的重要度,基于各个关键词的重要度筛选出重要度比较高的关键词作为查询片段进行查询得到文档召回结果,而关键词的重要程度的结果直接决定搜索过程中的召回策略,进而影响召回结果。传统方案是仅通过计算关键词的词频(TermFrequency,TF)和逆文档频率(InverseDocumentFrequency,IDF)来确定关键词的权重(重要度),该方法中,由于关键词的IDF在不同搜索串中的值相同,导致同一关键词在不同搜索串中的重要度几乎相同,进而导致得到关键词的权重(重要度)与关键词的实际重要度有偏差。例如,搜索串“世界上最贵的车”和搜索串“迷你世界”中均存在关键词“世界”,但在实际情况下,“世界”这个关键词在前一搜索串中重要度应该很小,而在后一搜索串中重要度应该很大,但由于采用上述方法计算出的关键词“世界”在两个搜索串中的重要度几乎是一样的导致与实际重要度存在偏差,从而导致确定出的关键词在搜索串中的重要度的结果不准确,进而导致搜索串的召回结果可能不准确。因此,如何准确地确定出搜索串中关键词的重要度,进而提高召回结果是值得考虑的问题之一。
技术实现思路
本专利技术实施例提供一种数据查询方法、装置和可读介质,用以解决现有技术中确定出的搜索串中的关键词的重要度不准确的问题。一方面,本专利技术实施例提供一种数据查询方法,包括:获取用户提交的搜索串并对所述搜索串进行分词处理;针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;基于所述搜索串中各个关键词的权重,确定查询关键词;基于查询关键词进行查询获得所述搜索串的查询结果。另一方面,本专利技术实施例提供一种数据查询装置,包括:获取模块,用于获取用户提交的搜索串并对所述搜索串进行分词处理;特征值确定模块,用于针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;权重确定模块,用于分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;查询结果召回模块,用于基于所述搜索串中各个关键词的权重,确定查询关键词;并基于查询关键词进行查询获得所述搜索串的查询结果。再一方面,本专利技术实施例提供一种计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令用于执行本申请提供的数据查询方法。再一方面,本专利技术实施例提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请提供的数据查询方法。本专利技术有益效果:本专利技术实施例提供的数据查询方法、装置和可读介质,获取用户提交的搜索串并对所述搜索串进行分词处理;针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;基于所述搜索串中各个关键词的权重,确定查询关键词;基于查询关键词进行查询获得所述搜索串的查询结果,由于本专利技术在确定关键词在搜索串中的权重时,不仅考虑了关键词本身的特征、搜索串本身的特征,而且还考虑了关键词与搜索串之间的关系、关键词与搜索串中的邻近词之间的关键词和邻近词的关系,使得基于此得到的权重更能够体现出该关键词在搜索串中的重要度,且能够符合该关键词在搜索串中的实际重要度。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1a为本专利技术实施例提供的数据查询方法的应用场景示意图;图1b为本专利技术实施例提供的服务器12的结构示意图;图2为本专利技术实施例提供的数据查询方法的流程示意图;图3为本专利技术实施例提供的确定每一样本关键词在样本搜索串中的样本权重的流程示意图;图4为本专利技术实施例提供的部分有向二部图的示意图;图5为本专利技术实施例提供的确定样本关键词的参考权重的流程示意图;图6为本专利技术实施例提供的各个特征值的关系示意图;图7为本专利技术实施例提供的数据查询流程的执行架构图;图8为本专利技术实施例提供的数据查询装置的结构示意图;图9为本专利技术实施例提供的实施数据查询方法的计算装置的结构示意图。具体实施方式本专利技术实施例提供的数据查询方法、装置和可读介质,用以解决现有技术中确定出的搜索串中的关键词的重要度不准确的问题。以下结合说明书附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术,并且在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。为了便于理解本专利技术,本专利技术涉及的技术术语中:1、必留词,表示用户搜索串中权重较高的关键词,属于相对重要的词,若搜索串中缺乏该词则会影响搜索串的意图;非必留词,表示用户搜索串中权重较低的词,属于相对不重要的词,查询召回过程中可丢弃的词,且丢弃该词不影响整体意图。2、命名实体识别(NamedEntityRecognition,简称NER),是指识别文本中具有特定意义的实体,实体主要包括人名、地名、机构名、专有名词等。命名实体识别通常包括两部分工作:(1)实体边界识别;(2)确定实体类型(人名、地名、机构名或其他)。3、点间互信息(PMI)主要用于计算词语间的语义相似度,基本思想是统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高。4、梯度提升决策树:(GradientBoostingDecisionTree,GBDT)是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。利用梯度提升决策树模型可以在训练决策树时,对得到的决策树模型进行校正,一步步减少迭代的残差,最终在残差减小本文档来自技高网...

【技术保护点】
1.一种数据查询方法,其特征在于,包括:获取用户提交的搜索串并对所述搜索串进行分词处理;针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;基于所述搜索串中各个关键词的权重,确定查询关键词;基于查询关键词进行查询获得所述搜索串的查询结果。

【技术特征摘要】
1.一种数据查询方法,其特征在于,包括:获取用户提交的搜索串并对所述搜索串进行分词处理;针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;基于所述搜索串中各个关键词的权重,确定查询关键词;基于查询关键词进行查询获得所述搜索串的查询结果。2.如权利要求1所述的方法,其特征在于,分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重,具体包括:分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,以及训练得到的关键词权重预测模型,确定各个关键词在所述搜索串中的权重;其中,所述关键词权重预测模型为基于历史查询电子资源时生成的点击日志获取到的训练样本训练得到的;每一用户的点击日志包括该用户的搜索串;所述训练样本包括满足样本筛选条件的每一样本搜索串中每一样本关键词在该样本搜索串中的样本权重、该样本关键词的词本身特征值、用于表征该样本关键词与该样本搜索串之间关系的第一关联特征值、用于表征该样本关键词与该样本搜索串中该样本关键词的邻近词之间关系的第二关联特征值、该样本搜索串中该样本关键词的邻近词的词本身特征值和该样本搜索串的特征值。3.如权利要求1所述的方法,其特征在于,分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重,具体包括:分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,以及所述训练得到的关键词权重预测模型,确定各个关键词在搜索串中的权重和各个关键词的分类结果,其中,每一关键词的分类结果用于指示该关键词在所述搜索串中是必留词还是非必留词;则基于所述搜索串中各个关键词的权重,确定查询关键词,具体包括:基于所述搜索串中各个关键词的权重和分类结果,确定查询关键词;其中,所述关键词权重预测模型为基于历史查询电子资源时生成的点击日志获取到的训练样本训练得到的;每一用户的点击日志包括该用户的搜索串;所述训练样本包括满足样本筛选条件的每一样本搜索串中每一样本关键词在该样本搜索串中的样本权重、该样本关键词的标注结果、该样本关键词的词本身特征值、用于表征该样本关键词与该样本搜索串之间关系的第一关联特征值、用于表征该样本关键词与该样本搜索串中该样本关键词的邻近词之间关系的第二关联特征值、该样本搜索串中该样本关键词的邻近词的词本身特征值和该样本搜索串的特征值,所述标注结果用于指示样本关键词是必留词还是非必留词。4.如权利要求3所述的方法,其特征在于,该样本关键词的标注结果为基于该样本关键词在该样本搜索串中的样本权重确定出的。5.如权利要求2~4任一所述的方法,其特征在于,所述点击日志还包括被点击的电子资源标题;以及按照下述方法获得每一样本关键词在样本搜索...

【专利技术属性】
技术研发人员:黄婷
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1