【技术实现步骤摘要】
一种数据查询方法、装置和可读介质
本专利技术涉及数据处理
,尤其涉及一种数据查询方法、装置和可读介质。
技术介绍
在搜索中,文档召回过程一般为:先对搜索串(query)进行分词处理得到若干个关键词,然后确定每一关键词的重要度,基于各个关键词的重要度筛选出重要度比较高的关键词作为查询片段进行查询得到文档召回结果,而关键词的重要程度的结果直接决定搜索过程中的召回策略,进而影响召回结果。传统方案是仅通过计算关键词的词频(TermFrequency,TF)和逆文档频率(InverseDocumentFrequency,IDF)来确定关键词的权重(重要度),该方法中,由于关键词的IDF在不同搜索串中的值相同,导致同一关键词在不同搜索串中的重要度几乎相同,进而导致得到关键词的权重(重要度)与关键词的实际重要度有偏差。例如,搜索串“世界上最贵的车”和搜索串“迷你世界”中均存在关键词“世界”,但在实际情况下,“世界”这个关键词在前一搜索串中重要度应该很小,而在后一搜索串中重要度应该很大,但由于采用上述方法计算出的关键词“世界”在两个搜索串中的重要度几乎是一样的导致与实际重要度存在偏差,从而导致确定出的关键词在搜索串中的重要度的结果不准确,进而导致搜索串的召回结果可能不准确。因此,如何准确地确定出搜索串中关键词的重要度,进而提高召回结果是值得考虑的问题之一。
技术实现思路
本专利技术实施例提供一种数据查询方法、装置和可读介质,用以解决现有技术中确定出的搜索串中的关键词的重要度不准确的问题。一方面,本专利技术实施例提供一种数据查询方法,包括:获取用户提交的搜索串并对所述搜索 ...
【技术保护点】
1.一种数据查询方法,其特征在于,包括:获取用户提交的搜索串并对所述搜索串进行分词处理;针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;基于所述搜索串中各个关键词的权重,确定查询关键词;基于查询关键词进行查询获得所述搜索串的查询结果。
【技术特征摘要】
1.一种数据查询方法,其特征在于,包括:获取用户提交的搜索串并对所述搜索串进行分词处理;针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;基于所述搜索串中各个关键词的权重,确定查询关键词;基于查询关键词进行查询获得所述搜索串的查询结果。2.如权利要求1所述的方法,其特征在于,分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重,具体包括:分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,以及训练得到的关键词权重预测模型,确定各个关键词在所述搜索串中的权重;其中,所述关键词权重预测模型为基于历史查询电子资源时生成的点击日志获取到的训练样本训练得到的;每一用户的点击日志包括该用户的搜索串;所述训练样本包括满足样本筛选条件的每一样本搜索串中每一样本关键词在该样本搜索串中的样本权重、该样本关键词的词本身特征值、用于表征该样本关键词与该样本搜索串之间关系的第一关联特征值、用于表征该样本关键词与该样本搜索串中该样本关键词的邻近词之间关系的第二关联特征值、该样本搜索串中该样本关键词的邻近词的词本身特征值和该样本搜索串的特征值。3.如权利要求1所述的方法,其特征在于,分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重,具体包括:分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,以及所述训练得到的关键词权重预测模型,确定各个关键词在搜索串中的权重和各个关键词的分类结果,其中,每一关键词的分类结果用于指示该关键词在所述搜索串中是必留词还是非必留词;则基于所述搜索串中各个关键词的权重,确定查询关键词,具体包括:基于所述搜索串中各个关键词的权重和分类结果,确定查询关键词;其中,所述关键词权重预测模型为基于历史查询电子资源时生成的点击日志获取到的训练样本训练得到的;每一用户的点击日志包括该用户的搜索串;所述训练样本包括满足样本筛选条件的每一样本搜索串中每一样本关键词在该样本搜索串中的样本权重、该样本关键词的标注结果、该样本关键词的词本身特征值、用于表征该样本关键词与该样本搜索串之间关系的第一关联特征值、用于表征该样本关键词与该样本搜索串中该样本关键词的邻近词之间关系的第二关联特征值、该样本搜索串中该样本关键词的邻近词的词本身特征值和该样本搜索串的特征值,所述标注结果用于指示样本关键词是必留词还是非必留词。4.如权利要求3所述的方法,其特征在于,该样本关键词的标注结果为基于该样本关键词在该样本搜索串中的样本权重确定出的。5.如权利要求2~4任一所述的方法,其特征在于,所述点击日志还包括被点击的电子资源标题;以及按照下述方法获得每一样本关键词在样本搜索...
【专利技术属性】
技术研发人员:黄婷,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。