【技术实现步骤摘要】
查询语句与网页相似度的确定方法、装置、终端及服务器
本专利技术实施例涉及数据处理
,尤其涉及查询语句与网页相似度的确定方 法、装置、终端及服务器。
技术介绍
目前,搜索引擎在为用户提供搜索服务时,通常是先获取用户在搜索栏中所输入 的指令,基于该指令生成查询句,然后计算该查询句与大量网页之间的相关性,最后将相关 性较高的网页所对应的链接作为本次查询结果呈现给用户,W供用户点击查看。 由于基于相关性计算的网页排名直接决定了搜索引擎的优劣和用户体验质量,因 此如何能够准确高效的计算出查询语句和网页之间的相关性是搜索引擎的核也问题点。然 而,现有技术在得到用户输入的查询句之后,并未对该查询句进行其他处理,而是采取硬匹 配的方法,直接计算查询语句和网页的相关性,该样一方面使得搜索引擎对与查询语句相 关的网页的召回率较低;另一方面使得搜索引擎分别在表现形式不同而语义相似的各条查 询句下,所得到的网页集合相差较大,用户搜索体验差。
技术实现思路
本专利技术实施例提供查询语句与网页相似度的确定方法、装置、终端及服务器,W提 高搜索引擎对任一查询语句的网页召回率,使得搜索引擎能够针对表现形式不同而语义相 似的各条查询句,返回相差较小的网页集合,提升用户对查询结果的满意度。 第一方面,本专利技术实施例提供了一种查询语句与网页相似度的确定方法,该方法 包括: 通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条 候选语句; 根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网 页 ...
【技术保护点】
一种查询语句与网页相似度的确定方法,其特征在于,包括:通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句;根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度;其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用于描述网页主要内容的语句。
【技术特征摘要】
1. 一种查询语句与网页相似度的确定方法,其特征在于,包括: 通过预先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选 语句; 根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主 题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用 于描述网页主要内容的语句。2. 根据权利要求1所述的查询语句与网页相似度的确定方法,其特征在于,在通过预 先创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句之前, 还包括: 确定翻译双语对语料;其中,所述翻译双语对语料中翻译双语对的源语言句子为查询 语句,目标语言句子为网页主题句; 对所述翻译双语对语料进行训练,以创建短语翻译模型;所述短语翻译模型的输入为 查询语句,输出包括与输入具有相似语义的至少一条候选语句。3. 根据权利要求2所述的查询语句与网页相似度的确定方法,其特征在于,确定翻译 双语对语料,包括: 基于用户点击数据,确定翻译双语对语料; 其中,所述用户点击数据包括:查询日志中所统计的用户输入的查询语句,与用户在返 回的多个查询结果中所点击的网页链接之间的映射关系; 所述翻译双语对语料包括:由查询日志中所包含的查询语句,和与该查询语句对应的 网页链接中点击率超过设定点击阈值的网页链接的网页主题句,分别作为源语言句子和目 标语言句子组成的第一翻译双语对;和/或,由查询日志中所包含的满足预设条件的两条 目标查询语句分别作为源语言句子和目标语言句子组成的第二翻译双语对;所述预设条 件,包括:所述两条目标查询语句所分别对应的网页主题句集合之间的相似度大于设定的 第一阈值,所述两条目标查询语句之间的相似度小于设定的第二阈值。4. 根据权利要求1-3中任一项所述的查询语句与网页相似度的确定方法,其特征在 于,根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页主 题句的相似度,包括: 基于如下公式,确定目标查询语句与网页主题句之间的相似度:其中,sim(q,t)为目标查询语句q与网页主题句t之间的相似度; N为所述至少一条候选语句的总条数; score (tranSi (q))为通过所述短语翻译模型将目标查询语句翻译为所述至少一条候 选语句中的第i条候选语句transjq)的翻译概率; BLElKtransi (q),t)为 tranSi (q)与 t 之间的相似度。5. 根据权利要求4所述的查询语句与网页相似度的确定方法,其特征在于,在根据所 述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的 相似度之前,还包括: 基于语言模型字符串匹配算法,计算所述至少一条候选语句与网页主题句的相似度。6. 根据权利要求5所述的查询语句与网页相似度的确定方法,其特征在于,基于语言 模型字符串匹配算法,计算所述至少一条候选语句与网页主题句的相似度,包括: 按照如下公式,计算所述至少一条候选语句与网页主题句的相似度:其中,BPUransJq),!:)为transjq)与t对应的惩罚权重,如果transjq)的分词个数 小于等于t的分词个数,则BPUransi (q), t)的取值为exp(l-x/y),x为t的分词个数,y为 tranSi (q)的分词个数,如果tranSi (q)的分词个数大于t的分词个数,则BP Uransi (q),t) 的取值为1 ; Pn为采用n元语言模型所计算的tranSi (q)和t中匹配成功的次数。7. 根据权利要求4所述的查询语句与网页相似度的确定方法,其特征在于,通过预先 创建的短语翻译模型,将目标查询语句翻译为具有相似语义的至少一条候选语句,包括: 对目标查询语句进行短语的划分,得到至少一个查询短语; 遍历各个查询短语,将当前遍历到的查询短语翻译为具有相似语义的至少一个候选短 语; 将各个查询短语对应的至少一个候选短语进行组合,得到至少一条候选语句; 在根据所述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页 主题句的相似度之前,还包括: 按照如下公式,计算通过所述短语翻译模型将目标查询语句翻译为所述至少一条候选 语句中的第i条候选语句transjq)的翻译概率:其中,K为目标查询语句所包含的查询短语的个数; Pr (ek |fk)为通过所述短语翻译模型将fk翻译为ek的翻译概率,f k为目标查询语句f 的第k个查询短语,ek为候选语句e中的第k个候选短语。8. 根据权利要求7所述的查询语句与网页相似度的确定方法,其特征在于,在根据所 述至少一条候选语句与网页主题句之间的相似度,确定目标查询语句与网页主题句的相似 度之前,还包括: 按照如下公式,计算Pr(ek|fk):其中,M为加在ek和fk上的所有特征函数的总个数; hm(ek,fk)为用于表征将fk翻译为ek的翻译概率的第m个特征函数; hm(e' k,fk)为用于表征将fk翻译为e' k的翻译概率的第m个特征函数,e' k为根据所 述短语翻译模型对fk进行翻译得到的各个候选短语; 入m为第m个特征函数的权重。9. 根据权利要求8所述的查询语句与网页相似度的确定方法,其特征在于,第m个特征 函数为与双向翻译概率对应的函数、与语言模型对应的函数、或者根据短语分词个数得到 的函数。10. 根据权利要求7所述的查询语句与网页相似度的确定方法,其特征在于,将各个查 询短语对应的至少一个候选短语进行组合,得到至少一条候选语句,包括: 按照如下数据结构方式,存储各个查询短语对应的至少一个候选短语: 分别为各个候选短语创建一个节点,节点包括候选短语和至少一个后继指针,所述至 少一个后继指针用于指向目标查询语句中与该候选短语对应的查询短语的下一个查询短 语所对应的至少一个候选短语节点;并记录目标查询语句中第一个查询短语对应的各个候 选短语所在节点的存储位置; 根据记录的内容,对所存储的候选短语进行读取,以确定至少一条候选语句。11. 根据权利要求10所述的查询语句与网页相似度的确定方法,其特征在于,节点还 包括将查询短语翻译为候选短语的翻译概率; 根据记录的内容,对所存储的候选短语进行读取,以确定至少一条候选语句,包括: 根据记录的内容,读取存储的各个节点所包括的候选短语; 根据读取结果,生成由各个查询短语对应的至少一个候选短语组合得到的至少一条候 选语句,及各条候选语句的翻译概率; 从所述至少一条候选语句中挑选出翻译概率排名位于前T的候选语句,用于作为与网 页主题句进行相似度计算的候选语句,其中T为大于等于1的整数。12. -种查询语句与网页相似度的确定方法,其特征在于,包括: 云端服务器获取终端发送的目标查询语句; 所述云端服务器通过预先创建的短语翻译模型,将所述目标查询语句翻译为具有相似 语义的至少一条候选语句,并下发给所述终端,以指示所述终端根据所述至少一条候选语 句与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用 于描述网页主要内容的语句。13. -种查询语句与网页相似度的确定方法,其特征在于,包括: 终端向云端服务器发送目标查询语句,以指示所述云端服务器通过预先创建的短语翻 译模型,将所述目标查询语句翻译为具有相似语义的至少一条候选语句; 所述终端接收所述云端服务器下发的至少一条候选语句,根据所述至少一条候选语句 与网页主题句之间的相似度,确定目标查询语句和网页主题句之间的相似度; 其中,所述网页主题句为网页标题,或者基于设定算法对网页内容进行解析得到的用 于描述网页主要内容的语句。14. 一种查询语句与网页相似度的确定装置,其特征在于,包括: 候选翻译模块,用...
【专利技术属性】
技术研发人员:呉先超,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。