查询语句的获取方法及服务器技术

技术编号:12386628 阅读:62 留言:0更新日期:2015-11-25 18:59
本申请涉及一种查询语句的获取方法及服务器,包括:对语料库中的第一关联词和第二关联词,在语料库中识别并获取第一关联词与第二关联词连续排列的连排次数,间隔排列的间列次数和第一关联词的总次数;根据连排次数,间列次数和总次数,获得第一关联词与第二关联词的关联度,并按照关联度,将第一关联词和所述第二关联词,生成参考查询语句库;接收用户在搜索框中输入的查询信息;根据查询信息,从参考查询语句库中获取相关联的查询语句,以将查询语句作为备选查询语句推荐给用户。由于同时获取了第一关联词与第二关联词间隔排列的间列次数,因此本申请可以提高词对的关联度,从而本申请的方法能向终端用户推送正确的备选查询语句。

【技术实现步骤摘要】

本申请涉及计算机
,尤其涉及一种查询语句的获取方法及服务器
技术介绍
在网页页面的搜索中,当用户通过搜索框输入查询信息,且该查询信息为一个词语时,通常需要根据该词语与网页服务器已存储的词语的关联度,来猜测用户想要输入的查询语句,并将该猜测的查询语句作为备选查询语句推荐给用户。词对的关联度计算即为在给定前n个词的情况下,计算出现某个词的概率。在关联度的计算中,最常用的模型是N元语言(N-gram)模型,N表示长文本中连续出现的N个词,该模型基于马尔科夫假设,其认为:1)第n个词出现的概率仅仅依赖于第n-1个词出现的概率;2)n个词连续出现的概率等于这n个词分别出现的概率的乘积。用公式表达如下:P(W1W2…Wn)=P(W1)?(W2|W1)P(Wa|W1W2)…P(WnW1W2…Wa-1)对于P(Wi|W1W2...Wi-1)可采用最大似然估计计算,计算公式如下:P(Wi|W1W2...Wi-1)=C(W1W2...Wi)C(W1W2...Wi-1)]]>其中,C(W1W2...Wi)表示在训练语料中,W1W2...Wi连续出现的频率。在上述第一个公式中,尽管n的取值越大,对下一个词出现的约束信息更多,估计概率更有辨识度,但n值越大,数据稀疏的情况就越明显,零概率的产生就更容易,而且计算代码也随之增大。而对于较小的n,由于在训练语料中能获得更可靠的统计信息,所以估计的概率会更可靠。由上,最常用的N-gram模型是二元语言模型(Bigram),其计算公式如下:P(W1W2…Wn)=P(W1)P(W2|W1)P(Wa|W2)…P(Wn|Wn-1)P(Wt|Wt-1)=C(Wt-1Wt)C(Wt-1)]]>假如训练语料中有以下3个句子:SWIMMINGISGOODEXERCISE.TENNISISAGOODFORMOFEXERCISE.TENNISISBETTERTHANBADMINTON.则通过Bigram模型,预估句子TENNISISGOODEXERCISE的概率:但实际情况下,数据是不完全的,也即数据存在稀疏性,使得存在C(Wi-1Wi)=0情况,此时P(Wi|Wi-1)的最大似然估计值P(Wi|Wi-1)=0,即P(W1W2…Wn)=0。如,训练语料还是上面的3句,对于句子BADMINTONISGOODEXERCISE,使用Bigram模型预估其出现的概率为:在预估计一个句子W1W2…Wn出现的概率时,只要存在一个C(Wt-1Wt)=0,则就会有P(W1W2…Wn)=0。因此,为了减少零概率的出现,需要进行平滑计算。现有技术中,提出了一系列经典的平滑算法,这些算法的基本思想是在保证概率和为1的基础上,降低已出现的N-gram条件概率分布,从而使得未出现的N-gram提交概率分布非零。加一(Add-one)平滑法,也称拉普拉斯(Laplace)平滑法、古德-图灵(Good-Turing)平滑法、聂氏(Kneser-Ney)平滑法、线性内插(LinearInterpolation)平滑法、卡茨退避(KatzBackoff)平滑法以及愚蠢退避(StupidBackoff)平滑法等都是常用的平滑算法。Add-one平滑法的思想很简单,就是对于每个N-gram,C(WkWk+1…Wk+n)都执行加1操作,认为它们在训练语料中至少出现一次,从而有:P(Wn+k|WkWk+1...Wn-1+k)=C(WkWk+1...Wk+n)+1C(WkWk+1...Wk+n)+V]]>其中V是N-gram在训练语料中的个数。Good-Turing平滑法和Add-One比较相似。然而无论是Add-one平滑法还是Good-Turing平滑法,都不是一种比较好的平滑计算,因为他们对所有未出现的N-gram都采取相同的操作,忽略了不同N-gram之间的概率差异性。与Add-one平滑法以及Good-Turing平滑法不同,LinearInterpolation平滑法、KatzBackoff平滑法、Kneser-Ney平滑法以及StupidBackoff平滑法都是一种基于线性插值的平滑技术,即利用低阶N-gram模型与高阶N-gram模型作线性组合,当高阶N-gram模型不存在的时候,使用低阶N-gram模型来提供有用的信息。其中由谷歌(Google)提出的针对大规模N-gram模型的StupidBackoff的计算公式如下:P(Wt|Wt-k+1...Wt-1)=C(Wt-k+1...Wt)C(Wt-k+1...Wt-1)ifc(Wt-k+1...Wt)>0αF(Wt|Wt-k+2...Wt-1)otherwlse]]>其中,α取经验值,在Google的实验中,α取0.4。该平滑技术是针对一句话的关联度进行优化的,并没有对词对的关联度的计算方法进行优化,即存在将相关联的词对的关联度计算为0的情况,从而不能有效生成参考查询语句库,也即不能向用户推荐正确的备选查询语句。
技术实现思路
本申请实施例提供了一种查询语句的获取方法及服务器,以解决由于相关联的词对存在关联度为0的情况而导致的不能向用户推荐正确的备选查询语句的问题。第一方面,提供了一种查询语句的获取方法,该方法包括:对语料库中的第一关联词和第二关联词,在所述语料库中识别并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数和所述第一关联词的总次数;根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联度,并按照所述关联度,将所述第一关联词和所述第二关联词,生成参考查询语句库;接收用户在搜索框中输入的查询信息;根据所述查询信息,从所述参考查询语句库中获取相关联的查询语句,以将所述查询语句作为备选查询语句推荐给用户。第二方面,提供了一种服务器,所述服务器包括:处理单元、生成单元、接收单元和获取单元;所述处理单元,用于对语料库中的第一关联词和第二关联词,在所述语料库中识别并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数和所述第一关联词的总次数;所述生成单元,用于根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联度,并按照所述关联度,将所述第一关联词和所述第二关联词,生成参考查询语句库;所述接收单元,用于接收用户在搜索框中输入的查询信息;所述获取单元,用于根据所述查询信息,从所述参考查询语句库中获取相关联的查询语句,以将本文档来自技高网
...

【技术保护点】
一种查询语句的获取方法,其特征在于,所述方法包括:对语料库中的第一关联词和第二关联词,在所述语料库中识别并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数和所述第一关联词的总次数;根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联度,并按照所述关联度,将所述第一关联词和所述第二关联词,生成参考查询语句库;接收用户在搜索框中输入的查询信息;根据所述查询信息,从所述参考查询语句库中获取相关联的查询语句,以将所述查询语句作为备选查询语句推荐给用户。

【技术特征摘要】
1.一种查询语句的获取方法,其特征在于,所述方法包括:
对语料库中的第一关联词和第二关联词,在所述语料库中识别并获取所
述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数
和所述第一关联词的总次数;
根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词
与第二关联词的关联度,并按照所述关联度,将所述第一关联词和所述第二
关联词,生成参考查询语句库;
接收用户在搜索框中输入的查询信息;
根据所述查询信息,从所述参考查询语句库中获取相关联的查询语句,
以将所述查询语句作为备选查询语句推荐给用户。
2.根据权利要求1所述的方法,其特征在于,所述在所述语料库中识别
并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的
间列次数,和所述第一关联词的总次数包括:
在所述语料库中识别连续排列的所述第一关联词和所述第二关联词,并
获取所述第一关联词与所述第二关联词连续排列的连排次数;
在所述语料库中识别间隔着不大于预先设定的特定个数无效词排列的所
述第一关联词与所述第二关联词,并获取所述第一关联词与第二关联词间隔
排列的间列次数;
在所述语料库中识别所述第一关联词,并获取所述第一关联词的总次数。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述连排次
数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联
度包括:
根据所述预先设定的特定个数,设定期望参数;
根据所述期望参数和所述间列次数,获取所述间列次数的期望次数;
根据所述期望次数、所述连排次数和所述总次数,获得所述第一关联词
与所述第二关联词的关联度。
4.根据权利要求2所述的方法,其特征在于,所述在所述语料库中识
别连续排列的所述第一关联词和所述第二关联词包括:
在所述语料库中识别连续排列的并具有顺联的位置顺序的所述第一关联
词与所述第二关联词,其中,所述顺联的位置顺序为所述第一关联词为在先
的关联词,所述第二关联词为在后的关联词。
5.根据权利要求2所述的方法,其特征在于,所述在所述语料库中识别
间隔着不大于预先设定的特定个数无效词排列的所述第一关联词与所述第二
关联词包括:
在所述语料库中识别间隔着不大于预先设定的特定个数无效词排列的并
具有顺联的位置顺序的所述第一关联词与所述第二关联词,其中,所述顺联
的位置顺序为所述第一关联词为在先的关联词,所述第二关联词为在后的关
联词。
6.根据权利要求3所述的方法,其特征在于,所述根据所述期望参数和
所述间列次数,获取所述间列次数的期望次数包括:
根据如下公式计算期望次数:
F2'=F2·β
其中,F2’为所述期望次数,F2为所述间列次数,β为所述期望参数,且
0<β<1。
7.根据权利要求6所述的方法,其特征在于,所述根据所述期望次数、

\t所述连排次数和所述总次数,获得所述第一关联词与所述第二关联词的关联
度包括:
根据如下公式计算所述第一关联词与所述第二关联词的关联度:
P=F1+F2′C(W1)]]>其中,P为所述第一关联词与所述第二关联词的关...

【专利技术属性】
技术研发人员:阮淑梨蒋建魏洪平谢庆伟
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1