【技术实现步骤摘要】
本申请涉及计算机
,尤其涉及一种查询语句的获取方法及服务器。
技术介绍
在网页页面的搜索中,当用户通过搜索框输入查询信息,且该查询信息为一个词语时,通常需要根据该词语与网页服务器已存储的词语的关联度,来猜测用户想要输入的查询语句,并将该猜测的查询语句作为备选查询语句推荐给用户。词对的关联度计算即为在给定前n个词的情况下,计算出现某个词的概率。在关联度的计算中,最常用的模型是N元语言(N-gram)模型,N表示长文本中连续出现的N个词,该模型基于马尔科夫假设,其认为:1)第n个词出现的概率仅仅依赖于第n-1个词出现的概率;2)n个词连续出现的概率等于这n个词分别出现的概率的乘积。用公式表达如下:P(W1W2…Wn)=P(W1)?(W2|W1)P(Wa|W1W2)…P(WnW1W2…Wa-1)对于P(Wi|W1W2...Wi-1)可采用最大似然估计计算,计算公式如下:P(Wi|W1W2...Wi-1)=C(W1W2...Wi)C(W1W2...Wi-1)]]>其中,C(W1W2...Wi)表示在训练语料中,W1W2...Wi连续出现的频率。在上述第一个公式中,尽管n的取值越大,对下一个词出现的约束信息更多,估计概率更有辨识度,但n值越大,数据稀疏的情况就越明显,零概率的产生就更容易,而且计算代码也随之增大。而对于较小的n,由于在训练语料中能获得更可靠的统计信息,所以估计的概率会更可靠。由上,最常 ...
【技术保护点】
一种查询语句的获取方法,其特征在于,所述方法包括:对语料库中的第一关联词和第二关联词,在所述语料库中识别并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数和所述第一关联词的总次数;根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联度,并按照所述关联度,将所述第一关联词和所述第二关联词,生成参考查询语句库;接收用户在搜索框中输入的查询信息;根据所述查询信息,从所述参考查询语句库中获取相关联的查询语句,以将所述查询语句作为备选查询语句推荐给用户。
【技术特征摘要】
1.一种查询语句的获取方法,其特征在于,所述方法包括:
对语料库中的第一关联词和第二关联词,在所述语料库中识别并获取所
述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数
和所述第一关联词的总次数;
根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词
与第二关联词的关联度,并按照所述关联度,将所述第一关联词和所述第二
关联词,生成参考查询语句库;
接收用户在搜索框中输入的查询信息;
根据所述查询信息,从所述参考查询语句库中获取相关联的查询语句,
以将所述查询语句作为备选查询语句推荐给用户。
2.根据权利要求1所述的方法,其特征在于,所述在所述语料库中识别
并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的
间列次数,和所述第一关联词的总次数包括:
在所述语料库中识别连续排列的所述第一关联词和所述第二关联词,并
获取所述第一关联词与所述第二关联词连续排列的连排次数;
在所述语料库中识别间隔着不大于预先设定的特定个数无效词排列的所
述第一关联词与所述第二关联词,并获取所述第一关联词与第二关联词间隔
排列的间列次数;
在所述语料库中识别所述第一关联词,并获取所述第一关联词的总次数。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述连排次
数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联
度包括:
根据所述预先设定的特定个数,设定期望参数;
根据所述期望参数和所述间列次数,获取所述间列次数的期望次数;
根据所述期望次数、所述连排次数和所述总次数,获得所述第一关联词
与所述第二关联词的关联度。
4.根据权利要求2所述的方法,其特征在于,所述在所述语料库中识
别连续排列的所述第一关联词和所述第二关联词包括:
在所述语料库中识别连续排列的并具有顺联的位置顺序的所述第一关联
词与所述第二关联词,其中,所述顺联的位置顺序为所述第一关联词为在先
的关联词,所述第二关联词为在后的关联词。
5.根据权利要求2所述的方法,其特征在于,所述在所述语料库中识别
间隔着不大于预先设定的特定个数无效词排列的所述第一关联词与所述第二
关联词包括:
在所述语料库中识别间隔着不大于预先设定的特定个数无效词排列的并
具有顺联的位置顺序的所述第一关联词与所述第二关联词,其中,所述顺联
的位置顺序为所述第一关联词为在先的关联词,所述第二关联词为在后的关
联词。
6.根据权利要求3所述的方法,其特征在于,所述根据所述期望参数和
所述间列次数,获取所述间列次数的期望次数包括:
根据如下公式计算期望次数:
F2'=F2·β
其中,F2’为所述期望次数,F2为所述间列次数,β为所述期望参数,且
0<β<1。
7.根据权利要求6所述的方法,其特征在于,所述根据所述期望次数、
\t所述连排次数和所述总次数,获得所述第一关联词与所述第二关联词的关联
度包括:
根据如下公式计算所述第一关联词与所述第二关联词的关联度:
P=F1+F2′C(W1)]]>其中,P为所述第一关联词与所述第二关联词的关...
【专利技术属性】
技术研发人员:阮淑梨,蒋建,魏洪平,谢庆伟,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。