本发明专利技术提供了一种建立问句生成模型的方法和装置以及问句生成方法和装置,建立的问句生成模型包括:问句模板与搜索请求(query)之间的对应关系以及各query到对应问句模板的概率;其中建立问句模型的方法包括:从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系;从统计到的问句中抽取出问句模板,并记录问句模板对应的query;计算各query到对应问句模板的概率。问句生成方法包括:确定用户输入的搜索请求Qr在问句生成模型中的相似query;从相似query在问句生成模型中对应的各问句模板中,为Qr选择问句模板;利用Qr对问句模板进行实例化,得到Qr对应的问句。
【技术实现步骤摘要】
建立问句生成模型的方法和装置以及问句生成方法和装置
本专利技术涉及计算机
,特别涉及一种建立问句生成模型的方法和装置以及问句生成方法和装置。
技术介绍
问答社区(CQA,Community-basedQuestion Answering)是指诸如百度知道、搜搜问问等由网络用户之间相互提问和回答的知识问答平台。由于其准确性、及时性等优势,近年来得到了迅速的发展。在问答社区中涉及的问答页面通常以提问作为标题,以便与用户 在搜索引擎中输入的query进行匹配,为用户提供想要的信息。在目前的问答社区中有两个问题亟待解决其一、提高基于问答社区的信息搜索技术的准确率。用户在搜索时心里通常是存在一个清晰明确的问句的,不过出于省时省力的考虑会仅输入几个关键词作为query进行搜索。例如用户输入“姚明身高”的query时,想问的问句是“姚明的身高是多少? ”。对用户输入的query进行搜索匹配时,可能会匹配到虽然命中关键词但与用户实际想问的问句相关性较低的页面。其二、如何根据热点需求自动导入提问,等待用户回答。基于对上述两个问题的考量,如何利用搜索日志中的query生成需求明确且易于理解的问句是关键。
技术实现思路
有鉴于此,本专利技术提供了一种建立问句生成模型的方法和装置以及问句生成方法和装置,以便于利用搜索日志中的query生成需求明确且易于理解的问句。具体技术方案如下一种建立问句生成模型的方法,所述问句生成模型包括问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率;该方法包括A、从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系;B、从统计到的问句中抽取出问句模板,并将问句模板以及问句模板对应的query记录在数据库中;C、计算各query到对应问句模板的概率,并将各query到问句模板的概率记录在所述数据库中。其中,所述点击的问句为点击的页面标题中所包含的问句,且该问句包含对应query进行分词处理后得到的各词语。具体地,所述步骤B中从统计到的问句中抽取出问句模板可以包括将统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式,并记录变量槽与query进行分词处理后得到的各词语的位置关系,从而得到问句模板。在所述步骤C中,按照公式尸(沙|以)=(c^^.)计算query Qri到问句模板Tp的概率 P (Tp I Qri);其中,C(Qri)表示Qri在所述搜索日志中出现的次数,c (Tp, Qri)表示Qri对应到Tp的次数。一种问句生成方法,该方法包括A、确定用户输入的搜索请求Qr在问句生成模型中的相似query,所述问句生成模型包括问句模板与query之间的对应关系以及各query到对应问句模板的概率;B、从所述相似query在问句生成模型中对应的各问句模板中,为所述Qr选择问句模板;C、利用所述Qr对选择的问句模板进行实例化,得到所述Qr对应的问句。 其中,所述步骤A中确定出的相似query与所述Qr具有相同个数的词语,且与所述Qr至少含有一个相同的词语。 所述步骤B具体包括B11、将所述相似query对应的各问句模板确定为所述Qr对应的候选问句模板;B12、利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率,确定所述Qr到对应各候选问句模板的概率;B13、选择所述Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为所述Qr对应的问句模板。此时,所述Qr到对应各候选问句模板的概率采用如下公式计算f{Tp} ,Qr) = Iog^j ρ(Τρ} \Qrt )p(Qr1 \Qr);i=\其中,f (Tpj, Qr)为所述Qr到问句模板Tpj的概率,Qri为所述相似query中对应Tpj的相似query, P (Qri I Qr)为Qr与Qri的相似度为步骤A确定出的相似query中对应Tpj的相似query数目,p (Tpj | Qri)为问句生成模型中Qri到问句模板Tpj的概率。所述步骤B13具体包括选择所述Qr到对应各候选问句模板的概率值达到预设的模板概率阈值的候选问句模板作为所述Qr对应的问句模板;或者,选择所述Qr到对应各候选问句模板的概率值排在前NI个的候选问句模板作为所述Qr对应的问句模板,其中NI为预设的正整数。此时更进一步地,在所述步骤C之后还包括利用所述问句的通顺度,或者,利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度,为所述步骤C得到的各问句打分,选择分值排在前N2个的问句作为最终所述Qr对应的问句,其中N2为预设的正整数。或者,所述步骤B具体包括将问句生成模型中所述相似query对应的各问句模板确定为所述Qr对应的问句模板。此时更进一步地,在所述步骤C之后还包括利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度中的一种或组合,为所述步骤C得到的各问句打分,选择分值排在前N3个的问句作为最终所述Qr对应的问句,其中N3为预设的正整数。其中权利要求1.一种建立问句生成模型的方法,其特征在于,所述问句生成模型包括问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率;该方法包括 A、从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系; B、从统计到的问句中抽取出问句模板,并将问句模板以及问句模板对应的query记录在数据库中; C、计算各query到对应问句模板的概率,并将各query到问句模板的概率记录在所述数据库中。2.根据权利要求I所述的方法,其特征在于,所述点击的问句为点击的页面标题中所包含的问句,且该问句包含对应query进行分词处理后得到的各词语。3.根据权利要求I所述的方法,其特征在于,所述步骤B中从统计到的问句中抽取出问句模板具体包括 将统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式,并记录变量槽与query进行分词处理后得到的各词语的位置关系,从而得到问句模板。4.根据权利要求I所述的方法,其特征在于,在所述步骤C中,按照公式5.—种问句生成方法,其特征在于,该方法包括 A、确定用户输入的搜索请求Qr在问句生成模型中的相似query,所述问句生成模型包括问句模板与query之间的对应关系以及各query到对应问句模板的概率; B、从所述相似query在问句生成模型中对应的各问句模板中,为所述Qr选择问句模板; C、利用所述Qr对选择的问句模板进行实例化,得到所述Qr对应的问句。6.根据权利要求5所述的方法,其特征在于,所述步骤A中确定出的相似query与所述Qr具有相同个数的词语,且与所述Qr至少含有一个相同的词语。7.根据权利要求5所述的方法,其特征在于,所述步骤B具体包括 BI I、将所述相似query对应的各问句模板确定为所述Qr对应的候选问句模板; B12、利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率,确定所述Qr到对应各候选问句模板的概率; B13、选择所述Qr到对应各候选问句模板的概率满足预设条件的候选问句模本文档来自技高网...
【技术保护点】
一种建立问句生成模型的方法,其特征在于,所述问句生成模型包括:问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率;该方法包括:A、从搜索日志中,统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系;B、从统计到的问句中抽取出问句模板,并将问句模板以及问句模板对应的query记录在数据库中;C、计算各query到对应问句模板的概率,并将各query到问句模板的概率记录在所述数据库中。
【技术特征摘要】
【专利技术属性】
技术研发人员:赵世奇,王海峰,方高林,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。