本发明专利技术提供一种从查询词中提取中心词的方法和装置,方法包括:获取用户输入的第一查询词;基于已知的多个查询词以及所述多个查询词的中心词训练得到的模型,从所述第一查询词中提取所述第一查询词的中心词。根据本发明专利技术,通过对已知查询词以及已知查询词的中心词进行训练,能够得到用于提取查询词中心词的模型,利用该模型可以自动进行对查询词的中心词提取,提取速度、准确率都非常高,有利于后续的基于中心词推荐查询词的快速进行。
【技术实现步骤摘要】
本专利技术涉及计算机
,具体而言,涉及一种从查询词中提取中心词的方法和装置。
技术介绍
查询词推荐是根据用户当前进行搜索的查询词,通过机器学习算法,提取查询词的中心词,并以此为用户推荐其最可能感兴趣的其他查询词。目前,提取中心词的方式主要是通过人工标注的方式提取中心词:人工标注中心词只能适用于非常少量的查询词,当查询词数目巨大的时候人工标注显然是不可行的,而且人工标注提取中心词不能自动化,所以具有以下不足之处:(1)需要较多的人力、时间、费时费力;(2)每个人的评价标准不一样,导致标注的中心词有偏差;(3)无法自动化提取查询词的中心词;(4)不适用于大量查询词的中心词提取。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的从查询词中提取中心词的方法和装置。依据本专利技术的一种从查询词中提取中心词的方法,包括:获取用户输入的第一查询词;基于已知的多个查询词以及所述多个查询词的中心词训练得到的模型,从所述第一查询词中提取所述第一查询词的中心词。可选地,前述的方法,基于已知的多个查询词以及所述多个查询词的中心词训练得到的模型,从所述第一查询词中提取所述第一查询词的中心词,具体包括:基于所述多个查询词的特征属性以及所述多个查询词的中心词训练得到的所述模型,对所述第一查询词的特征属性进行分析得到所述第一查询词的中心词。可选地,前述的方法,还包括:从预设的点击记录中,获取所述用户点击的同一地址对应的多个第二查询词;所述点击记录用于记录所述用户已输入的查询词以及已点击的地址;对所述多个第二查询词分词得到多个词;根据所述多个词的指定属性从所述多个词中选择一个词,将所选词作为所述多个第二查询词中至少一个第二查询词的中心词;选出中心词的第二查询词用于训练所述模型。可选地,前述的方法,所述指定属性为所述多个词在所述多个第二查询词中的词频;根据所述多个词的指定属性从所述多个词中选择一个词,具体包括:选择所述多个词中词频最高的词。可选地,前述的方法,将所选词作为所述多个第二查询词中至少一个第二查询词的中心词,具体包括:将所述所选词作为所述多个第二查询词中对应的页面浏览量最高的第二查询词的中心词。可选地,前述的方法,在将所选词作为所述多个第二查询词中至少一个第二查询词的中心词之前,还包括:判断所述所选词是否包含在所述至少一个第二查询词中,在判断结果为是时,执行将所选词作为所述多个第二查询词中至少一个第二查询词的中心词。可选地,前述的方法,在将所选词作为所述多个第二查询词中至少一个第二查询词的中心词之前,还包括:判断所述所选词与所述至少一个第二查询词的长度差是否位于预设区间,在判断结果为是时,执行将所选词作为所述多个第二查询词中至少一个第二查询词的中心词。依据本专利技术的一种从查询词中提取中心词的装置,包括:查询词获取模块,用于获取用户输入的第一查询词;中心词提取模块,用于基于已知的多个查询词以及所述多个查询词的中心词训练得到的模型,从所述第一查询词中提取所述第一查询词的中心词。可选地,前述的装置,所述中心词提取模块基于所述多个查询词的特征属性以及所述多个查询词的中心词训练得到的所述模型,对所述第一查询词的特征属性进行分析得到所述第一查询词的中心词。可选地,前述的装置,还包括:记录获取模块,用于从预设的点击记录中,获取所述用户点击的同一地址对应的多个第二查询词;所述点击记录用于记录所述用户已输入的查询词以及已点击的地址;分词模块,用于对所述多个第二查询词分词得到多个词;中心词选择模块,用于根据所述多个词的指定属性从所述多个词中选择一个词,将所选词作为所述多个第二查询词中至少一个第二查询词的中心词;选出中心词的第二查询词用于训练所述模型。可选地,前述的装置,所述中心词选择模块选择所述多个词中词频最高的词。可选地,前述的装置,所述中心词选择模块将所述所选词作为所述多个第二查询词中对应的页面浏览量最高的第二查询词的中心词。可选地,前述的装置,还包括:第一判断模块,用于判断所述所选词是否包含在所述至少一个第二查询词中,所述中心词选择模块在判断结果为是时将所选词作为所述多个第二查询词中至少一个第二查询词的中心词。可选地,前述的装置,还包括:第二判断模块,用于判断所述所选词与所述至少一个第二查询词的长度差是否位于预设区间,所述中心词选择模块在判断结果为是时将所选词作为所述多个第二查询词中至少一个第二查询词的中心词。根据以上技术方案,本专利技术的从查询词中提取中心词的方法和装置至少具有以下优点:在本专利技术的技术方案中,通过对已知查询词以及已知查询词的中心词进行训练,能够得到用于提取查询词中心词的模型,利用该模型可以自动进行对查询词的中心词提取,提取速度、准确率都非常高,有利于后续的基于中心词推荐查询词的快速进行。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术的一个实施例的从查询词中提取中心词的方法的流程图;图2示出了根据本专利技术的一个实施例的从查询词中提取中心词的方法的流程图;图3示出了根据本专利技术的一个实施例的从查询词中提取中心词的装置的框图;图4示出了根据本专利技术的一个实施例的从查询词中提取中心词的装置的框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。如图1所示,本专利技术的一个实施例中提供了一种从查询词中提取中心词的方法,包括:步骤110,获取用户输入的第一查询词。步骤120,基于已知的多个查询词以及多个查询词的中心词训练得到的模型,从第一查询词中提取第一查询词的中心词。根据本实施例的技术方案,通过对已知查询词以及已本文档来自技高网...
【技术保护点】
一种从查询词中提取中心词的方法,其特征在于,包括:获取用户输入的第一查询词;基于已知的多个查询词以及所述多个查询词的中心词训练得到的模型,从所述第一查询词中提取所述第一查询词的中心词。
【技术特征摘要】
1.一种从查询词中提取中心词的方法,其特征在于,包括:
获取用户输入的第一查询词;
基于已知的多个查询词以及所述多个查询词的中心词训练得到的模型,
从所述第一查询词中提取所述第一查询词的中心词。
2.根据权利要求1所述的方法,其特征在于,基于已知的多个查询词以
及所述多个查询词的中心词训练得到的模型,从所述第一查询词中提取所述
第一查询词的中心词,具体包括:
基于所述多个查询词的特征属性以及所述多个查询词的中心词训练得到
的所述模型,对所述第一查询词的特征属性进行分析得到所述第一查询词的
中心词。
3.根据权利要求1-2任一项所述的方法,其特征在于,还包括:
从预设的点击记录中,获取所述用户点击的同一地址对应的多个第二查
询词;所述点击记录用于记录所述用户已输入的查询词以及已点击的地址;
对所述多个第二查询词分词得到多个词;
根据所述多个词的指定属性从所述多个词中选择一个词,将所选词作为
所述多个第二查询词中至少一个第二查询词的中心词;选出中心词的第二查
询词用于训练所述模型。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述指定属性为
所述多个词在所述多个第二查询词中的词频;根据所述多个词的指定属性从
所述多个词中选择一个词,具体包括:
选择所述多个词中词频最高的词。
5.根据权利要求1-4任一项所述的方法,其特征在于,将所选词作为所
述多个第二查询词中至少一个第二查询词的中心词,具体包括:
将所述所选词作为所述多个第二查询词中对应的页面浏览量最高的第二
查询词的中心词。
6.根据权利要求1-5任一项所述的方法,其特征在于,在将所选词作为<...
【专利技术属性】
技术研发人员:刘鎏,伍兆盖,肖峰,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。