本发明专利技术公开了一种确定搜索词的价值的方法和装置。该方法包括:将待测搜索词的特征数据输入价值回归模型;基于价值回归模型,获取所述待测搜索词的价值数据;其中,所述价值回归模型是通过如下方式获取的:将已有搜索词基于点击关系数据和/或展现关系数据而进行聚类,以获得聚类后的搜索词集合;将搜索词集合分类为不同价值的搜索词集合;利用不同价值的搜索词集合进行模型训练以获取价值回归模型。通过本发明专利技术的方案,可以更加准确地确定搜索词的价值并基于搜索词价值数据选择展现其中有价值的数据信息(例如广告)从而提高用户体验并提高信息点击率。
【技术实现步骤摘要】
本专利技术涉及互联网
,具体涉及一种确定搜索词的价值的方法和装置。
技术介绍
在互联网应用中,对搜索词的价值(例如,商业价值)进行判别的系统在各种信息系统(例如,广告系统)中有很多应用,比如在搜索广告系统中判定一次搜索是否出广告的应用。因为只有具有一定商业价值的检索词出广告才不会影响用户体验并且同时可以带来广告点击。在现有的方法中,在对于搜索词的价值判别上,对于判别的覆盖率和准确率上还有一些提升空间,如何实现搜索词商业价值判别系统以便能够进一步提高判别的覆盖率以及准确率。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的确定搜索词的价值的方法和相应的确定搜索词的价值的装置。依据本专利技术的一个方面,提供了一种确定搜索词的价值的方法,其特征在于,包括:将待测搜索词的特征数据输入价值回归模型;基于价值回归模型,获取所述待测搜索词的价值数据。其中,所述价值回归模型是通过如下方式获取的:将已有搜索词基于点击关系数据和/或展现关系数据而进行聚类,以获得聚类后的搜索词集合;将搜索词集合分类为不同价值的搜索词集合;利用不同价值的搜索词集合进行模型训练以获取价值回归模型。可选地,根据本专利技术的方法,其特征在于,所述不同价值的搜索词集合包括高价值的搜索词集合、中价值的搜索词集合以及低价值的搜索词集合,其中高价值的搜索词集合中搜索词的价值数据大于中价值的搜索词集合中搜索词的价值数据;以及中价值的搜索词集合中搜索词的价值数据大于低价值的搜索词集合中搜索词的价值数据。可选地,根据本专利技术的方法,其特征在于,高价值的搜索词集合中搜索词的价值数据为1、中价值的搜索词集合中搜索词的价值数据为0.5以及低价值的搜索词集合中搜索词的价值数据为O。可选地,根据本专利技术的方法,其特征在于,将已有搜索词基于所述已有搜索词之间的点击关系数据和展现关系数据而进行聚类,以获得聚类后的搜索词集合,进一步包括:获取不同搜索词的共同点击次数并基于所述共同点击次数计算点击关系数据和/或获取不同搜索词的共同展现次数并基于所述共同展现次数计算展现关系数据;基于所述点击关系数据、展现关系数据、共同展现次数和共同点击次数中的至少一个,计算已有搜索词之间的聚类距离;基于所述聚类距离将已有搜索词进行聚类,以获得聚类后的搜索词集合。可选地,根据本专利技术的方法,其特征在于,共同点击次数、共同展现次数、点击关系数据、展现关系数据分别表示两个搜索词之间的共同点击次数、共同展现次数、点击关系数据、展现关系数据。可选地,根据本专利技术的方法,其特征在于,利用不同价值的搜索词集合进行模型训练以获取价值回归模型,进一步包括:将每个搜索词集合中的每个搜索词作为一份对应该搜索词集合的价值数据的样本,具体地,将高价值的搜索词集合中的每个搜索词作为一份2样本、中价值的搜索词集合中的每个搜索词作为一份I样本并且低价值的搜索词集合中的每个搜索词作为一份O样本利用所述逻辑回归算法进行训练以形成所述价值回归模型。依据本专利技术的另一个方面,提供了一种确定搜索词的价值的装置,其特征在于,包括:输入模块,用于将待测搜索词的特征数据输入价值回归模型;获取模块,用于基于价值回归模型,获取所述待测搜索词的价值数据;其中,所述价值回归模型是通过如下模块获取的:聚类模块,用于将已有搜索词基于点击关系数据和/或展现关系数据而进行聚类,以获得聚类后的搜索词集合;分类模块,用于将搜索词集合分类为不同价值的搜索词集合;模型获取模块,用于利用不同价值的搜索词集合进行模型训练以获取价值回归模型。可选地,根据本专利技术的装置,其特征在于,所述不同价值的搜索词集合包括高价值的搜索词集合、中价值的搜索词集合以及低价值的搜索词集合,其中高价值的搜索词集合中搜索词的价值数据大于中价值的搜索词集合中搜索词的价值数据;以及中价值的搜索词集合中搜索词的价值数据大于低价值的搜索词集合中搜索词的价值数据。可选地,根据本专利技术的装置,其特征在于,高价值的搜索词集合中搜索词的价值数据为1、中价值的搜索词集合中搜索词的价值数据为0.5以及低价值的搜索词集合中搜索词的价值数据为O。可选地,根据本专利技术的装置,其特征在于,聚类模块进一步包括:关系数据获取子模块,用于获取不同搜索词的共同点击次数并基于所述共同点击次数计算点击关系数据和/或获取不同搜索词的共同展现次数基于所述共同展现次数计算展现关系数据;计算子模块,用于基于所述点击关系数据、展现关系数据、共同展现次数和共同点击次数中的至少一个,计算已有搜索词之间的聚类距离;以及获取子模块,用于基于所述聚类距离将已有搜索词进行聚类,以获得聚类后的搜索词集合。可选地,根据本专利技术的装置,其特征在于,共同点击次数、共同展现次数、点击关系数据、展现关系数据分别表示两个搜索词之间的共同点击次数、共同展现次数、点击关系数据、展现关系数据。可选地,根据本专利技术的装置,其特征在于,模型获取模块进一步被配置成:将每个搜索词集合中的每个搜索词作为一份对应该搜索词集合的价值数据的样本,具体地,将高价值的搜索词集合中的每个搜索词作为一份2样本、中价值的搜索词集合中的每个搜索词作为一份I样本并且低价值的搜索词集合中的每个搜索词作为一份O样本利用所述逻辑回归算法进行训练以形成所述价值回归模型。根据本专利技术的确定搜索词的价值的方法和装置,可以更加准确地确定搜索词的价值并基于搜索词价值数据选择展现其中有价值的数据信息(例如广告)从而提高用户体验并提高信息点击率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的【具体实施方式】。【附图说明】通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的获取价值回归模型的方法的流程图;图2示出了根据本专利技术一个实施例的确定搜索词的价值的方法的流程图;以及。图3示出了根据本专利技术一个实施例的确定搜索词的价值的装置的结构图。【具体实施方式】下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术具体实施例及相应的附图对本专利技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在一个实现方式中,主要包括以下几个步骤:步骤1,在广告展现日志中统计所有搜索词的广告展现数量和广告点击数量;步骤2,计算搜索词的广告点击率=检索词广告点击数量/检索词当前第1页1 2 3 4 本文档来自技高网...
【技术保护点】
一种确定搜索词的价值的方法,其特征在于,包括:将待测搜索词的特征数据输入价值回归模型;基于价值回归模型,获取所述待测搜索词的价值数据;其中,所述价值回归模型是通过如下方式获取的:将已有搜索词基于点击关系数据和/或展现关系数据而进行聚类,以获得聚类后的搜索词集合;将搜索词集合分类为不同价值的搜索词集合;利用不同价值的搜索词集合进行模型训练以获取价值回归模型。
【技术特征摘要】
【专利技术属性】
技术研发人员:邓钦华,许晟,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。