一种面向大规模媒体数据的在线广告推荐系统及方法技术方案

技术编号:10281927 阅读:120 留言:0更新日期:2014-08-03 06:58
一种面向大规模媒体数据的在线广告推荐系统及方法,涉及计算广告学技术领域。本发明专利技术在线广告推荐系统中的广告调度引擎模块分别与用户端、广告管理模块、流量分析模块连接。流量分析模块分别与广告检索模块、用户行为查询模块、网页管理模块之间进行参数交换。用户行为挖掘模块分别与广告管理模块、用户行为查询模块连接,且广告管理模块还与广告检索模块连接。本发明专利技术在线广告推荐方法,完成了当用户访问网页时,根据用户信息识别用户,查询用户兴趣和理解用户行为,并根据预测的用户行为检索匹配广告,最终将在线广告推荐给用户。本发明专利技术具有良好的自学习能力,能有效提升广告推荐的智能水平,适合大数据背景下的在线广告推荐。

【技术实现步骤摘要】
一种面向大规模媒体数据的在线广告推荐系统及方法
本专利技术涉及计算广告学
,具体来讲是一种面向大规模媒体数据的在线广告推荐系统及方法。
技术介绍
利用网站上的广告横幅、文本链接、多媒体等在互联网刊登或发布广告,并通过网络传递到互联网用户的广告运作方式,与传统的四大传播媒体(报纸、杂志、电视、广播)广告相比,互联网广告具有得天独厚的优势,是实施现代营销媒体战略的重要手段。目前,互联网广告的代表性广告形式为电子商务个性化推荐广告。该广告形式主要通过将用户的浏览历史构建精准匹配表来预测用户可能的点击倾向性。这种广告投放方法是基于文本精确匹配技术的扫描策略,尽管该方法处理速度快,但是其存在模糊识别能力不强、学习能力不足的缺点。近年来,随着媒体数据规模的爆炸式增长以及用户规模的急剧攀升,该缺点引发的问题越来越突出。例如,将随机抽取一天中100万电信运营商客户的浏览数据作为采样,发现浏览器的访问请求地址在2亿7千万条。在这种规模下,几乎无法用传统的精确匹配方式来在线推荐广告。因此,传统的精确匹配查询方式不适合大数据背景下的在线广告推荐。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的在于提供一种面向大规模媒体数据的在线广告推荐系统及方法,具有良好的自学习能力,能在不降低广告预测准确度的前提下,有效提升广告推荐的智能水平,适合大数据背景下的在线广告推荐。为达到以上目的,本专利技术提供一种面向大规模媒体数据的在线广告推荐系统,包括广告管理模块、广告检索模块、用户行为挖掘模块、用户行为模块、网页管理模块、流量分析模块以及广告调度引擎模块。所述广告调度引擎模块分别与用户端、广告管理模块、流量分析模块连接,用于完成整个广告调度执行的环境引导。所述流量分析模块分别与广告检索模块、用户行为模块、网页管理模块之间进行参数交换,并完成广告排序。所述用户行为挖掘模块分别与广告管理模块、用户行为模块连接,用于对用户的行为进行分析及预测。所述广告检索模块与广告管理模块连接,用于完成广告数据索引的构建,并对广告数据索引进行检索。所述广告管理模块,用于存储最新的广告投放策略集合。所述用户行为模块,用于完成用户行为信息的查询。所述网页管理模块,用于完成网页数据的管理。在上述技术方案的基础上,所述用户行为挖掘模块包括策略更新部分和行为流检测部分。所述策略更新部分通过在线构造双Buffer动态数据区来完成最新策略的实时更新和并发使用。所述行为流检测部分用于以web服务的形式接收在线日志,并通过建立基于倒排表的索引结构来完成用户行为倾向性的预测。在上述技术方案的基础上,所述在线日志包含用户的最新点击行为或者搜索行为。在上述技术方案的基础上,所述索引结构由两部分组成,一部分为分类器级别的信息列表,包含分类器ID、分类器权重、分类器内部的核心参数以及分类器包含的支持向量数量;另一部分为由哈希表构成的倒排索引,所述倒排索引的每一个key代表一个词,value表示包含这个词的支持向量集合。在上述技术方案的基础上,所述倒排索引的每一个支持向量通过ID进行唯一标识,其中支持向量ID是一个无符号64bit的整数,高32bit用于存储支持向量所在的分类器ID,低32bit用于存储该支持向量在对应的分类器中的相对ID。本专利技术还提供一种面向大规模媒体数据的在线广告推荐方法,具有如下步骤:S1:当用户访问网页时,广告调度引擎模块从用户端获取用户ip、ua、url、region信息,并将所述信息传递给流量分析模块的请求端。S2:网页管理模块和用户行为模块分别从流量分析模块处获取所需的用户参数,并按专家知识权重归并计算,完成用户兴趣的查询和近期行为的理解。S3:广告检索模块根据广告基础分类体系,联合用户行为挖掘模块在线预测的结果,对广告数据索引进行检索,得到满足投放条件的广告列表。S4:流量分析模块获取到满足投放条件的广告列表后,完成广告预测排序,并返回给广告调度引擎模块。S5:广告调度引擎模块将最终的广告排序返回给用户端并进行展示。在上述技术方案的基础上,步骤S3中,所述用户行为挖掘模块在线预测结果的步骤为:S31:用户行为挖掘模块对所接收的用户在线日志按照词典进行快速的分词。S32:依次获取到每一个词,按照其在词典中的词典序,在所建立的索引结构中进行检索,得到包含该词的所有支持向量。S33:按照公式计算出最终的类别标签,其中,h(z)为类别预测结果函数,sgn为判断函数,SV为支持向量集合,N为SV集合规模,ai为第i向量的权重系数,yi为第i向量的类别值,b为平衡分量,K(xi,z)为核函数。在上述技术方案的基础上,所述步骤S32中,所述索引结构由两部分组成,一部分为分类器级别的信息列表,包含分类器ID、分类器权重、分类器内部的核心参数以及分类器包含的支持向量数量;另一部分为由哈希表构成的倒排索引,所述倒排索引的每一个key代表一个词,value表示包含这个词的支持向量集合。在上述技术方案的基础上,所述索引结构是通过以下步骤离线建立的:S321:基于一定时间内所截获的大量用户的原始浏览和搜索行为数据,按照蒙特卡洛分布比例进行样本随机抽取,得到一个SVM分类器的训练样本集,基于这种方式在每一个训练样本集中均能训练出一个SVM分类器。S322:将训练得到的一个SVM分类器按照支持向量进行提取,按照每一个支持向量包含的词,插入到倒排索引中。S323:判断当前分类器的支持向量是否全部插入,如果是,转入S326;如果否,转入S324。S324:判断倒排索引中哈希表的槽位冲突比是否超过λ,如果是,转入S325;如果否,转入S322。S325:自动调整哈希表来完成倒排索引的重构,之后转入S322。S326:将该分类器的信息插入到分类器级别的信息列表中。S327:判断所有分类器是否全部插入,如果是,结束;如果否,转入S322。在上述技术方案的基础上,所述索引结构建立以后,根据分类器的ID,获取到分类器中包含的第一个支持向量地址p;当指针p为非空时,沿着指针p依次进行删除操作,当支持向量列表为空,删除该key对应的支持向量链,当支持向量列表为非空,将该支持向量从双向链表中摘除;当指针p为空时,删除相应的分类器信息。本专利技术的有益效果在于:1、本专利技术将基于大规模媒体数据的广告精准投放问题映射为大规模在线数据的点击行为预测问题,即数据分类问题。利用准确度较高的集成模型来对用户在线媒体浏览行为进行行为类别预测,提升了广告推荐系统的自学习能力和智能水平。并且,基于集成模型索引的思想,还设计了本系统集成模型专用索引结构和相应的预测算法,使得本专利技术能应用到大数据背景下的在线广告推荐中。2、基于所建立的索引,本方法采用了亚线性的在线预测。与传统的线性预测方法相比,由于通过倒排表将支持向量按照词进行聚集,其预测速度得到明显的提升,预测时间仅为传统方法的3%,能满足大规模数据处理的要求。3、本系统将实时要求不高的业务从实时业务系统中剥离,解决离线数据分析进行用户数据深度挖掘和实时在线服务需求的冲突问题,缓解了系统压力,以及在进行实时推送服务的同时,保障了数据分析的准确性。附图说明图1为本专利技术在线广告推荐系统的示意图;图2为本专利技术中基于倒排表的索引结构的示意图;图3为图2中倒排索引的支持向量I本文档来自技高网...
一种面向大规模媒体数据的在线广告推荐系统及方法

【技术保护点】
一种面向大规模媒体数据的在线广告推荐系统,其特征在于:包括广告管理模块(1)、广告检索模块(2)、用户行为挖掘模块(3)、用户行为查询模块(4)、网页管理模块(5)、流量分析模块(6)以及广告调度引擎模块(7);所述广告调度引擎模块(7)分别与用户端、广告管理模块(1)、流量分析模块(6)连接,用于完成整个广告调度执行的环境引导;所述流量分析模块(6)分别与广告检索模块(2)、用户行为查询模块(4)、网页管理模块(5)之间进行参数交换,并完成广告排序;所述用户行为挖掘模块(3)分别与广告管理模块(1)、用户行为查询模块(4)连接,用于对用户的行为进行分析及预测;所述广告检索模块(2)与广告管理模块(1)连接,用于完成广告数据索引的构建,并对广告数据索引进行检索;所述广告管理模块(1),用于存储最新的广告投放策略集合;所述用户行为查询模块(4),用于完成用户行为信息的查询;所述网页管理模块(5),用于完成网页数据的管理。

【技术特征摘要】
1.一种面向大规模媒体数据的在线广告推荐系统,其特征在于:包括广告管理模块(1)、广告检索模块(2)、用户行为挖掘模块(3)、用户行为模块(4)、网页管理模块(5)、流量分析模块(6)以及广告调度引擎模块(7);所述广告调度引擎模块(7)分别与用户端、广告管理模块(1)、流量分析模块(6)连接,用于完成整个广告调度执行的环境引导;所述流量分析模块(6)分别与广告检索模块(2)、用户行为模块(4)、网页管理模块(5)之间进行参数交换,并完成广告排序;所述用户行为挖掘模块(3)分别与广告管理模块(1)、用户行为模块(4)连接,用于对用户的行为进行分析及预测;所述广告检索模块(2)与广告管理模块(1)连接,用于完成广告数据索引的构建,并对广告数据索引进行检索;所述广告管理模块(1),用于存储最新的广告投放策略集合;所述用户行为模块(4),用于完成用户行为信息的查询;所述网页管理模块(5),用于完成网页数据的管理。2.如权利要求1所述的一种面向大规模媒体数据的在线广告推荐系统,其特征在于:所述用户行为挖掘模块(3)包括策略更新部分和行为流检测部分;所述策略更新部分通过在线构造双Buffer动态数据区来完成最新策略的实时更新和并发使用;所述行为流检测部分用于以web服务的形式接收在线日志,并通过建立基于倒排表的索引结构来完成用户行为倾向性的预测。3.如权利要求2所述的一种面向大规模媒体数据的在线广告推荐系统,其特征在于:所述在线日志包含用户的最新点击行为或者搜索行为。4.如权利要求2所述的一种面向大规模媒体数据的在线广告推荐系统,其特征在于:所述索引结构由两部分组成,一部分为分类器级别的信息列表,包含分类器ID、分类器权重、分类器内部的核心参数以及分类器包含的支持向量数量;另一部分为由哈希表构成的倒排索引,所述倒排索引的每一个key代表一个词,value表示包含这个词的支持向量集合。5.如权利要求4所述的一种面向大规模媒体数据的在线广告推荐系统,其特征在于:所述倒排索引的每一个支持向量通过ID进行唯一标识,其中支持向量ID是一个无符号64bit的整数,高32bit用于存储支持向量所在的分类器ID,低32bit用于存储该支持向量在对应的分类器中的相对ID。6.一种基于权利要求1所述的面向大规模媒体数据的在线广告推荐方法,其特征在于,包括如下步骤:S1:当用户访问网页时,广告调度引擎模块(7)从用户端获取用户的ip、ua、url、region信息,并将所述信息传递给流量分析模块(6)的请求端;S2:网页管理模块(5)和用户行为模块(4)分别从流量分析模块(6)处获取所需的用户参数,并按专家知识权重归并计算,完成用户兴趣的查询和近期行为的理解;S3:广告检索模块(2)根据...

【专利技术属性】
技术研发人员:糜万军金俏李军李馥岑邱建刚杨绪升
申请(专利权)人:武汉烽火普天信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1