数字电视用户行为预测方法及装置制造方法及图纸

技术编号:17737955 阅读:46 留言:0更新日期:2018-04-18 13:48
本发明专利技术实施例提供一种数字电视用户行为预测方法及装置。该方法包括:获取用户收视的上下文信息,所述上下文信息包括:基本类型、节目属性、收视时段;根据所述上下文信息,确定用户关机模型;根据所述用户关机模型,对无法采集到电视机关机数据的用户的关机行为进行预测。本发明专利技术实施例通过获取用户收视的上下文信息,根据上下文信息,确定用户关机模型,根据用户关机模型,对无法采集到电视机关机数据的用户的关机行为进行预测,预测用户关闭电视机的时刻,根据用户关闭电视机的时刻,确定出机顶盒回传的用户收视行为数据中的无效数据,提高了广电有线运营商进行收视率调查和用户收视行为分析的准确性。

Method and device for predicting user behavior of digital TV

An embodiment of the invention provides a method and a device for predicting user behavior of a digital TV. The method includes: obtaining context information of user viewing, the contextual information includes: basic types, program attributes, viewing time; according to the context information, determine the user shutdown model; according to the user model of behavior of shutdown, shutdown shutdown data cannot be collected TV users forecast. The embodiment of the invention for context information user ratings, according to context information, determine the user shutdown according to the user model, shutdown model, shutdown behavior cannot be collected on TV set off data users forecast, forecast users turn off the TV time, according to the user to turn off the TV time, identify invalid data user viewing behavior data set back in the box, improve the accuracy of the cable operators to analyze ratings and user viewing behavior of the.

【技术实现步骤摘要】
数字电视用户行为预测方法及装置
本专利技术实施例涉及通信
,尤其涉及一种数字电视用户行为预测方法及装置。
技术介绍
随着有线电视网络双向改造的加速,以及双向数字电视机顶盒的普及,海量家庭用户操作机顶盒的行为数据能够被收集,并通过采集系统回传至后台数据存储服务器,实现海量用户收视行为数据的采集。同时,得益于大数据技术的发展,一方面将收视率调查和分析的样本空间扩大为全体用户,能得到全面精准的分析结果;另一方面还可以针对特定人群进行收视特征分析,帮助运营商实时调整运营决策,为用户提供个性化的收视服务,从而提高用户体验并增加营业收入。然而,双向数字电视机顶盒只要在开机的状态下,就会实时监测并回传用户频道跳转、交互业务的使用以及页面停留等行为。而在实际生活中,大部分用户习惯性的只关闭电视机,而机顶盒仍处于开机状态,此时,机顶盒会继续回传用户收视行为数据,显然这部分数据是无效的。这部分无效数据在很大程度上会影响广电有线运营商进行收视率调查和用户收视行为分析的准确性。
技术实现思路
本专利技术实施例提供一种数字电视用户行为预测方法及装置,以提高收视率调查和用户收视行为分析的准确性。本专利技术实施例的一个方面是提供一种数字电视用户行为预测方法,包括:获取用户收视的上下文信息,所述上下文信息包括:基本类型、节目属性、收视时段;根据所述上下文信息,确定用户关机模型;根据所述用户关机模型,对无法采集到电视机关机数据的用户的关机行为进行预测。本专利技术实施例的另一个方面是提供一种数字电视用户行为预测装置,包括:获取模块,用于获取用户收视的上下文信息,所述上下文信息包括:基本类型、节目属性、收视时段;确定模块,用于根据所述上下文信息,确定用户关机模型;预测模块,用于根据所述用户关机模型,对无法采集到电视机关机数据的用户的关机行为进行预测。本专利技术实施例提供的数字电视用户行为预测方法及装置,通过获取用户收视的上下文信息,根据上下文信息,确定用户关机模型,根据用户关机模型,对无法采集到电视机关机数据的用户的关机行为进行预测,预测用户关闭电视机的时刻,根据用户关闭电视机的时刻,确定出机顶盒回传的用户收视行为数据中的无效数据,提高了广电有线运营商进行收视率调查和用户收视行为分析的准确性。附图说明图1为本专利技术实施例提供的数字电视用户行为预测方法流程图;图1A为本专利技术实施例提供的关机行为预测流程图;图2为本专利技术实施例提供的关机时长分布图;图3为本专利技术实施例提供的关机时长对数分布图;图4A为本专利技术实施例提供的CCTV1频道关机时长分布的累计分布图;图4B为本专利技术实施例提供的CCTV1频道关机时长分布的对数分布图;图5A为本专利技术实施例提供的湖南卫视关机时长分布的累计分布图;图5B为本专利技术实施例提供的湖南卫视关机时长分布的对数分布图;图6A为本专利技术实施例提供的北京卫视关机时长分布的累计分布图;图6B为本专利技术实施例提供的北京卫视关机时长分布的对数分布图;图7A为本专利技术实施例提供的《饥饿游戏-嘲笑鸟(上)》关机时长分布的累计分布图;图7B为本专利技术实施例提供的《饥饿游戏-嘲笑鸟(上)》关机时长分布的对数分布图;图8A为本专利技术实施例提供的《芈月传》关机时长分布的累计分布图;图8B本专利技术实施例提供的《芈月传》关机时长分布的对数分布图;图9A为本专利技术实施例提供的《开心乐翻天》关机时长分布的累计分布图;图9B为本专利技术实施例提供的《开心乐翻天》关机时长分布的对数分布图;图10为现有技术中的用一棵传统的回归决策树进行训练的结果的示意图;图11为本专利技术实施例提供的回归决策树模型的示意图;图12为本专利技术实施例提供的迭代决策树方法进行关机模型训练的实验结果的示意图;图13为本专利技术实施例提供的数字电视用户行为预测装置的结构图;图14为本专利技术另一实施例提供的数字电视用户行为预测装置的结构图。具体实施方式迭代决策树(GradientBoostingDecisionTree,简称GBDT)又叫多重累计回归树(MultipleAdditiveRegressionTree,简称MART),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。GradientBoost其实是一个框架,里面可以套入很多不同的算法。Boost是"提升"的意思,一般Boosting算法都是一个迭代的过程,每一次新的训练都是为了改进上一次的结果。原始的Boost算法是在算法开始的时候,为每一个样本赋上一个权重值,初始的时候,大家都是一样重要的。在每一步训练中得到的模型,会使得数据点的估计有对有错,我们就在每一步结束后,增加分错的点的权重,减少分对的点的权重,这样使得某些点如果老是被分错,那么就会被“严重关注”,也就被赋上一个很高的权重。然后等进行了N次迭代(由用户指定),将会得到N个简单的分类器(basiclearner),然后我们将它们组合起来(比如说可以对它们进行加权、或者让它们进行投票等),得到一个最终的模型。而GradientBoost与传统的Boost的区别是,每一次的计算是为了减少上一次的残差(residual),而为了消除残差,可以在残差减少的梯度(Gradient)方向上建立一个新的模型。所以说,在GradientBoost中,每个新的模型的建立是为了使得之前模型的残差往梯度方向减少,与传统Boost对正确、错误的样本进行加权有着很大的区别。在分类问题中,有一个很重要的内容叫做Multi-ClassLogistic,也就是多分类的Logistic问题,它适用于那些类别数>2的问题,并且在分类结果中,样本x不是一定只属于某一个类可以得到样本x分别属于多个类的概率(也可以说样本x的估计y符合某一个几何分布)。这里就用一个结论:如果一个分类问题符合几何分布,那么就可以用Logistic变换来进行之后的运算。假设对于一个样本x,它可能属于K个分类,其估计值分别为F1(x)…FK(x),Logistic变换如下,logistic变换是一个平滑且将数据规范化(使得向量的长度为1)的过程,结果为属于类别k的概率pk(x),如公式(1)所示:对于Logistic变换后的结果,损失函数如公式(2)其中,yk为输入的样本数据的估计值,当一个样本x属于类别k时,yk=1,否则yk=0。将Logistic变换的式子带入损失函数,并且对其求导,可以得到损失函数的梯度,如公式(3)所示:假设输入数据x可能属于5个分类(分别为1,2,3,4,5),训练数据中,x属于类别3,则y=(0,0,1,0,0),假设模型估计得到的F(x)=(0,0.3,0.6,0,0),则经过Logistic变换后的数据p(x)=(0.16,0.21,0.29,0.16,0.16),y-p得到梯度g:(-0.16,-0.21,0.71,-0.16,-0.16)。观察这里可以得到一个比较有意思的结论:假设gk为样本当某一维(某一个分类)上的梯度:gk>0时,越大表示其在这一维上的概率p(x)越应该提高,比如说上面的第三维的概率为0.29,就应该提高,属于应该往“正确的方向”前进;越小表本文档来自技高网...
数字电视用户行为预测方法及装置

【技术保护点】
一种数字电视用户行为预测方法,其特征在于,包括:获取用户收视的上下文信息,所述上下文信息包括:基本类型、节目属性、收视时段;根据所述上下文信息,确定用户关机模型;根据所述用户关机模型,对无法采集到电视机关机数据的用户的关机行为进行预测。

【技术特征摘要】
1.一种数字电视用户行为预测方法,其特征在于,包括:获取用户收视的上下文信息,所述上下文信息包括:基本类型、节目属性、收视时段;根据所述上下文信息,确定用户关机模型;根据所述用户关机模型,对无法采集到电视机关机数据的用户的关机行为进行预测。2.根据权利要求1所述的方法,其特征在于,所述根据所述上下文信息,确定用户关机模型之后,还包括:采用迭代决策树算法,训练所述用户关机模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述用户关机模型,对无法采集到电视机关机数据的用户的关机行为进行预测,包括:获取用户操作机顶盒的行为数据时间间隔;若所述时间间隔大于阈值,则根据所述用户关机模型,确定所述用户关闭电视机的时刻。4.根据权利要求1所述的方法,其特征在于,所述获取用户收视的上下文信息之后,还包括:将所述上下文信息分为样本数据和测试数据;所述根据所述上下文信息,确定用户关机模型,包括:根据所述样本数据,确定用户关机模型;所述根据所述用户关机模型,对无法采集到电视机关机数据的用户的关机行为进行预测,包括:根据所述用户关机模型,对所述测试数据的用户的关机行为进行预测。5.根据权利要求1-4任一项所述的方法,其特征在于,所述基本类型包括地域和业务类型;所述节目属性包括直播频道、节目类型、节目热度、节目时长;所述收...

【专利技术属性】
技术研发人员:万倩赵明朱佩江李培琳牛妍华
申请(专利权)人:国家新闻出版广电总局广播科学研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1