IPTV家庭用户年龄及性别分布预测系统和方法技术方案

技术编号:34549427 阅读:25 留言:0更新日期:2022-08-17 12:33
本发明专利技术公开了一种IPTV家庭用户年龄及性别分布预测系统和方法。根据本发明专利技术,话单数据处理模块对原始话单数据进行处理形成用户行为数据结构;节目单数据处理模块将节目单数据与用户行为数据结构进行匹配,得到用户收视记录;媒资数据处理模块收集全网影片信息形成媒资标签;用户年龄及性别分布预测模块计算用户的观影程度,并基于用户收视记录和媒资标签用户贴上性别-年龄段标签。本发明专利技术的IPTV家庭用户年龄及性别分布预测方案将全网媒资信息和用户观看IPTV的行为数据以及节目单数据相融合,对家庭成员的年龄及性别分布预测分析准确率高,更加合理地反映了家庭中各用户观影的兴趣偏好。趣偏好。趣偏好。

【技术实现步骤摘要】
IPTV家庭用户年龄及性别分布预测系统和方法


[0001]本专利技术涉及网络信息大数据领域,尤其涉及基于IPTV直播数据的家庭用户年龄及性别分布预测系统和方法。

技术介绍

[0002]如今,交互式网络电视IPTV已走进寻常人家。随着IPTV节目越来越多,用户面临海量电视节目的选择。如何更好地向用户推荐符合其需求的电视节目从而改善用户体验显得越来越重要。
[0003]然而由于当前一个IPTV用户一般对应于一个家庭,较个人用户而言,家庭用户构成较为复杂。一个家庭用户中不同个体的观影需求不同,那么为了给家庭用户的每个个体提供更好的电视服务体验,就需要对家庭用户进行家庭成员的结构分析,预测年龄及性别分布。
[0004]现有技术中在对电视用户的家庭成员进行分析时,采用的方案主要是通过获取用户的注册信息以及对用户进行问卷调查的方式来确定用户的属性例如性别、年龄等、观影偏好等信息,以此完成家庭用户成员的结构分析。
[0005]但是,由于注册信息中有很多用户属性例如年龄、性别等信息并不是必须填写的,这样容易造成注册信息的不完全,从而无法有效的依据注册信息来对家庭成员进行分析。
[0006]而对于通过问卷调查的方式来对电视用户的家庭成员进行分析的方案来说,由于用户对问卷调查普遍填写不积极,内容真实性不可靠,也会造成家庭成员分析的不准确。
[0007]因此,亟须解决现有IPTV用户家庭成员的分析方案中普遍存在的对家庭成员的信息分析准确性低的问题。

技术实现思路

[0008]提供本专
技术实现思路
以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本
技术实现思路
并不旨在标识出所要求保护的主题的关键特征或必要特征;也不旨在用于确定或限制所要求保护的主题的范围。
[0009]本专利技术提供了一种基于IPTV直播数据的家庭用户年龄及性别分布预测系统和方法,基于用户观看直播的行为,通过计算观影程度,根据男、女观看直播概率相同这一假设,采用高斯混合模型计算得出家庭用户的性别分布和年龄分布,构建IPTV家庭用户画像。相比现有技术更加准确,符合家庭用户特征。还可以为后续增值业务找到潜在客户。
[0010]本专利技术的一种IPTV家庭用户年龄及性别分布预测系统,包括:
[0011]话单数据处理模块,用于将探针采集到的原始用户播放行为数据(原始话单)进行清洗、转换、拆分、合并,并映射而形成用户行为数据结构;
[0012]节目单数据处理模块,用于将节目名称以及频道名称标准化,并将节目单数据与用户行为数据结构进行匹配,得到用户收视记录;
[0013]媒资数据处理模块,用于收集全网影片信息,包括片名、主演、类别、年份、评分、简
介、已有观影记录信息样本,以形成媒资标签,其中观影记录信息样本包括男女观影比率以及各年龄段观影比率;以及
[0014]用户年龄及性别分布预测模块,用于通过公式“观影程度=观影时长/影片时长”计算用户的观影程度,并采用高斯混合模型GMM与最大期望EM算法对用户的性别特征向量和年龄段特征向量进行聚类分析以及求解,从而基于用户收视记录和媒资标签用户贴上性别-年龄段标签。
[0015]根据本专利技术的一种IPTV家庭用户年龄及性别分布预测方法,包括以下步骤:
[0016]采集用户播放行为数据;
[0017]对所采集的用户播放行为数据进行处理,包括清洗、转换、拆分、合并,生成用户行为数据结构;
[0018]对节目单的数据进行处理,将节目名称和频道名称进行标准化;
[0019]将标准化后的得到的节目单数据与所生成的用户行为数据结构进行匹配,得到用户收视记录数据;
[0020]基于用户的收视记录计算用户的观影程度,其中观影程度=观影时长/影片时长;
[0021]收集全网影片信息以及样本信息形成媒资标签;以及
[0022]采用高斯混合模型GMM与最大期望EM算法对用户的性别特征向量和年龄段特征向量进行聚类分析以及求解,为用户贴上性别-年龄段标签。
[0023]通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
[0024]以下将通过参考附图中示出的具体实施例来对本专利技术进行更具体描述。
[0025]图1是根据本专利技术的一种基于IPTV直播数据的家庭用户年龄及性别分布预测系统的示意框图;
[0026]图2为性别指数神经网络结构示意图;
[0027]图3为各年龄段指数神经网络结构示意图;
[0028]图4示出了根据本专利技术的一种基于IPTV直播数据的家庭用户年龄及性别分布预测方法的流程图。
[0029]附图中的流程图和框图显示了根据本申请的实施例的系统、方法可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
具体实施方式
[0030]以下将通过参考附图中示出的具体实施例来对本专利技术进行更具体描述。通过阅读下文具体实施方式的详细描述,本专利技术的各种优点和益处对于本领域普通技术人员将变得清楚明了。然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的各实施方式所限制。提供以下实施方式是为了能够更透彻地理解本专利技术。除非另有说明,本申请使用的技
术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
[0031]图1示出了根据本专利技术的一种基于IPTV直播数据的家庭用户年龄及性别分布预测系统100,该系统包括话单数据处理模块110、节目单数据处理模块120、媒资数据处理模块130、以及用户年龄及性别分布预测模块140,以下逐模块进行详述:
[0032]■
话单数据处理模块110,用于将探针采集到的用户播放行为数据进行清洗、转换、拆分、合并等。清洗包括去除异常值、重复值和无用数据等,转换、拆分、合并包括原始数据的格式标准化。比如对用户ID为空、频道名为空、非直播数据(url not like'http%'and url not like'rtsp%')等进行校验,基于用户维度将原始话单拆分合并映射成系统内部用户行为数据结构。
[0033]例如,有2千万行108列的原始话单数据,经过清洗、转换和合并,形成了如下表1表达用户1的行为的如下数据结构。
[0034]表1:
[0035]用户ID采样时间频道ID频道名称用户1202103141524311CCTV1用户1202103141529421CCTV1用户1202103141535241CCTV1用户1202103141540441CCTV1用户1202103141545531CCTV1
[0036]此处,例如20210314152431是指2021年03月14日15点24分31秒。
[0037本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种IPTV家庭用户年龄及性别分布预测系统,包括:话单数据处理模块,用于基于原始话单形成用户行为数据结构;节目单数据处理模块,用于将节目单数据与所述用户行为数据结构进行匹配,得到用户收视记录;媒资数据处理模块,用于收集全网影片信息形成媒资标签;以及用户年龄及性别分布预测模块,用于计算用户的观影程度,并基于所述用户收视记录和所述媒资标签用户贴上性别-年龄段标签。2.如权利要求1所述的系统,其特征在于:所述话单数据处理模块用于将探针采集到的原始用户播放行为数据进行清洗、转换、拆分、合并,并映射而形成所述用户行为数据结构。3.如权利要求1所述的系统,其特征在于:所述节目单数据处理模块进一步用于将节目名称以及频道名称标准化。4.如权利要求1所述的系统,其特征在于:所述媒资数据处理模块收集的影片信息包括片名、主演、类别、年份、评分、简介、已有观影记录信息样本。5.如权利要求4所述的系统,其特征在于:所述观影记录信息样本包括男女观影比率以及各年龄段观影比率。6.如权利要求1所述的系统,其特征在于,所述观影程度用于表达用户对于影片的喜好程度,通过以下公式进行计算:观影程度=观影时长/影片时长。7.如权利要求1所述的系统,其特征在于,所述用户年龄及性别分布预测模块采用高斯混合模型GMM与最大期望EM算法对用户的性别特征向量和年龄段特征向量进行聚类分析以及求解,其中性别特征向量通过以...

【专利技术属性】
技术研发人员:王璐
申请(专利权)人:天翼数字生活科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1