数据清洗方法及装置制造方法及图纸

技术编号:15795189 阅读:497 留言:0更新日期:2017-07-10 11:31
本发明专利技术公开了一种数据清洗方法及装置。其中,该方法包括:获取用户点播视频时产生的点播数据;根据点播数据判断用户的点播行为对应的连播次数是否大于预设连播次数,或者视频的连续播放时长是否超过预设时长;在判断结果为用户的点播行为对应的连播次数大于预设连播次数,或者视频的连续播放时长超过预设时长的情况下,对点播数据进行清洗。本发明专利技术解决了相关技术中由于非用户实际操作而产生的IPTV数据影响了用户收视行为分析结果的技术问题。

【技术实现步骤摘要】
数据清洗方法及装置
本专利技术涉及网络电视领域,具体而言,涉及一种数据清洗方法及装置。
技术介绍
目前,别于传统电视收视设备的交互式网络电视IPTV已逐步得到普及应用。随着技术的发展,获取用户为观看电视节目而使用IPTV等电视业务的数据(以下简称为IPTV数据)成为可能,因此可以通过IPTV数据分析用户使用电视业务的频次,进而初步分析用户的收视行为。为了提高分析结果的准确度,在分析用户的收视行为之前,需要先判断用户的收视数据是否正常,如判断收视数据是否会因非用户操作而产生,如电视机关闭,而机顶盒未关闭,会导致视频播放一直持续,视频数据一直发送,而这些数据并非用户实际操作而产生的。在相关技术中,对IPTV数据预处理时,只会简单地将单次观看时长大于24小时的收视数据删除。然而,对于点播产生的收视数据(以下简称点播数据)而言,由于用户实际观看点播视频节目时,在看完节目后,通常只会关闭电视机,不会关闭机顶盒。而当用户观看一部电视剧时,如果只关闭电视机而不关闭机顶盒,则机顶盒仍处于工作状态。此时,机顶盒就会自动播放剧集,并将这种播放行为如实地反映在IPTV数据中,而用户实际上并没有观看机顶盒自动播放的剧集。这样,使用上述IPTV数据分析剧集播放量时,会发现剧集播放量很高,从而影响了分析结果的准确性。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据清洗方法及装置,以至少解决相关技术中由于非用户实际操作而产生的IPTV数据影响了用户收视行为分析结果的技术问题。根据本专利技术实施例的一个方面,提供了一种数据清洗方法,包括:获取用户点播视频时产生的点播数据;根据上述点播数据判断上述用户的点播行为对应的连播次数是否大于预设连播次数,或者上述视频的连续播放时长是否超过预设时长;在判断结果为上述用户的点播行为对应的连播次数大于预设连播次数,或者上述视频的连续播放时长超过预设时长的情况下,对上述点播数据进行清洗。进一步地,在判断结果为上述用户的点播行为对应的连播次数大于预设连播次数的情况下,对上述点播数据进行清洗包括:将上述点播数据中大于上述预设连播次数的连播行为对应的点播数据清洗掉。进一步地,根据上述点播数据判断上述用户的点播行为对应的连播次数是否大于预设连播次数包括:根据上述点播数据判断上述用户的点播行为是否包含多次播放行为;在判断结果为上述用户的点播行为包含上述多次播放行为的情况下,判断上述多次播放行为的次数是否大于上述预设连播次数;在判断结果为上述多次播放行为的次数大于上述预设连播次数的情况下,判断任意两次播放行为之间的时间间隔是否在预设时间间隔范围之内;在判断结果为上述任意两次播放行为之间的时间间隔在上述预设时间间隔范围之内的情况下,确定上述用户的点播行为是大于上述预设连播次数的连播行为。进一步地,在判断结果为上述视频的连续播放时长超过上述预设时长的情况下,对上述点播数据进行清洗包括:将上述点播数据中上述视频的连续播放时长超过上述预设时长对应的点播数据清洗掉。进一步地,在获取用户点播视频时产生的点播数据之后,上述方法还包括:对上述点播数据按时间维度进行排序,得到时间顺序的点播数据。根据本专利技术实施例的另一方面,还提供了一种数据清洗装置,包括:获取单元,用于获取用户点播视频时产生的点播数据;判断单元,用于根据上述点播数据判断上述用户的点播行为对应的连播次数是否大于预设连播次数,或者上述视频的连续播放时长是否超过预设时长;清洗单元,用于在判断结果为上述用户的点播行为对应的连播次数大于预设连播次数,或者上述视频的连续播放时长超过上述预设时长的情况下,对上述点播数据进行清洗。进一步地,上述清洗单元还用于将上述点播数据中大于上述预设连播次数的连播行为对应的点播数据清洗掉。进一步地,上述清洗单元包括:第一判断模块,用于根据上述点播数据判断上述用户的点播行为是否包含多次播放行为;第二判断模块,用于在判断结果为上述用户的点播行为包含上述多次播放行为的情况下,判断上述多次播放行为的次数是否大于上述预设连播次数;第三判断模块,用于在判断结果为上述多次播放行为的次数大于上述预设连播次数的情况下,判断任意两次播放行为之间的时间间隔是否在预设时间间隔范围之内;确定模块,用于在判断结果为上述任意两次播放行为之间的时间间隔在上述预设时间间隔范围之内的情况下,确定上述用户的点播行为对应的连播次数大于上述预设连播次数。进一步地,上述清洗单元还用于将上述点播数据中上述视频的连续播放时长超过上述预设时长对应的点播数据清洗掉。进一步地,上述装置还包括:排序单元,用于在获取用户点播视频时产生的点播数据之后,对上述点播数据按时间维度进行排序,得到时间顺序的点播数据。在本专利技术实施例中,采用对非用户实际操作而产生的IPTV数据进行清洗的方式,通过获取用户点播视频时产生的点播数据;根据点播数据判断用户的点播行为对应的连播次数是否大于预设连播次数,或者视频的连续播放时长是否超过预设时长;在判断结果为用户的点播行为对应的连播次数大于预设连播次数,或者视频的连续播放时长超过预设时长的情况下,对点播数据进行清洗,达到了清除非用户实际操作而产生的IPTV数据的目的,从而实现了提高用户收视行为分析结果精确度的技术效果,进而解决了相关技术中由于非用户实际操作而产生的IPTV数据影响了用户收视行为分析结果的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种可选的数据清洗方法的示意图;图2是根据本专利技术实施例的一种可选的数据清洗方法的原理图;图3是根据本专利技术实施例的一种可选的数据清洗方法的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本专利技术实施例,提供了一种数据清洗方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本专利技术实施例的一种可选的数据清洗方法的示意图,如图1所示,该方法包括如下步骤:步骤S102,获取用户点播视频时产生的点播数据本文档来自技高网
...
数据清洗方法及装置

【技术保护点】
一种数据清洗方法,其特征在于,包括:获取用户点播视频时产生的点播数据;根据所述点播数据判断所述用户的点播行为对应的连播次数是否大于预设连播次数,或者所述视频的连续播放时长是否超过预设时长;在判断结果为所述用户的点播行为对应的连播次数大于预设连播次数,或者所述视频的连续播放时长超过预设时长的情况下,对所述点播数据进行清洗。

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:获取用户点播视频时产生的点播数据;根据所述点播数据判断所述用户的点播行为对应的连播次数是否大于预设连播次数,或者所述视频的连续播放时长是否超过预设时长;在判断结果为所述用户的点播行为对应的连播次数大于预设连播次数,或者所述视频的连续播放时长超过预设时长的情况下,对所述点播数据进行清洗。2.根据权利要求1所述的方法,其特征在于,在判断结果为所述用户的点播行为对应的连播次数大于预设连播次数的情况下,对所述点播数据进行清洗包括:将所述点播数据中大于所述预设连播次数的连播行为对应的点播数据清洗掉。3.根据权利要求1或2所述的方法,其特征在于,根据所述点播数据判断所述用户的点播行为对应的连播次数是否大于预设连播次数包括:根据所述点播数据判断所述用户的点播行为是否包含多次播放行为;在判断结果为所述用户的点播行为包含所述多次播放行为的情况下,判断所述多次播放行为的次数是否大于所述预设连播次数;在判断结果为所述多次播放行为的次数大于所述预设连播次数的情况下,判断任意两次播放行为之间的时间间隔是否在预设时间间隔范围之内;在判断结果为所述任意两次播放行为之间的时间间隔在所述预设时间间隔范围之内的情况下,确定所述用户的点播行为对应的连播次数大于所述预设连播次数。4.根据权利要求1所述的方法,其特征在于,在判断结果为所述视频的连续播放时长超过所述预设时长的情况下,对所述点播数据进行清洗包括:将所述点播数据中所述视频的连续播放时长超过所述预设时长对应的点播数据清洗掉。5.根据权利要求1所述的方法,其特征在于,在获取用户点播视频时产生的点播数据之后,所述方法还包括:对所述点播数据按...

【专利技术属性】
技术研发人员:林森
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1