基于例外挖掘算法的智能电视用户行为获取方法及系统技术方案

技术编号:12530140 阅读:114 留言:0更新日期:2015-12-18 01:27
本发明专利技术公开了一种基于例外挖掘算法的智能电视用户行为获取方法及系统,方法包括:检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量;根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树;当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量。本发明专利技术实现了对稀有用户的识别,扩大了内容服务的多样性或覆盖率,同时在识别过程中计算效率较高,成簇效果更佳。

【技术实现步骤摘要】

本专利技术涉及智能电视
,尤其涉及的是一种基于例外挖掘算法的智能电视用户行为获取方法及系统
技术介绍
智能电视用户行为分析的目的是挖掘智能电视用户的行为特征,了解用户的收视习惯,根据用户需求向用户提供有价值的节目内容。如果对用户行为分析的质量很高,给用户推荐喜欢的电视节目和产品,那么用户会对该智能电视产生依赖。为了加强内容服务,为用户提供个性化服务,需要了解用户需求,了解用户对电视的使用行为,并且对用户使用习惯进行分析,从而为产品规划部门提供产品规划和产品定位,为用户提供更好的内容服务和个性化的服务。因此,对用户行为进行分析不仅能够为用户提供个性化的推荐服务,而且能与用户建立长期稳定的关系,从而有效保留客户,提高客户的忠诚度,防止客户流失。目前的用户行为分析多数是基于聚类或者分类算法把用户分为几种类型,针对不同类型的用户做相应的产品设计或者内容服务,但是对于某些少量用户,其观看电视的时间、内容异于大多数人群的(如打开电视机的时间为凌晨四点,看的内容多为手球,冰球等小众运动类的)却难以得到考虑。因此,现有技术还有待于改进和发展。
技术实现思路
鉴于上述现有技术的不足,本专利技术的目的在于提供一种基于例外挖掘算法的智能电视用户行为获取方法及系统,旨在解决现有技术中对用户行为分析多数是基于聚类或者分类算法把用户分为几种类型,针对不同类型的用户做相应的产品设计或者内容服务,但未分析观看电视的时间、内容异于大多数人群的小众用户的用户行为,并提供针对性服务的缺陷。本专利技术的技术方案如下:一种基于例外挖掘算法的智能电视用户行为获取方法,其中,所述方法包括以下步骤: A、检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量; B、根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树; C、当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量。所述基于例外挖掘算法的智能电视用户行为获取方法,其中,所述用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据。所述基于例外挖掘算法的智能电视用户行为获取方法,其中,所述步骤A具体包括: Al、检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的F维用户特征向量;其中,F为正整数; A2、将F维用户特征向量中非数字型数据编码数值化后,得到正则化F维用户特征向量; A3、根据哈希降维的算法对所述正则化F维用户特征向量进行降维,得到维度为D的降维用户特征向量;其中,D为小于F的正整数。所述基于例外挖掘算法的智能电视用户行为获取方法,其中,所述步骤B具体包括: B1、根据K-均值聚类算法对降维用户特征向量进行划分,得到K个约束类;其中,K为正整数; B2、根据层次聚类法对K个约束类中每一约束类均进行凝聚,得到K颗子聚类树; B3、根据层次聚类法将K颗子聚类树合并,得到聚类树,并获取当前K值对应聚类树的Gini不纯度; B4、对K-均值聚类算法中包括的多个K值依次重复执行步骤B1-B3,直至获取每一 K值对应的聚类树,及与每一聚类树相对应的Gini不纯度; B5、获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树。所述基于例外挖掘算法的智能电视用户行为获取方法,其中,所述步骤C中各聚类的型心之间的距离为欧拉距离。—种基于例外挖掘算法的智能电视用户行为获取系统,其中,包括:向量获取模块,用于当检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量;聚类树获取模块,用于根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树; 判断及存储模块,用于当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量。所述基于例外挖掘算法的智能电视用户行为获取系统,其中,所述用户特征向量中用户数据包括用户观看电视台的直播节目数据、点播数据、开启的APP数据、遥控器数据。所述基于例外挖掘算法的智能电视用户行为获取系统,其中,所述向量获取模块具体包括: 原始向量获取单元,用于检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的F维用户特征向量;其中,F为正整数; 正则化单元,用于将F维用户特征向量中非数字型数据编码数值化后,得到正则化F维用户特征向量; 降维单元,用于根据哈希降维的算法对所述正则化F维用户特征向量进行降维,得到维度为D的降维用户特征向量;其中,D为小于F的正整数。所述基于例外挖掘算法的智能电视用户行为获取系统,其中,所述聚类树获取模块具体包括: 向量划分单元,用于根据K-均值聚类算法对降维用户特征向量进行划分,得到K个约束类;其中,K为正整数; 子聚类树获取单元,用于根据层次聚类法对K个约束类中每一约束类均进行凝聚,得到K颗子聚类树; 不纯度获取单元,用于根据层次聚类法将K颗子聚类树合并,得到聚类树,并获取当前K值对应聚类树的Gini不纯度; 控制单元,用于对K-均值聚类算法中包括的多个K值依次重复启动向量划分单元、子聚类树获取单元及不纯度获取单元,直至获取每一 K值对应的聚类树,及与每一聚类树相对应的Gini不纯度; 最佳聚类树获取单元,用于获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树。所述基于例外挖掘算法的智能电视用户行为获取系统,其中,所述判断及存储模块中各聚类的型心之间的距离为欧拉距离。本专利技术提供了一种基于例外挖掘算法的智能电视用户行为获取方法及系统,方法包括:检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量;根据K-均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树;当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量。本专利技术实现了对稀有用户的识别,扩大了内容服务的多样性或覆盖率,同时在识别过程中计算效率较高,成簇效果更佳。【附图说明】图1为本专利技术所述基于例外挖掘算法的智能电视用户行为获取方法较佳实施例的流程图。图2为本专利技术图1所示方法中步骤SlOO的具体流程图。图3为本专利技术图1所示方法中步骤S200的具体流程图。图4为本专利技术所述基于例外挖掘算法的智能电视用户行为获取系统较佳实施例的结构框图。【具体实施方式】本专利技术提供一种基于例外挖掘算法的智能电视用户行为获取方法及系统,为使本专利技术的目的、技术方案及效果更加清楚、明确,以下对本发当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种基于例外挖掘算法的智能电视用户行为获取方法,其特征在于,所述方法包括以下步骤:A、检测到智能电视开机时,则采集用于确定用户观看电视时用户数据的用户特征向量,将用户特征向量正则化,并进行哈希降维,得到降维用户特征向量;B、根据K‑均值聚类算法和层次聚类算法的混合算法将降维用户特征向量进行划分,得到不同K值对应的多个聚类树,并获取Gini不纯度最小时K值所对应的聚类树作为最佳聚类树;C、当最佳聚类树中各聚类的型心之间的距离均大于预设的距离阈值时,则保存该最佳聚类树对应的用户特征向量。

【技术特征摘要】

【专利技术属性】
技术研发人员:王巍
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1