The invention provides a cable TV on demand program recommendation method and system, including: collecting user's viewing behavior data and program metadata; training and testing part of the viewing behavior data; transforming the training viewing behavior data for user's rating of the program, forming a user's rating matrix; Qualified program metadata; multiple program candidate sets are obtained by multiple analysis methods according to score matrix and metadata; multiple candidate sets are weighted and combined to determine the accuracy or/or recall rate of each weighted combination according to the test set; and the weighted combination with high accuracy or/or recall rate is used as the recommendation result. Generate recommendation list. The above recommendation method and system achieve personalized recommendation for users, and improve the accuracy and efficiency of recommendation.
【技术实现步骤摘要】
有线电视点播节目推荐方法及系统
本专利技术涉及有线电视
,更为具体地,涉及一种有线电视点播节目推荐方法及系统。
技术介绍
推荐系统常被用户解决信息过载问题,为用户提供个性化的服务。现有的推荐方法主要包括协同过滤方法和基于内容推荐方法两大类,其中以协同过滤应用最为广泛。具体地,协同过滤方法大致分为基于内存的方法和基于模型的方法两种,前者以基于用户/项目相似度的近邻推荐为代表,后者以基于矩阵分解的推荐为代表。大数据时代,用户行为数据呈现海量增长趋势,推荐系统的稀疏性问题日益凸显。稀疏性问题是指,系统中的用户和项目数量非常大,用户之间的行为重叠非常少。并且,数据稀疏度定义为用户对项目的已有行为数量占所有可能存在的行为数量的百分比。现有的解决稀疏性问题的办法包括:扩散方法,从一阶关联提升为二阶关联、高阶关联;添加缺省评分方法;迭代寻优方法;转移相似性方法等。此外,单一的推荐方法往往不能取得理想的效果。
技术实现思路
鉴于上述问题,本专利技术的目的是提供一种实现对用户的个性化推荐,提高推荐精度与效率的有线电视点播节目推荐方法及系统。根据本专利技术的一个方面,提供一种有线电视点播节目推荐系统,包括:采集部,包括第一采集单元和第二采集单元,所述第一采集单元采集有线电视用户的收视行为数据,第二采集单元,爬取网上节目的元数据;分类部,将第一采集单元采集的所述收视行为数据一部分作为训练收视行为数据,组成训练集,另一部分作为测试收视行为数据,组成测试集;数据预处理部,将所述训练集的用户的训练收视行为数据转化为用户对节目的评分,所述评分为用户对节目的收视时长与节目的播出时长的比 ...
【技术保护点】
1.一种有线电视点播节目推荐系统,其特征在于,包括:采集部,包括第一采集单元和第二采集单元,所述第一采集单元采集有线电视用户的收视行为数据,第二采集单元,爬取网上节目的元数据;分类部,将第一采集单元采集的所述收视行为数据一部分作为训练收视行为数据,组成训练集,另一部分作为测试收视行为数据,组成测试集;数据预处理部,将所述训练集的用户的训练收视行为数据转化为用户对节目的评分,所述评分为用户对节目的收视时长与节目的播出时长的比值,每个用户对每个节目的评分构成用户‑节目的评分矩阵;将第二采集单元采集的元数据进行标准化;节目候选集获得部,包括第一分析模块、第二分析模块、第三分析模块和第四分析模块,其中,第一分析模块采用矩阵分解方法分解用户‑节目的评分矩阵,根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1;第二分析模块采用矩阵分解方法分解用户‑节目的评分矩阵,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第二节目候选集C2;第三分析模块根据用户‑节目的评分矩阵计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第三节目候选集C3;第四分析模块,根据电影元数据,计算用户 ...
【技术特征摘要】
1.一种有线电视点播节目推荐系统,其特征在于,包括:采集部,包括第一采集单元和第二采集单元,所述第一采集单元采集有线电视用户的收视行为数据,第二采集单元,爬取网上节目的元数据;分类部,将第一采集单元采集的所述收视行为数据一部分作为训练收视行为数据,组成训练集,另一部分作为测试收视行为数据,组成测试集;数据预处理部,将所述训练集的用户的训练收视行为数据转化为用户对节目的评分,所述评分为用户对节目的收视时长与节目的播出时长的比值,每个用户对每个节目的评分构成用户-节目的评分矩阵;将第二采集单元采集的元数据进行标准化;节目候选集获得部,包括第一分析模块、第二分析模块、第三分析模块和第四分析模块,其中,第一分析模块采用矩阵分解方法分解用户-节目的评分矩阵,根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1;第二分析模块采用矩阵分解方法分解用户-节目的评分矩阵,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第二节目候选集C2;第三分析模块根据用户-节目的评分矩阵计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第三节目候选集C3;第四分析模块,根据电影元数据,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第四节目候选集C4;推荐列表生成部,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合,根据分类部分出的测试集判断各种加权组合的准确度或/和召回率,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。2.根据权利要求1所述的有线电视点播节目推荐系统,其特征在于,所述数据预处理部包括:第一数据清洗模块,对训练集的训练收视行为数据进行清洗;第二数据清洗模块,对第二采集单元采集的元数据数据进行清洗;转化模块,对清洗后的训练收视行为数据和元数据进行转化,包括筛选单元,对用户和节目进行筛选,去除不活跃的用户和冷门节目;收视行为转化单元,用户的训练收视行为数据转化为用户对节目的评分;评分变换单元,根据四舍五入法将评分转换为取值为0或1的整数;评分矩阵构建单元,将每个用户对每个节目经过评分变换单元的评分组成用户-节目评分矩阵;元数据处理单元,对节目的元数据的变量进行预处理,所述预处理包括:判断变量的属性,对数值属性的变量进行归一化处理,对字符属性的变量进行分类。3.根据权利要求1所述的有线电视点播节目推荐系统,其特征在于,所述节目候选集获得部还包括:相似度获得模块,计算用户相似度和节目相似度,包括:相似度模型构建单元,根据相似度算法构建相似度模型,所述相似度算法包括皮尔逊相关系数、余弦相似度、平方距离倒数相似度和Jaccard相似度,其中,利用皮尔逊相关系数根据下式(1)构建第一相似度模型,其中,pearsonij为节目i和节目j的皮尔逊相关系数;U(i)表示对节目i评分的用户集合,rui表示用户u对节目i的评分,表示所有用户对节目i的平均评分;利用余弦相似度根据下式(2)构建第二相似度模型,其中,cosineij为节目i和节目j的余弦相似度;利用Jaccard相似度根据下式(3)构建第三相似度模型,其中,jaccardpq为用户p和用户q的Jaccard相似度,|U(p)∩U(q)|为用户p和用户q共同评分节目的数量,|U(p)∪U(q)|为用户p评分节目数量和用户q评分节目数量之和;邻居集合确定单元,运用邻域推荐模型,根据各节目之间的相似度和各用户之间的相似度确定每个节目的邻居集合;邻居评分确定单元,根据下式(4)确定不同用户对各节目的邻居集合中的节目的预测评分其中,是用户u对节目i的预测得分,R(u)是用户u产生行为的节目集合,Sk(i)是与节目i最为相似的k个节目,sim(i,j)表示节目i和节目j之间的相似度;节目候选集确定单元,根据用户对各节目的邻居集合的预测得分,按照预测得分高低的顺序选取设定数量的节目作为用户的节目候选集。4.根据权利要求1所述的有线电视点播节目推荐系统,其特征在于,所述推荐列表生成部包括加权组合单元、准确度计算单元或/和召回率计算单元以及推荐列表生成单元,其中:加权组合单元,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合;准确度计算单元,根据测试集的测试收视行为数据根据下式(5)计算各种加权组合的准确度,其中,Precision为一种加权组合的准确度,n表示测试集上的用户个数,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,L表示推荐列表的长度;召回率计算单元,根据测试集的测试收视行为数据根据下式(6)计算各种加权组合的召回率,其中,Recall为一种加权组合的召回率,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,test(p)表示用户p在测试集上实际点播的节目个数;推荐列表生成单元,将准确度或/和召回率高的...
【专利技术属性】
技术研发人员:王妍,柴剑平,李波,冯熙,殷复莲,江茜,檀雷雷,韩晶晶,
申请(专利权)人:中国传媒大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。