一种基于大数据的个性化新闻推荐方法及装置制造方法及图纸

技术编号:27656715 阅读:11 留言:0更新日期:2021-03-12 14:19
本发明专利技术涉及自然语言处理,特别涉及一种基于大数据的个性化新闻推荐方法及系统,所述方法包括获取历史数据,对数据集进行预处理操作,并进行预处理;对数据构建特征工程,建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;根据特征的重要性对特征进行选择,保留重要性最高的前50%的特征作为选择的特征;根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户;本发明专利技术可以对海量特征进行有效地特征选择,在保证效果的前提下,能减小特征维度,加快模型的训练时间,提高效率,同时降低对内存的要求。

【技术实现步骤摘要】
一种基于大数据的个性化新闻推荐方法及装置
本专利技术涉及机器学习、深度学习、自然语言处理、大数据
,特别涉及一种基于大数据的个性化新闻推荐方法及装置。
技术介绍
近年来,互联网的迅猛发展给用户带来了海量的信息,导致了用户在面对海量信息时无法快速有效的获取对自己最有用的信息,使得用户对信息的使用效率大大降低,而个性化推荐系统就是解决该问题的一个有力工具。以新闻资讯产业为例,为了提升用户的阅读体验,提高用户的留存时长,常常利用个性化推荐算法为用户自动推荐最感兴趣的新闻,极大提升用户体验。个性化新闻推荐系统需要利用用户的行为数据,通过分析大量用户行为日志,给用户推荐最可能阅读的新闻,为用户提供个性化服务,以此来提高新闻资讯产品的点击率和转化率。
技术实现思路
为了解决上述问题,本专利技术提出一种基于大数据的个性化新闻推荐方法,如图1,具体包括以下步骤:获取历史数据,对数据集进行预处理操作;将历史数据中浏览数和点赞数超过平均值3倍的天数删除,对剩余数据的负样本通过随机采样的方式进行删除,保证正负样本比为1:16;对数据构建特征工程,建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;根据特征的重要性对特征进行选择,保留重要性最高的前50%的特征作为选择的特征;根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户。进一步的,对数据集进行预处理,具体包括以下步骤:对异常数据进行清洗,包括删除一秒钟内浏览新闻数超过20的用户,删除一个月内每天在同一时间在多个平台同时登录账号的用户,删除浏览次数大于用户数的新闻;为每一个字段的缺失值生成一个满足正态分布的随机向量来作为特征隐向量,并让该特征隐向量加上一个0到1的随机数作为扰动因子。进一步的,根据特征的重要性对特征进行选择包括:使用LightGBM训练模型训练得到每个特征的重要性,得到特征重要性集合w′=(w′1,w′2,...,w′i,...,w′n),其中,w′i表示第i个特征的重要性;使用Embedding+Attention+Dense神经网络训练模型对特征的重要性训练,一共训练至少m次;结合LightGBM训练模型训练的重要性和Embedding+Attention+Dense神经网络训练模型,获取最终的重要性得分。进一步的,特征k最终的重要性得分表示为:其中,wij表示第i轮中第j个特征的重要性。进一步的,利用结合LightGBM训练模型训练的重要性和Embedding+Attention+Dense神经网络训练模型当前的AUC值对特征k最终的重要性得分进行加权,加权后的特征k最终的重要性得分表示为:其中,Wk表示加权后的特征k最终的重要性得分,AUCi表示第i轮模型的AUC值。进一步的,根据选择的特征建立深度学习模型并进行模型融合操作具体包括:把用户时序特征构造成一个维度为(8,11)的二维向量,其中8是指时序特征的天数,11是指时序特征的个数,后面接入双向的LSTM层来提取特征的时序信息,得到时序特征;为离散型特征随机初始化特征嵌入矩阵,通过embedding层得到特征向量,然后分别用长度为2、3、4的卷积核做卷积和池化操作,再把得到的结果拼接起来得到离散特征;将特征取值个数超过10000的作为连续特征,把时序特征、离散特征和连续特征拼接起来输入到3层的DNN模型中,每一层的神经元个数分别为256、128、64,在该神经网络中的输出层得到点击率。本专利技术还提出一种基于大数据的个性化新闻推荐系统,所述系统包括特征获取模块、特征预处理模块、特征工程构建模块、特征选择模块、特征融合模块,其中:特征获取模块,用于从获取的原始数据中获取用户或者新闻的特征;特征预处理模块,用于对特征进行预处理,包括对异常数据进行清洗并在清洗后的数据中加入扰动;特征工程构建模块,用于根据原始数据构建用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;特征选择模块,用于根据LightGBM训练模型和Embedding+Attention+Dense神经网络训练模型分别获取特征的重要性,并根据获取的重要性计算特征最终的重要性,并选择该最终重要性最大的前50%的特征作为选择的特征;特征融合模块,用于根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户。本专利技术可以对海量特征进行有效地特征选择,在保证效果的前提下,能减小特征维度,加快模型的训练时间,提高效率,同时降低对内存的要求。附图说明图1为本专利技术实施例一提供一种基于大数据的个性化新闻推荐方法的流程图;图2为本专利技术实施例一提供一种基于大数据的个性化新闻推荐方法的特征选择模型图;图3为本专利技术实施例一提供一种基于大数据的个性化新闻推荐方法的模型融合流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提出一种基于大数据的个性化新闻推荐方法,如图1,具体包括以下步骤:获取历史数据,对数据集进行预处理操作;将历史数据中浏览数和点赞数超过平均值3倍的天数删除,对剩余数据的负样本通过随机采样的方式进行删除,保证正负样本比为1:16;对数据构建特征工程,建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;根据特征的重要性对特征进行选择,保留重要性最高的前50%的特征作为选择的特征;根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户。实施例1获取用户的历史数据,并对获取的数据集进行以下处理:对异常数据进行清洗,删除一秒钟内浏览新闻数超过20的用户,删除一个月内每天在同一时间在多个平台同时登录账号的用户,删除浏览次数大于用户数的新闻;为每一个字段的缺失值生成一个满足正太分布的随机向量来作为CTR模型的特征隐向量,并让该特征隐向量加上一个0到1的随机数作为扰动因子。根据数据集划分训练集、验证集和测试集操作,具体如下:选取最近一年的数据,统计数据中用户和新闻每天浏览数和点赞数的分布,删除浏览数和点赞数超过平均值3倍的天数,再对剩余数据的负样本通过随机采样的方式进行删除,保证正负样本比为1∶16,最后选择前10个月的数据作为训练集,后2个月的数据作为验证集,线上实时数据作为测试集。对数据构建本文档来自技高网...

【技术保护点】
1.一种基于大数据的个性化新闻推荐方法,其特征在于,包括以下步骤:/n获取历史数据,对数据集进行预处理操作;/n将历史数据中浏览数和点赞数超过平均值3倍的天数删除,对剩余数据的负样本通过随机采样的方式进行删除,保证正负样本比为1:16;/n对数据构建特征工程,建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;/n根据特征的重要性对特征进行选择,保留重要性最高的前50%的特征作为选择的特征;/n根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户。/n

【技术特征摘要】
1.一种基于大数据的个性化新闻推荐方法,其特征在于,包括以下步骤:
获取历史数据,对数据集进行预处理操作;
将历史数据中浏览数和点赞数超过平均值3倍的天数删除,对剩余数据的负样本通过随机采样的方式进行删除,保证正负样本比为1:16;
对数据构建特征工程,建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征;
根据特征的重要性对特征进行选择,保留重要性最高的前50%的特征作为选择的特征;
根据选择的特征建立深度学习模型并进行模型融合操作,利用该模型对实时数据进行预测,将预测的点击率大于0.75的新闻推荐给用户。


2.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法,其特征在于,对数据集进行预处理,具体包括以下步骤:
对异常数据进行清洗,包括删除一秒钟内浏览新闻数超过20的用户,删除一个月内每天在同一时间在多个平台同时登录账号的用户,删除浏览次数大于用户数的新闻;
为每一个字段的缺失值生成一个满足正态分布的随机向量来作为特征隐向量,并让该特征隐向量加上一个0到1的随机数作为扰动因子。


3.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法,其特征在于,用户属性特征至少包括用户的年龄、性别、职业、学历、家乡、用户等级的one-hot特征;用户时序特征用户至少包括最近1、2、3、7、15、30、60、120天内对某个类别的新闻的浏览、点赞、评论、收藏、转发、举报数和停留时长的最大值、最小值、均值、中位数、总和;新闻属性特征至少包括新闻的类别、来源的one-hot特征,以及新闻浏览数、点赞数、评论数、收藏数、转发数、举报数;上下文属性特征至少包括户所处地理位置、天气、用户所用的产品设备、产品版本号的one-hot特征;新闻标题语义特征为将新闻标题输入到XLNet模型来提取新闻标题的语义向量,用CNN模型对语义向量卷积池化来自动提取特征,并输入到全连接层来提取的高阶特征。


4.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法,其特征在于,根据特征的重要性对特征进行选择包括:
使用LightGBM训练模型训练得到每个特征的重要性,得到特征重要性集合w′=(w′1,w′2,...,w′i,...,w′n),其中,w′i表示第i个特征的重要性;
使用Embedding+Attention+Dense神经网络训练模型对特征的重要性训练,一共训练至少m次;
结合LightGBM训练模型训练的重要性和Embedding+Att...

【专利技术属性】
技术研发人员:王进张浩于新龙杨小姜刘彬孙开伟
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1