一种基于大数据的个性化新闻推荐方法及装置制造方法及图纸

技术编号：27656715 阅读：11 留言：0更新日期：2021-03-12 14:19

本发明专利技术涉及自然语言处理，特别涉及一种基于大数据的个性化新闻推荐方法及系统，所述方法包括获取历史数据，对数据集进行预处理操作，并进行预处理；对数据构建特征工程，建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征；根据特征的重要性对特征进行选择，保留重要性最高的前50％的特征作为选择的特征；根据选择的特征建立深度学习模型并进行模型融合操作，利用该模型对实时数据进行预测，将预测的点击率大于0.75的新闻推荐给用户；本发明专利技术可以对海量特征进行有效地特征选择，在保证效果的前提下，能减小特征维度，加快模型的训练时间，提高效率，同时降低对内存的要求。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的个性化新闻推荐方法及装置
本专利技术涉及机器学习、深度学习、自然语言处理、大数据
，特别涉及一种基于大数据的个性化新闻推荐方法及装置。
技术介绍
近年来，互联网的迅猛发展给用户带来了海量的信息，导致了用户在面对海量信息时无法快速有效的获取对自己最有用的信息，使得用户对信息的使用效率大大降低，而个性化推荐系统就是解决该问题的一个有力工具。以新闻资讯产业为例，为了提升用户的阅读体验，提高用户的留存时长，常常利用个性化推荐算法为用户自动推荐最感兴趣的新闻，极大提升用户体验。个性化新闻推荐系统需要利用用户的行为数据，通过分析大量用户行为日志，给用户推荐最可能阅读的新闻，为用户提供个性化服务，以此来提高新闻资讯产品的点击率和转化率。
技术实现思路
为了解决上述问题，本专利技术提出一种基于大数据的个性化新闻推荐方法，如图1，具体包括以下步骤：获取历史数据，对数据集进行预处理操作；将历史数据中浏览数和点赞数超过平均值3倍的天数删除，对剩余数据的负样本通过随机采样的方式进行删除，保证正负样本比为1:16；对数据构建特征工程，建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征；根据特征的重要性对特征进行选择，保留重要性最高的前50％的特征作为选择的特征；根据选择的特征建立深度学习模型并进行模型融合操作，利用该模型对实时数据进行预测，将预测的点击率大于0.75的新闻推荐给用户。进一步的，对数据集进行预处理，具体包括以下...

【技术保护点】
1.一种基于大数据的个性化新闻推荐方法，其特征在于，包括以下步骤：/n获取历史数据，对数据集进行预处理操作；/n将历史数据中浏览数和点赞数超过平均值3倍的天数删除，对剩余数据的负样本通过随机采样的方式进行删除，保证正负样本比为1:16；/n对数据构建特征工程，建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征；/n根据特征的重要性对特征进行选择，保留重要性最高的前50％的特征作为选择的特征；/n根据选择的特征建立深度学习模型并进行模型融合操作，利用该模型对实时数据进行预测，将预测的点击率大于0.75的新闻推荐给用户。/n

【技术特征摘要】
1.一种基于大数据的个性化新闻推荐方法，其特征在于，包括以下步骤：
获取历史数据，对数据集进行预处理操作；
将历史数据中浏览数和点赞数超过平均值3倍的天数删除，对剩余数据的负样本通过随机采样的方式进行删除，保证正负样本比为1:16；
对数据构建特征工程，建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征；
根据特征的重要性对特征进行选择，保留重要性最高的前50％的特征作为选择的特征；
根据选择的特征建立深度学习模型并进行模型融合操作，利用该模型对实时数据进行预测，将预测的点击率大于0.75的新闻推荐给用户。

2.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法，其特征在于，对数据集进行预处理，具体包括以下步骤：
对异常数据进行清洗，包括删除一秒钟内浏览新闻数超过20的用户，删除一个月内每天在同一时间在多个平台同时登录账号的用户，删除浏览次数大于用户数的新闻；
为每一个字段的缺失值生成一个满足正态分布的随机向量来作为特征隐向量，并让该特征隐向量加上一个0到1的随机数作为扰动因子。

3.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法，其特征在于，用户属性特征至少包括用户的年龄、性别、职业、学历、家乡、用户等级的one-hot特征；用户时序特征用户至少包括最近1、2、3、7、15、30、60、120天内对某个类别的新闻的浏览、点赞、评论、收藏、转发、举报数和停留时长的最大值、最小值、均值、中位数、总和；新闻属性特征至少包括新闻的类别、来源的one-hot特征，以及新闻浏览数、点赞数、评论数、收藏数、转发数、举报数；上下文属性特征至少包括户所处地理位置、天气、用户所用的产品设备、产品版本号的one-hot特征；新闻标题语义特征为将新闻标题输入到XLNet模型来提取新闻标题的语义向量，用CNN模型对语义向量卷积池化来自动提取特征，并输入到全连接层来提取的高阶特征。

4.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法，其特征在于，根据特征的重要性对特征进行选择包括：
使用LightGBM训练模型训练得到每个特征的重要性，得到特征重要性集合w′＝(w′1，w′2，...，w′i，...，w′n)，其中，w′i表示第i个特征的重要性；
使用Embedding+Attention+Dense神经网络训练模型对特征的重要性训练，一共训练至少m次；
结合LightGBM训练模型训练的重要性和Embedding+Att...

【专利技术属性】
技术研发人员：王进，张浩，于新龙，杨小姜，刘彬，孙开伟，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人