当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于缺失数据填补的推荐方法和系统技术方案

技术编号:39739415 阅读:10 留言:0更新日期:2023-12-17 23:40
本发明专利技术涉及一种基于缺失数据填补的推荐方法,属于推荐技术领域,解决了现有技术中缺乏完全随机性下的无偏估计,推荐结果不准确的问题

【技术实现步骤摘要】
一种基于缺失数据填补的推荐方法和系统


[0001]本专利技术涉及信息推荐
,尤其涉及一种基于缺失数据填补的推荐方法和系统


技术介绍

[0002]在信息爆炸时代,推荐系统在电子商务平台

社交媒体

新闻阅读等领域扮演着日益重要的角色

然而,由于用户的主观偏好和数据收集过程本身,推荐系统的数据中存在潜在的选择偏差

这是推荐系统的一个重大的挑战

忽视选择偏差会使推荐系统难以向用户提供有质量的和准确的推荐内容,从而损害了用户体验并减少了社会效益

[0003]以往的研究已经提出了许多方法来解决选择偏差

比如基于误差插补的方法利用插补模型来填补丢失的评分

然而,在实践中,由于数据稀疏性和选择偏差的存在,很难获得准确的丢失评分的插补值

基于逆概率加权方法使用倒数倾向来重新加权观察到的数据以实现无偏

然而,由于数据稀疏性,很难估计准确的倾向得分,并且通常伴随着极小的值,这导致逆概率加权方法的方差较大,性能较差

基于双稳健方法
(Doubly Robust,DR)
是主流方法,也是如今推荐系统去除选择偏差最常用的模型之一,它将误差插补模型和倾向模型结合在一起

[0004]然而,基于
DR
的方法都隐含地假设部分随机性,即只认为评分是否缺失这个指标具有随机性

在这个假设下,之前的基于
DR
的方法将能够无偏的估计真正的损失

然而,这个假设是不合理的

这一假设意味着倾向模型和插补误差模型都是确定性的模型,并且认为用户对物品的评分也是确定性的

由于评分是否缺失这个指标具有随机性,因此应考虑学到的倾向得分模型的随机性

此外,由于评分是否缺失这个指标和用户对物品的评分都将被用户的协变量影响,而协变量的收集过程本身具有随机性,所以用户对物品的评分也应该具有随机性,这也导致在给定特征时,插补误差模型具有随机性


技术实现思路

[0005]鉴于上述的分析,本专利技术实施例旨在提供一种基于缺失数据填补的推荐方法和系统,用以解决现有完全随机性下
DR
方法无法无偏估计理想损失,导致推荐结果不准确的问题

[0006]一方面,本专利技术实施例提供了一种基于缺失数据填补的推荐方法,包括以下步骤:
[0007]获取用户数据

物品数据,以及观测到的用户对物品的评价数据,构建训练样本集;
[0008]构建平衡增强数据插补模型和评价预测模型,基于所述训练样本集对所述平衡增强数据插补模型和评价预测模型进行联合训练,得到训练好的评价预测模型;
[0009]基于训练好的评价预测模型对未观测到的用户对物品的评价数据进行预测,基于用户对物品的评价数据进行推荐

[0010]基于上述方法的进一步改进,采用以下公式计算平衡增强数据插补模型的损失
[0011][0012][0013][0014]其中,表示平衡增强数据插补模型输出的第
u
个用户对第
i
个物品的评价的插补结果,表示评价预测模型预测的第
u
个用户对第
i
个物品的评价预测结果,
r
u,i
表示第
u
个用户对第
i
个物品的真实评价结果,
L(
·
,
·
)
表示损失函数,
o
u,i
表示是否观测到第
u
个用户对第
i
个物品的评价数据,表示预测的第
u
个用户对第
i
个物品有评价的概率,表示训练样本集中的用户

物品对,表示训练样本集中用户

物品对的数量,
||
·
||
F
表示
Frobenius
范数,
φ

ε
表示平衡增强数据插补模型的参数,
v
表示超参数

[0015]基于上述方法的进一步改进,采用以下公式计算评价预测模型的损失
[0016][0017][0018][0019]其中,表示平衡增强数据插补模型输出的第
u
个用户对第
i
个物品的评价的插补结果,表示评价预测模型预测的第
u
个用户对第
i
个物品的评价预测结果,
r
u,i
表示第
u
个用户对第
i
个物品的真实评价结果,
L(
·
,
·
)
表示损失函数,
o
u,i
表示是否观测到第
u
个用户对第
i
个物品的评价数据,表示预测的第
u
个用户对第
i
个物品有评价的概率,表示训练样本集中的用户

物品对,表示训练样本集中用户

物品对的数量,
||
·
||
F
表示
Frobenius
范数,
θ
表示评价预测模型的参数,
ε
表示平衡增强数据插补模型的参数,
v
表示超参数

[0020]基于上述方法的进一步改进,基于所述训练样本集对所述平衡增强数据插补模型和评价预测模型进行联合训练,包括:
[0021]S21、
将评价预测模型的参数固定,基于观察到评价数据的用户数据和物品数据以及预测模型的预测结果训练平衡增强数据插补模型的参数;
[0022]S22、
将平衡增强数据插补模型的参数固定,基于平衡增强数据插补模型的插补结果训练评价预测模型;
[0023]S23、
交替进行步骤
S21
和步骤
S22
直至评价预测模型收敛,结束训练

[0024]基于上述方法的进一步改进,所述预测的第
u
个用户对第
i
个物品有评价的概率
采用以下方式得到:
[0025]从训练样本集中提取观察到评价数据的用户数据和物品数据,提取用户

物品对的特征
x
u,i

[0026]假设预测的第
u
个用户对第
i
个物品有评价的概率表示为表示为为:
[0027][0028]采用最大似然估计得到偏本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于缺失数据填补的推荐方法,其特征在于,包括以下步骤:获取用户数据

物品数据,以及观测到的用户对物品的评价数据,构建训练样本集;构建平衡增强数据插补模型和评价预测模型,基于所述训练样本集对所述平衡增强数据插补模型和评价预测模型进行联合训练,得到训练好的评价预测模型;基于训练好的评价预测模型对未观测到的用户对物品的评价数据进行预测,基于用户对物品的评价数据进行推荐
。2.
根据权利要求1所述的基于缺失数据填补的推荐方法,其特征在于,采用以下公式计算平衡增强数据插补模型的损失算平衡增强数据插补模型的损失算平衡增强数据插补模型的损失算平衡增强数据插补模型的损失其中,表示平衡增强数据插补模型输出的第
u
个用户对第
i
个物品的评价的插补结果,表示评价预测模型预测的第
u
个用户对第
i
个物品的评价预测结果,
r
u,i
表示第
u
个用户对第
i
个物品的真实评价结果,
L(
·
,
·
)
表示损失函数,
o
u,i
表示是否观测到第
u
个用户对第
i
个物品的评价数据,表示预测的第
u
个用户对第
i
个物品有评价的概率,表示训练样本集中的用户

物品对,表示训练样本集中用户

物品对的数量,
||
·
||
F
表示
Frobenius
范数,
φ

ε
表示平衡增强数据插补模型的参数,
v
表示超参数
。3.
根据权利要求1所述的基于缺失数据填补的推荐方法,其特征在于,采用以下公式计算评价预测模型的损失算评价预测模型的损失算评价预测模型的损失算评价预测模型的损失其中,表示平衡增强数据插补模型输出的第
u
个用户对第
i
个物品的评价的插补结果,表示评价预测模型预测的第
u
个用户对第
i
个物品的评价预测结果,
r
u,i
表示第
u
个用户对第
i
个物品的真实评价结果,
L(
·
,
·
)
表示损失函数,
o
u,i
表示是否观测到第
u
个用户对第
i
个物品的评价数据,表示预测的第
u
个用户对第
i
个物品有评价的概率,表示训练样本集中的用户

物品对,表示训练样本集中用户

物品对的数量,
||
·
||
F
表示
Frobenius
范数,
θ
表示评价预测模型的参数,
ε
表示平衡增强数据插补模型的参数,
v
表示超参数

4.
根据权利要求1所述的基于缺失数据填补的推荐方法,其特征在于,基于所述训练样本集对所述平衡增强数据插补模型和评价预测模型进行联合训练,包括:
S21、
将评价预测模型的参数固定,基于观察到评价数据的用户数据和物品数据以及预测模型的预测结果训练平衡增强数据插补模型的参数;
S22、
将平衡增强数据插补模型的参数固定,基于平衡增强数据插补模型的插补结果训练评价预测模型;
S23、
交替进行步骤
S21
和步骤
S22
直至评价预测模型收敛,结束训练
。5.
根据权利要求2或3所述的基于缺失数据填补的推荐方法,其特征在于,所述预测的第
u
个用户对第
i
个物品有评价的概率采用以下方式得到:从训练样本集中提取观察到评价数据的用户数据和物品数据,提取用户

物品对的特征
x
u,i
;假设预测的第
u
个用户对第
i
个物品有评价的概率表示为表示为为:采用最大似然估计得到偏回归系数
β
的最大似然估计值,得到观测概率计算公式;提取训练样本中的每个用户

物品对的特征输入观测概率计算公式得到每个用户

物品对观测到评价的概率
。6.
一种基于缺失数...

【专利技术属性】
技术研发人员:周晓华李昊轩郑淳元
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1