信息推荐方法、研报信息评分预测模型的训练方法及装置制造方法及图纸

技术编号:36846649 阅读:13 留言:0更新日期:2023-03-15 16:34
本申请提供一种信息推荐方法、研报信息评分预测模型的训练方法、装置、设备及存储介质。涉及机器学习技术领域。其中,该方法包括:获取目标对象的行为序列,并将行为序列划分为多个会话信息;对每个会话信息进行编码处理,得到每个会话信息的第一特征向量对多个会话信息的多个第一特征向量进行行为之间时间距离特征提取,以获得第二特征向量;基于多头自注意力机制,对第二特征向量进行真实意图的空间距离特征提取,以获得目标对象的偏好向量;根据偏好向量,从至少一个候选研报信息之中获取目标对象的研报信息推荐列表,并将研报信息推荐列表推荐给目标对象。本申请的方法,可以提高推荐结果的准确性。推荐结果的准确性。推荐结果的准确性。

【技术实现步骤摘要】
信息推荐方法、研报信息评分预测模型的训练方法及装置


[0001]本申请涉及机器学习
,尤其涉及一种信息推荐方法、研报信息评分预测模型的训练方法及装置。

技术介绍

[0002]相关技术中,对用户进行信息推荐的主要根据用户在相应环境中的浏览或操作信息获取用户偏好。以预测用户对未访问过的项目的偏好程度并进行推荐。常见的基于用户行为的推荐方法可以分为两大类,分别是基于显式反馈行为推荐和基于隐式反馈行为推荐。
[0003]在基于显式反馈推荐中使用频率较高的协同过滤算法主要基于对用户历史行为数据的挖掘,发现用户的兴趣爱好,再基于不同的兴趣爱好对用户进行划分并推荐兴趣相同或相似的结果推荐给用户。但是存在特征向量稀疏性和冷启动等问题,但该算法仅针对静态的输入项目信息进行建模,忽略了用户兴趣可能随着时间变化而变化的事实,因而无法捕获用户的动态兴趣变化,因此推荐的结果过于片面和单一。
[0004]基于隐式反馈推荐主要基于用户的历史行为序列计算用户偏好,并基于时序性的上下文信息,记录用户在一段时间内的兴趣变化的元数据,因此相较于只使用静态特征的协同过滤算法,该算法可以提高推荐结果的精准性。但是现实中用户的所谓积极行为并不一定对应有效的积极结果。例如用户浏览时长很久,但是实际结果却不感兴趣。因此缺乏显式的负例会导致过大的噪声,对推荐结果产生负面影响。

技术实现思路

[0005]本申请提供一种信息推荐方法、研报信息评分预测模型的训练方法、装置、设备及存储介质,可以提高推荐结果的准确性,并能够获得更丰富的推荐列表。
[0006]第一方面,本申请提供一种信息推荐方法,包括:获取目标对象的行为序列,并将所述行为序列划分为多个会话信息;其中,所述行为序列中包括至少一个行为信息,每个所述行为信息为所述目标对象针对研报信息的行为数据;对每个所述会话信息进行编码处理,得到每个所述会话信息的第一特征向量;对所述多个会话信息的多个第一特征向量进行行为之间时间距离特征提取,以获得第二特征向量;基于多头自注意力机制,对所述第二特征向量进行真实意图的空间距离特征提取,以获得所述目标对象的偏好向量;根据所述偏好向量,从至少一个候选研报信息之中获取所述目标对象的研报信息推荐列表,并将所述研报信息推荐列表推荐给所述目标对象。
[0007]在一种实现方式中,所述对所述多个会话信息的多个第一特征向量进行行为之间时间距离特征提取,以获得第二特征向量,包括:基于预设的独立时间间隔门控循环单元,对所述多个会话信息的多个第一特征向量进行行为之间时间距离的特征提取,以获得所述第二特征向量;其中,所述独立时间间隔门控循环单元为加入时间门单独存储时间间隔信息的门控循环单元结构。
[0008]在一种可选地实现方式中,所述独立时间间隔门控循环单元计算过程如下表示:
[0009]T
n
=(e
t
U
t
+(ΔtD
t
)+)
[0010]g
t
=anh(e
t
U
g
+(w
t
‑1⊙
z
t

T
n
)
g
)+
[0011]w
t
=(1

t
)

w
t
‑1+
t

g
t
[0012]其中,σ为S型函数,Δt为行为序列与当前时间的时间间隔,为预设的向量激活参数,e
t
为当前时刻的行为序列时间间隔隐藏状态,z
t
为重置门,r
t
为更新门,U
t
、U
g
、D
t
和D
g
为预设的参数矩阵,g
t
为当前时刻的行为序列时间间隔候选隐藏状态,

为同或运算符号;D
t
、D
g
∈R,且D
t
≤0,T
n
表示时间门,其含义是时间间隔对所述独立时间间隔门控循环单元的影响;其中,r
t
和T
n
同时控制着当前时刻行为序列的隐藏状态e
t
,并为接近的历史行为赋予更大的权重占比。
[0013]在一种实现方式中,所述基于多头自注意力机制,对所述第二特征向量进行真实意图的空间距离特征提取,以获得所述目标对象的偏好向量,包括:基于多头自注意力机制和所述第二特征向量,获取每个注意力头输出的自注意力值;根据每个所述注意力头输出的自注意力值和所述第二特征向量,获取每个所述注意力头的权重占比;根据每个所述注意力头的自注意力值和每个所述注意力头的权重占比,获取所述目标对象的偏好向量。
[0014]在一种可选地实现方式中,每个所述注意力头的权重占比的计算公式表示如下:
[0015][0016]其中,β
k
为第k个所述注意力头的权重占比,t为所述注意力头的总个数,为第k个所述注意力头输出的自注意力值的转置,e
u
为所述第二特征向量。
[0017]在一种可选地实现方式中,所述根据每个所述注意力头的自注意力值和每个所述注意力头的权重占比,获取所述目标对象的偏好向量,包括:将每个所述注意力头的自注意力值与其对应的权重占比进行加权求和,得到所述目标对象的偏好向量。
[0018]在一种实现方式中,所述根据所述偏好向量,从至少一个候选研报信息之中获取所述目标对象的研报信息推荐列表,包括:获取至少一个候选研报信息和每个所述候选研报信息的向量;根据所述偏好向量和每个所述候选研报信息的向量,获取每个所述候选研报信息的评分预测值;根据每个所述候选研报信息的评分预测值,从所述至少一个候选研报信息之中获取所述目标对象的研报信息推荐列表。
[0019]在一种可选地实现方式中,每个所述候选研报信息的评分预测值的计算公式表示如下:
[0020][0021]其中,y
ui
为第i个所述候选研报信息的评分预测值,f
u
为所述偏好向量,e
i
为第i个所述候选研报信息的向量,a
u
为行为偏置项,a
i
为候选研报信息偏置项,W为预先训练好的权重矩阵。
[0022]第二方面,本申请提供一种研报信息评分预测模型的训练方法,所述研报信息评分预测模型适用于如第一方面所述的信息推荐方法,所述训练方法包括:获取样本对象的行为序列,并将所述行为序列划分为多个会话信息;其中,所述行为序列中包括至少一个行为信息,每个所述行为信息为所述样本对象针对研报信息的行为数据;将所述多个会话信
息输入至初始的研报信息评分预测模型;其中,所述研报信息评分预测模型包括编码模块、时间距离特征提取模块、真实意图的空间距离特征提取模块和预测模块;基于所述编码模块对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息推荐方法,其特征在于,包括:获取目标对象的行为序列,并将所述行为序列划分为多个会话信息;其中,所述行为序列中包括至少一个行为信息,每个所述行为信息为所述目标对象针对研报信息的行为数据;对每个所述会话信息进行编码处理,得到每个所述会话信息的第一特征向量;对所述多个会话信息的多个第一特征向量进行行为之间时间距离特征提取,以获得第二特征向量;基于多头自注意力机制,对所述第二特征向量进行真实意图的空间距离特征提取,以获得所述目标对象的偏好向量;根据所述偏好向量,从至少一个候选研报信息之中获取所述目标对象的研报信息推荐列表,并将所述研报信息推荐列表推荐给所述目标对象。2.如权利要求1所述的方法,其特征在于,所述对所述多个会话信息的多个第一特征向量进行行为之间时间距离特征提取,以获得第二特征向量,包括:基于预设的独立时间间隔门控循环单元,对所述多个会话信息的多个第一特征向量进行行为之间时间距离的特征提取,以获得所述第二特征向量;其中,所述独立时间间隔门控循环单元为加入时间门单独存储时间间隔信息的门控循环单元结构。3.如权利要求2所述的方法,其特征在于,所述独立时间间隔门控循环单元计算过程如下表示:T
n
=(e
t
U
t
+(ΔtD
t
)+)g
t
=anh(e
t
U
g
+(w
t
‑1⊙
z
t

T
n
)
g
)+w
t
=(1

t
)

w
t
‑1+
t

g
t
其中,σ为S型函数,Δt为行为序列与当前时间的时间间隔,a为预设的向量激活参数,
t
为当前时刻的行为序列时间间隔隐藏状态,z
t
为重置门,r
t
为更新门,U
t
、U
g
、D
t
和D
g
为预设的参数矩阵,g
t
为当前时刻的行为序列时间间隔候选隐藏状态,

为同或运算符号;D
t
、D
g
∈R,且d
t
≤0,T
n
表示时间门,其含义是时间间隔对所述独立时间间隔门控循环单元的影响;其中,r
t
和T
n
同时控制着当前时刻行为序列的隐藏状态e
t
,并为接近的历史行为赋予更大的权重占比。4.如权利要求1所述的方法,其特征在于,所述基于多头自注意力机制,对所述第二特征向量进行真实意图的空间距离特征提取,以获得所述目标对象的偏好向量,包括:基于多头自注意力机制和所述第二特征向量,获取每个注意力头输出的自注意力值;根据每个所述注意力头输出的自注意力值和所述第二特征向量,获取每个所述注意力头的权重占比;根据每个所述注意力头的自注意力值和每个所述注意力头的权重占比,获取所述目标对象的偏好向量。5.如权利要求4所述的方法,其特征在于,每个所述注意力头的权重占比的计算公式表示如下:
其中,β
k
为第k个所述注意力头的权重占比,t为所述注意力头的总个数,为第k个所述注意力头输出的自注意力值的转置,e
u
为所述第二特征向量。6.如权利要求4或5所述的方法,其特征在于,所述根据每个所述注意力头的自注意力值和每个所述注意力头的权重占比,获取所述目标对象的偏好向量,包括:将每个所述注意力头的自注意力值与其对应的权重占比进行加权求和,得到所述目标对象的偏好向量。7.如权利要求1所述的方法,其特征在于,所述根据所述偏好向量,从至少一个候选研报信息之中获取所述目标对象的研报信息推荐列表,包括:获取至少一个候选研报信息和每个所述候选研报信息的向量;根据所述偏好向量和每个所述候选研报信息的向量,获取每个所述候选研报信息的评分预测值;根据每个所述候选研报信息的评分预测值,从所述至少一个候选研报信息之中获取所述目标对象的研报信息推荐列表。8.如权利要求7所述的方法,其特征在于,每个所述候选研报信息的评分预测值的计算公式表示如下:其中,y
ui
为第i个所述候选研报信息的评分预测值,f
u
为所述偏好向量,e
i
为第i个所述候选研报信息的向量,a
u
为行为偏置项,a
i
为候选研报信息偏置项,W为预先训练好的权重矩阵。9.一种研报信息评分预测模型的训练方法,其特征在于,所述研报信息评分预测模型适用于如权利要求1至8中任一项所述的信息推荐方法,所述训练方法包括:获取样本对象的行为序列,并将所述行为序列划分为多个会话信息;其中,所述行为序列中包括至少一个行为信息,每个所述行为信息为所述样本对象针对研报信息的行为数据;将所述多个会话信息输入至初始的研报信息评分预测模型;其中,所述研报信息评分预测模型包括编码模块、时间距离特征提取模块、真实意图的空间距离特征提取模块和预测模块;基于所述编码模块对每个所述会话信息进行编码处理,得到每个所述会话信息的第一特征向量;基于所述时间距离特征提取模块对所述多个会话信息的多个第一特征向量进行行为之间时间距离特征提取,以获得第二特征向量;基于所述真实意图的空间距离特征提取模块,采用多头自注意力机制,对所述第二特征向量进行真实意图的空间距离特征提取,以获得所述样本对象的偏好向量;将所述偏好向量发送至所述预测模块,以获得每个候选研报信息的评分预测值,并根据每个所述候选研报信息的评分预测值对所述研报信息评分预测模型进行训练。10.如权利要求9所述的方法,其特征在于,所述时间距离特征提取模块包括独立时间
间隔门控循环单元;其中,所述独立时间间隔门控循环单元计算过程如下表示:T
n
=(e
t
U
t
+(ΔtD
t
)+)g
t
=anh(e
t
U
g
+(w
t
‑1⊙
z
t

T
n
)
g
)+w
t
=(1

t
)

w
t
‑1+
t

g
t
其中,σ为S型函数,Δt为行为序列与当前时间的时间间隔,为预设的向量激活参数,
t
为当前时刻的行为序列时间间隔隐藏状态,z
t
为重置门,r
t
为更新门,U
t
、U
g
、D
t
和D
g
为预设的参数矩阵,g
t
为当前时刻的行为序列时间间隔候选隐藏状态,

为同或运算符号;D
t
、D
g
∈R,且D
t
≤0,T
n
表示时间门,其含义是时间间隔对所述独立时间间隔门控循环单元的影响;其中,r
t
和T
n
同时控制着当前时刻行为序列的隐藏状态e
t
,并为接近的历史行为赋予更大的权重占比。11.如权利要求9所述的方法,其特征在于,所述基于所述真实意图的空间距离特征提取模块,采用多头自注意力机制,对所述第二特征向量进行真实意图的空间距离特征提取,以获得所述样本对象的偏好向量,包括:通过所述真实意图的空间距离特征提取模块,基于多头自注意力机制和所述第二特征向量,获取每个注意力头输出的自注意力值,并根据每个所述注意力头输出的自注意力值和所述第二特征向量,获取每个所述注意力头的权重占比,以及根据每个所述注意力头的自注意力值和每个所述注意力头的权重占比,获取所述目标对象的偏好向量。12.如权利要求9至11中任一项所述的方法,其特征在于,所述预测模块的公式表示如下:其中,y
ui
为所述预测模块输出的第i个所述候选研报信息的评分预测值,f
u
为所述偏好向量,e
i
为第i个所述候选研报信息的向量,a
u
为行为偏置项,a
i
为候选研报信息偏置项,W为待训练的权重矩阵。13.如权利要求9所述的方法,其特征在于,所述根据每个所述候选研报信息的评分预测值对所述研报信息评分预测模型进行训练,包括:采用预设的交叉损失函数,根据每个所述候选研报信息的评分预测值计算所述研报信息评分预测模型的交叉损失函数;将所述交叉损失函数作为目标函数,并采用随机梯度下降算法优化所述目标函数,运用误差反向传播算法更新所述研报信息评分预测模型的模型参数。14.一种信息推荐装置,其特征在于,包括:处理模块,用于获取目标对象的行为序列,并将所述行为序列划分为多个会话信息;其中,所述行为序列中包括至少一个行为信息,每个所述行为信息为所述目标对象针对研报信息的行为数据;编码模块,用...

【专利技术属性】
技术研发人员:王荣烨林妙真何易超朱富荣景莉康楠李博尊
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1