一种面向用户兴趣的个性化消息推荐系统的构建方法技术方案

技术编号:39639240 阅读:20 留言:0更新日期:2023-12-09 11:01
本发明专利技术属于计算机科学与应用领域,提供一种面向用户兴趣的个性化消息推荐系统的构建方法

【技术实现步骤摘要】
一种面向用户兴趣的个性化消息推荐系统的构建方法


[0001]本专利技术属于计算机科学与应用领域,本专利技术公开一种面向用户兴趣的个性化消息推荐系统的构建方法


技术介绍

[0002]近期,随着互联网的发展,越来越多的信息充斥着人们的生活,信息过载问题使得人们很难在大量的信息中获取自己需要的信息

个性化推荐系统作为解决信息过载问题的重要工具被广泛的应用在现实生活的各个方面,例如,淘宝商品推荐

抖音视频推荐,消息推荐等等

消息推荐系统是一种通过分析用户的兴趣和行为,将符合用户兴趣的消息内容推荐给用户的技术

随着互联网和移动设备的普及,人们获取消息的方式发生了巨大变化

然而,面对海量的消息内容,用户往往难以找到自己感兴趣的消息

传统的消息推荐系统主要基于用户的历史点击和简单的规则进行推荐,无法真正满足用户的个性化需求

[0003]现有的个性化消息推荐方法对于消息文本特的内容征的提取十分充分,但是,在用户阅读消息时,短时间内很难发现自己感兴趣,对自己有价值的信息

消息除了与消息文本密切相关之外,还与用户关注的话题密切相关,例如,当某个关注的话题突然发生了一个大事件,此条消息可能会引起用户的持续关注

用户关注的话题不同,消息也会不同

因此,构建充分挖掘消息内容

了解用户偏好对提升消息推荐系统的性能十分重要

[0004]针对现阶段消息推荐系统的构建问题,目前亟需一种面向用户兴趣的个性化消息推荐系统构建方法,对后续进一步研究消息推荐系统的构建,深入探究用户对于消息的兴趣偏好,挖掘有价值的消息,具有非常重要的使用价值


技术实现思路

[0005]针对传统的消息推荐系统,主要通过用户的历史点击和简单的规则进行推荐,无法真正的满足用户的个性化需求的问题,本专利技术提出了一种面向用户兴趣的个性化消息推荐系统的构建方法

[0006]具体步骤如下:
[0007](10)
进行数据采集,获取消息内容中的具体信息

如标签

标题

摘要

正文等

[0008]通过
python
的爬虫技术或调用现有的
API
接口等方式,采集与消息内容的相关信息,包括标签

标题

正文

摘要等

[0009](20)
建立用户的兴趣模型,通过分析用户的藏和评论

历史浏览记录

收藏和评论等数据,进行用户兴趣建模

[0010]建立多用户特征网络,生成多用户兴趣特征向量
s
,同时对于采集到的每一条消息数据,通过多用户角度的用户特征网络生成其多用户消息向量
n
;将获得的多用户兴趣特征向量
s
和多用户消息向量
n
通过内积运算,得到用户对消息的点击率,公式如下:
[0011][0012](30)
提取内容特征,对采集到的消息进行文本预处理,如分词

词性标注

关键词
提取等

通过提取消息的关键特征和内容特征,为后续的推荐算法提供有效的输入

[0013](31)
去除文本中的特殊符号,将文本切分成词语的序列,可以使用
Jieba
库这种分词工具,也可以自定义规则进行分词

去文本中除常用的停用词,如“的”、“是”、“吗”等,将不是原本意思的词语还原,以减少句子中词语的形式变换

[0014](32)
采用
TF

IDF
模型过滤掉句子中常见的词语,提取经过文本处理后的句子中的特征词
。TF

IF
的表达式为:
[0015]TF

IDF

TF*IDF
[0016]其中
TF
表示词语在消息文本中出现的频率,
TF
的表达式为:
[0017][0018]其中,
n
i

j
表示词语
t
i
在文本
d
j
中出现的次数,
TF
i

j
就是表示词语
t
i
在文本
d
j
中出现的频率

[0019]IDF
表示关键词的在消息文本中的出现的普遍程度,
IDF
的表达式为:
[0020][0021]其中,
|D|
表示所有的消息文本数量,
|j

t
i
∈d
j
|
表示包含词语
ti
的文本数量

[0022](33)
将提取的消息文本特征转化为机器学习的可接受输入形式,如向量或矩阵,如使用稀疏矩阵表示

用每一行表示一个消息文本,每一列表示一个特征词,用矩阵中对应位置的特征值表证特征词的出现频率以及
TF

IDF
的权重

[0023]其中稀疏矩阵的表达式如下:
[0024][0025](34)
通过特征归一化函数,对所有特征值进行归一化处理,将特征值放缩到
[0

1]范围内

[0026][0027]其中,
x
表示原始特征向量,
x
°
表示归一化特征向量,
||x||
表示特征向量
x
的范数

[0028](40)
计算消息之间的相似度,找到与用户兴趣相匹配的消息

[0029](41)
采用词袋模型的特征表示方法,将消息文本转变成词向量,统计每个词在消息中的出现次数

词袋模型的计算公式如下:
[0030]TF(w

d)

count(w

d)
[0031]其中,
w
表示词语,
d
便是消息文本,
count(w

d)
表示词语
w
,在消息文本
d
中出现的次数

[0032](42)
根据词袋模型的特征表示方法,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向用户兴趣的个性化消息推荐系统的构建方法,其特征在于,所述方法的步骤如下:
(10)
进行数据采集,获取消息内容中的具体信息

如标签

标题

摘要

正文等
。(20)
建立用户的兴趣模型,通过分析用户的收藏和评论

历史浏览记录

收藏和评论等数据,进行用户兴趣建模
。(30)
提取消息内容特征,对消息内容进行文本预处理,如分词

关键词提取等操作

通过提取消息的关键特征和内容特征,为后续的推荐算法提供有效的语料
。(40)
计算消息之间的相似度,找到与用户兴趣相匹配的消息
。(50)
用户兴趣匹配,根据用户的兴趣模型和消息的内容特征,将消息与用户进行匹配
。2.
根据权利要求1所述的一种面向用户兴趣的个性化消息推荐系统的构建方法,所述
(10)
具体步骤为:通过
python
的爬虫技术或调用现有的
API
接口等方式,获取消息内容中的具体信息,包括标签

标题

正文

摘要等
。3.
根据权利要求1所述的一种面向用户兴趣的个性化消息推荐系统的构建方法,其特征在于,所述
(20)
具体步骤为:建立多用户特征网络,生成多用户兴趣特征向量
s
,同时对于采集到的每一条消息数据,通过多用户角度的用户特征网络生成其多用户消息向量
n
;将获得的多用户兴趣特征向量
s
和多用户消息向量
n
通过内积运算,得到用户对消息的点击率,公式如下:
4.
根据权利要求1所述的一种面向用户兴趣的个性化消息推荐系统的构建方法,其特征在于,所述
(30)
具体步骤为:
(31)
去除文本中的特殊符号,将文本切分成词语的序列,可以使用
Jieba
库这种分词工具,也可以自定义规则进行分词

去文本中除常用的停用词,如“的”、“是”、“吗”等,将不是原本意思的词语还原,以减少句子中词语的形式变换
。(32)
采用
TF

IDF
模型过滤掉句子中常见的词语,提取经过文本处理后的句子中的特征词
。TF

IF
的表达式为:
TF

IDF

TF*IDF
其中
TF
表示词语在消息文本中出现的频率,
TF
的表达式为:其中,
n
i

j
表示词语
t
i
在文本
d
j
中出现的次数,
TF
i

j
就是表示词语
t
i
在文本
d
j
中出现的频率
。IDF
表示关键词在消息文本中的出现的普遍程度,
IDF
的表达式为:其中,
|D|
表示所有的消息文本数量,
|j

t
i
∈dj|
表示包含词语
ti
的文本数量
。(33)
将提取的消息文本特征转化为机器学习的可接受输入形式,如向量或矩阵,如使用稀疏矩阵表示

用每一行表示一个消息文本,每一列表示一个特征词,用矩阵中对应位置的特征值表证特征词的出现频率以及
TF

IDF<...

【专利技术属性】
技术研发人员:朱文博陈剑周文宇
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1