当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于多Markov链的微博用户兴趣预测方法技术

技术编号:10500052 阅读:122 留言:0更新日期:2014-10-04 16:33
本发明专利技术涉及一种基于多Markov链的微博用户兴趣预测方法,包括以下步骤:1、分别获取q个、p个用户发表的微博作为训练数据、测试数据;2、以用户为单位,对训练数据、测试数据进行预处理,提取每个用户的兴趣特征值;3、将训练数据转化为Markov链,再基于Markov链两两之间的聚类相似度,对Markov链进行合并,然后利用合并后的Markov链建立多Markov链模型;4、对测试数据进行用户分类;5、基于对测试数据分类得到的用户类别,利用多Markov链模型预测用户的兴趣特征。该方法可以有效预测微博用户的兴趣。

【技术实现步骤摘要】
—种基于多Markov链的微博用户兴趣预测方法
本专利技术涉及社交网络信息分析
,特别是涉及。
技术介绍
随着Web2.0技术和无线网络技术的发展,社交网络对人类社会和生活的影响越来越大。微博作为当今流行的一种社交网络平台,它为用户提供了一个实时交流平台。微博用户可以通过电脑或者移动终端关注自己感兴趣的信息,实时地获取各种网络资源,并发表个人观点等。 相关数据显示,我国微博用户数量由2010年底的6311万猛增至2012年6月的 2.74亿,使用率增长近300%,中国网民使用微博的比例已经过半。如此庞大的用户数量群,其知识层次差别很大,所产生的网络信息良莠不齐、形式各异。同时,不同用户的信息需求也不尽相同。
技术实现思路
本专利技术的目的在于提供,该方法可以有效预测微博用户的兴趣。 为实现上述目的,本专利技术的技术方案是:,包括以下步骤:步骤S1:获取q个微博用户发表或转发的微博信息作为训练数据,获取P个微博用户发表或转发的微博信息作为测试数据;步骤S2:以微博用户为单位,对所述训练数据、测试数据进行预处理,从微博用户发表或转发的微博信息中提取每个微博用户对应的η个兴趣特征值,分别转换为文本向量;步骤S3:将所述训练数据对应的q个微博用户作为独立的用户类别,每个微博用户利用其对应的η个兴趣特征值生成一条对应的Markov链,共得到q条Markov链,然后计算所述q条Markov链两两之间的聚类相似度,根据聚类相似度对Markov链进行合并,得到若干条合并后的Markov链,每一条合并后的Markov链对应一类微博用户,利用所有合并后的Markov链建立多Markov链模型;步骤S4:利用最小错误率的贝叶斯判定规则,对所述测试数据对应的P个微博用户进行用户分类;步骤S5:基于步骤S4确定的微博用户的用户类别,利用步骤S3建立的多Markov链模型预测微博用户的兴趣特征。 进一步的,步骤SI中,对训练数据、测试数据进行预处理包括中文分词和停用词处理,中文分词的方法为:采用中文分词系统,结合自定义的用户词典对微博信息进行分词,停用词处理的方法为:采用HashMap快速索引查表法对无用信息进行过滤,从而降低微博信息的噪音。 进一步的,步骤S3中,多Markov链模型的建立方法如下:将多Markov链模型表示为一个四元组:(X,K, p (C),MC);其中,X是一个离散随机变量,值域为Ix1, X2, -,Xi,-, xn},每个Xi对应一个微博用户的兴趣特征值,称为模型的一个状态;K表示多Markov链模型包含的用户类别的数目;C=Ic1, C2,…,C1J表示用户类别,其分布函数P(C)表示不同类别用户的概率分布;MC={mCl,mc2,…,mck}为Markov链的集合,每一个元素mck是描述类别为ck的一类微博用户的兴趣特征值的Markov链;类别为ck的一类微博用户的兴趣特征值的Markov链的转移矩阵Ak和初始状态分布入k分别为:本文档来自技高网...
一种基于多Markov链的微博用户兴趣预测方法

【技术保护点】
一种基于多Markov链的微博用户兴趣预测方法,其特征在于,包括以下步骤:步骤S1:获取q个微博用户发表或转发的微博信息作为训练数据,获取p个微博用户发表或转发的微博信息作为测试数据;步骤S2:以微博用户为单位,对所述训练数据、测试数据进行预处理,从微博用户发表或转发的微博信息中提取每个微博用户对应的n个兴趣特征值,分别转换为文本向量;步骤S3:将所述训练数据对应的q个微博用户作为独立的用户类别,每个微博用户利用其对应的n个兴趣特征值生成一条对应的Markov链,共得到q条Markov链,然后计算所述q条Markov链两两之间的聚类相似度,根据聚类相似度对Markov链进行合并,得到若干条合并后的Markov链,每一条合并后的Markov链对应一类微博用户,利用所有合并后的Markov链建立多Markov链模型;步骤S4:利用最小错误率的贝叶斯判定规则,对所述测试数据对应的p个微博用户进行用户分类;步骤S5:基于步骤S4确定的微博用户的用户类别,利用步骤S3建立的多Markov链模型预测微博用户的兴趣特征。

【技术特征摘要】
1.一种基于多Markov链的微博用户兴趣预测方法,其特征在于,包括以下步骤: 步骤S1:获取q个微博用户发表或转发的微博信息作为训练数据,获取P个微博用户发表或转发的微博信息作为测试数据; 步骤S2:以微博用户为单位,对所述训练数据、测试数据进行预处理,从微博用户发表或转发的微博信息中提取每个微博用户对应的η个兴趣特征值,分别转换为文本向量; 步骤S3:将所述训练数据对应的q个微博用户作为独立的用户类别,每个微博用户利用其对应的η个兴趣特征值生成一条对应的Markov链,共得到q条Markov链,然后计算所述q条Markov链两两之间的聚类相似度,根据聚类相似度对Markov链进行合并,得到若干条合并后的Markov链,每一条合并后的Markov链对应一类微博用户,利用所有合并后的Markov链建立多Markov链模型; 步骤S4:利用最小错误率的贝叶斯判定规则,对所述测试数据对应的P个微博用户进行用户分类; 步骤S5:基于步骤S4确定的微博用户的用户类别,利用步骤S3建立的多Markov链模型预测微博用户的兴趣特征。2.根据权利要求1所述的一种基于多Markov链的微博用户兴趣预测方法,其特征在于,步骤SI中,对训练数据、测试数据进行预处理包括中文分词和停用词处理,中文分词的方法为:采用中文分词系统,结合自定义的用户词典对微博信息进行分词,停用词处理的方法为:采用HashMap快速索引查表法对无用信息进行过滤,从而降低微博信息的噪音。3.根据权利要求1所述的一种基于多Markov链的微博用户兴趣预测方法,其特征在于,步骤S3中,多Markov链模型的建立方法如下: 将多Markov链模型表示为一个四元组:(X,K, p (C),MC); 其中,X是一个离散随机变量,值域为Ix1, X2, -,Xi,-, xn},每个Xi对应一个微博用户的兴趣特征值,称为模型的一个状态;K表示多Markov链模型包含的用户类别的数目;C=Ic1, C2,…,C1J表示用户类别,其分布函数P(C)表示不同类别用户的概率分布;MC={mCl,mc2,…,mck}为Markov链的集合,每一个元素mck是描述类别为ck的一类微博用户的兴趣特征值的Markov链; 类别为ck的一类微博用户的兴趣特征值的Markov链的转移矩阵Ak和初始状态分布入k分别为:其中,Pku表示类别为Ck的一类微博用户的兴趣特征值中兴趣Xi和兴趣\同时出现的概率,Pki表示类别为Ck的一类微博用户的兴趣特征值出现的初始状态分布;采用贝叶斯估计法计算转移矩阵Ak和初始状态分布λ k中的Pku和Pki:其中,α kiJ为超级参数,采用贝叶斯假设确定其值;sku表示类别为Ck的所有用户的兴趣特征值序列中,状态对(Xi, Xj)出现的次数; 聚类相似度定义如下: 对于任意两个转移矩阵A1^A1,设A1^A1的第i行分别为pku、plu,pk1、pii都表示在给定X[t-l]=xi条件下变量X[t]的分布,即P (Xt I Xw= xi),则PpPli的近似...

【专利技术属性】
技术研发人员:郑相涵陈国龙安东云郭文忠於志勇
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1