一种基于多Markov链的微博用户兴趣预测方法技术

技术编号：10500052 阅读：134 留言：0更新日期：2014-10-04 16:33

本发明专利技术涉及一种基于多Markov链的微博用户兴趣预测方法，包括以下步骤：1、分别获取q个、p个用户发表的微博作为训练数据、测试数据；2、以用户为单位，对训练数据、测试数据进行预处理，提取每个用户的兴趣特征值；3、将训练数据转化为Markov链，再基于Markov链两两之间的聚类相似度，对Markov链进行合并，然后利用合并后的Markov链建立多Markov链模型；4、对测试数据进行用户分类；5、基于对测试数据分类得到的用户类别，利用多Markov链模型预测用户的兴趣特征。该方法可以有效预测微博用户的兴趣。

全部详细技术资料下载

【技术实现步骤摘要】
—种基于多Markov链的微博用户兴趣预测方法
本专利技术涉及社交网络信息分析
，特别是涉及。
技术介绍
随着Web2.0技术和无线网络技术的发展，社交网络对人类社会和生活的影响越来越大。微博作为当今流行的一种社交网络平台，它为用户提供了一个实时交流平台。微博用户可以通过电脑或者移动终端关注自己感兴趣的信息，实时地获取各种网络资源，并发表个人观点等。相关数据显示，我国微博用户数量由2010年底的6311万猛增至2012年6月的 2.74亿，使用率增长近300%，中国网民使用微博的比例已经过半。如此庞大的用户数量群，其知识层次差别很大，所产生的网络信息良莠不齐、形式各异。同时，不同用户的信息需求也不尽相同。
技术实现思路
本专利技术的目的在于提供，该方法可以有效预测微博用户的兴趣。为实现上述目的，本专利技术的技术方案是:，包括以下步骤:步骤S1:获取q个微博用户发表或转发的微博信息作为训练数据，获取P个微博用户发表或转发的微博信息作为测试数据；步骤S2:以微博用户为单位，对所述训练数据、测试数据进行预处理，从微博用户发表或转发的微博信息中提取每个微博用户对应的η个兴趣特征值，分别转换为文本向量；步骤S3:将所述训练数据对应的q个微博用户作为独立的用户类别，每个微博用户利用其对应的η个兴趣特征值生成一条对应的Markov链,共得到q条Markov链,然后计算所述q条Markov链两两之间的聚类相似度，根据聚类相似度对Markov链进行合并,得到若干条合并后的Markov链，每一条合并后的Markov链对应一类...
一种基于多Markov链的微博用户兴趣预测方法

【技术保护点】
一种基于多Markov链的微博用户兴趣预测方法，其特征在于，包括以下步骤：步骤S1：获取q个微博用户发表或转发的微博信息作为训练数据，获取p个微博用户发表或转发的微博信息作为测试数据；步骤S2：以微博用户为单位，对所述训练数据、测试数据进行预处理，从微博用户发表或转发的微博信息中提取每个微博用户对应的n个兴趣特征值，分别转换为文本向量；步骤S3：将所述训练数据对应的q个微博用户作为独立的用户类别，每个微博用户利用其对应的n个兴趣特征值生成一条对应的Markov链，共得到q条Markov链，然后计算所述q条Markov链两两之间的聚类相似度，根据聚类相似度对Markov链进行合并，得到若干条合并后的Markov链，每一条合并后的Markov链对应一类微博用户，利用所有合并后的Markov链建立多Markov链模型；步骤S4：利用最小错误率的贝叶斯判定规则，对所述测试数据对应的p个微博用户进行用户分类；步骤S5：基于步骤S4确定的微博用户的用户类别，利用步骤S3建立的多Markov链模型预测微博用户的兴趣特征。

【技术特征摘要】
1.一种基于多Markov链的微博用户兴趣预测方法，其特征在于，包括以下步骤: 步骤S1:获取q个微博用户发表或转发的微博信息作为训练数据，获取P个微博用户发表或转发的微博信息作为测试数据；步骤S2:以微博用户为单位，对所述训练数据、测试数据进行预处理，从微博用户发表或转发的微博信息中提取每个微博用户对应的η个兴趣特征值，分别转换为文本向量；步骤S3:将所述训练数据对应的q个微博用户作为独立的用户类别，每个微博用户利用其对应的η个兴趣特征值生成一条对应的Markov链,共得到q条Markov链,然后计算所述q条Markov链两两之间的聚类相似度，根据聚类相似度对Markov链进行合并,得到若干条合并后的Markov链，每一条合并后的Markov链对应一类微博用户，利用所有合并后的Markov链建立多Markov链模型；步骤S4:利用最小错误率的贝叶斯判定规则，对所述测试数据对应的P个微博用户进行用户分类；步骤S5:基于步骤S4确定的微博用户的用户类别，利用步骤S3建立的多Markov链模型预测微博用户的兴趣特征。2.根据权利要求1所述的一种基于多Markov链的微博用户兴趣预测方法，其特征在于，步骤SI中，对训练数据、测试数据进行预处理包括中文分词和停用词处理，中文分词的方法为:采用中文分词系统，结合自定义的用户词典对微博信息进行分词，停用词处理的方法为:采用HashMap快速索引查表法对无用信息进行过滤，从而降低微博信息的噪音。3.根据权利要求1所述的一种基于多Markov链的微博用户兴趣预测方法，其特征在于，步骤S3中，多Markov链模型的建立方法如下: 将多Markov链模型表示为一个四元组:(X，K, p (C)，MC)；其中，X是一个离散随机变量，值域为Ix1, X2, -,Xi,-, xn}，每个Xi对应一个微博用户的兴趣特征值，称为模型的一个状态；K表示多Markov链模型包含的用户类别的数目；C=Ic1, C2，…，C1J表示用户类别，其分布函数P(C)表示不同类别用户的概率分布；MC={mCl，mc2,…，mck}为Markov链的集合,每一个元素mck是描述类别为ck的一类微博用户的兴趣特征值的Markov链；类别为ck的一类微博用户的兴趣特征值的Markov链的转移矩阵Ak和初始状态分布入k分别为:其中，Pku表示类别为Ck的一类微博用户的兴趣特征值中兴趣Xi和兴趣\同时出现的概率，Pki表示类别为Ck的一类微博用户的兴趣特征值出现的初始状态分布；采用贝叶斯估计法计算转移矩阵Ak和初始状态分布λ k中的Pku和Pki:其中，α kiJ为超级参数，采用贝叶斯假设确定其值；sku表示类别为Ck的所有用户的兴趣特征值序列中，状态对(Xi, Xj)出现的次数；聚类相似度定义如下: 对于任意两个转移矩阵A1^A1，设A1^A1的第i行分别为pku、plu，pk1、pii都表示在给定X[t-l]=xi条件下变量X[t]的分布，即P (Xt I Xw= xi),则PpPli的近似...

【专利技术属性】
技术研发人员：郑相涵，陈国龙，安东云，郭文忠，於志勇，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人