当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于数据挖掘技术的微博推荐方法及装置制造方法及图纸

技术编号:13193299 阅读:246 留言:0更新日期:2016-05-11 20:02
本发明专利技术公开了一种基于数据挖掘技术的微博推荐方法及装置,包括:将微博按照内容进行分类;获取预置时间段内选定用户对各类微博的点击量,并根据各类微博的该所述点击量,计算得到所述用户在时间段内的微博兴趣模型;按照所述最终微博兴趣模型聚类各用户,并根据所述最终微博兴趣模型确定向聚类后的各类用户推荐的微博候选集;将所述微博候选集中的微博推荐给所述用户。通过上述方法,本发明专利技术能够在错综复杂的微博信息中,对微博进行分类和排序,对用户进行聚类,根据分析结果,最后针对不同特征的用户群体推荐相应的感兴趣的微博。本发明专利技术可应用于微博网站及时准确的向用户推荐感兴趣的热门微博。

【技术实现步骤摘要】

本专利技术涉及计算机科学及网络
,特别是涉及一种微博推荐方法的数据挖 掘技术。
技术介绍
微博网站每天都会发布数据量非常之多的微博,尤其是大型网站的用户访问量多 达亿级别,而且信息更新速度非常快,对微博的时效性也有很高的要求。网站针对这种情 况,首要选择就是实施微博推荐,快速有效的找到用户感兴趣的微博,获取用户想要了解的 信息。 现有技术中,推荐方法主要分为三种:第一种是基于内容过滤,基于内容过滤的推 荐系统通过比较项(商品)之间的相似性而不是用户之间的相似性实现推荐功能;第二种是 基于协同过滤,基于协同过滤技术的电子商务推荐系统并不分析商品之间的相似性,而是 学习目标用户和历史用户之间行为的相似性,而不依赖商品的特征,从而根据相似历史用 户的行为生成推荐结果;第三种是混合型,结合使用前面两种技术,尽量利用它们的优点而 避免其缺点,提高推荐系统的性能和推荐质量。 但是在上述现有技术中,基于内容过滤,只能考虑到微博的相似性而不能考虑到 微博的时效性,所以推荐效果不理想;基于协同过滤,必须是鉴于访问记录而进行的推荐, 对时效性要求较高的微博推荐而言,只推荐被访问过的热门微博,故在协同过滤中,就会生 成已过期的热门微博。
技术实现思路
本专利技术的目的在于提供一种基于数据挖掘技术的微博推荐方法及装置,克服现有 技术中针对微博上现有的大量微博信息不能有效合理地推荐给相关用户的难题,,以实现 能够通过数据挖掘技术,匹配相关类别的微博和用户,并根据相关性给用户有效的推荐意 见。 为了解决以上技术问题,本专利技术采用的具体技术方案如下: -种基于数据挖掘技术的微博推荐方法,其特征在于包括以下步骤: 步骤一,将微博按照内容进行分类 通过KNN分类算法,将微博按照内容进行分类。按照内容可分为情感类、社会类、明 星类、财经类、体育类、科技类、军事类、教育类、游戏类;步骤二,获取预置时间段内选定用户对各类微博的点击量,并根据各类微博的该 所述点击量,计算得到所述用户在所述时间段内的微博兴趣模型;根据各类微博的所述点击量,通过贝叶斯全概率公式计算得到所述用户在所述时 间段内的微博兴趣模型。根据所述用户在所述时间段的微博兴趣模型,加权平均计算得到 所述用户在包含多个所述时间段的当天24小时的最终微博兴趣模型;步骤三,按照所述最终微博兴趣模型聚类所有用户,并根据所述最终微博兴趣模 型确定向聚类后的各类用户推荐的微博候选集; 将对微博的兴趣向量相似的用户聚成一个用户类,向属于同一个聚类的用户推荐 相同的微博,具体采用鉴于K均值算法的MapReduce模型实现用户聚类,根据预置时间段内 最终微博兴趣模型得到微博候选集; 步骤四,将所述微博候选集中的微博推荐给所述用户 将所述微博候选集中的微博按照一定的规则推荐给用户,根据用户兴趣标签推荐 相关类别的微博。规则为:在相关类别中,将所述微博候选集中的微博按照权重值进行降序 排列,并按照排列的先后顺序向所述用户推荐微博。 -种基于数据挖掘技术的微博推荐装置,其特征在于:包括微博分类模块,兴趣建 模模块,用户聚类模块,候选集确定模块,微博推荐模块; 所述微博分类模块,用于将微博按照内容进行分类;兴趣建模模块,获取预置时间 段内选定用户对各类微博的点击量,并根据各类微博的该所述点击量,计算得到所述用户 在所述时间段内的微博兴趣模型;用户聚类模块,用于按照所述最终微博兴趣模型聚类各 用户;候选集确定模块,根据所述最终微博兴趣模型确定向聚类后的各类用户推荐的微博 候选集;微博推荐模块,用于将所述微博候选集中的微博推荐给所述用户。本专利技术的工作过 程为:将发布微博按照内容在微博分类模块中进行分类,获得微博类别;获取预置时间段内 选定用户对各类微博的点击量,并根据各类微博的该所述点击量,在兴趣建模模块中计算 得到所述用户在所述时间段内的微博兴趣模型;在用户聚类模块中将对微博的兴趣向量相 似的用户聚成一个用户类,向属于同一个聚类的用户推荐相同的微博;根据所述最终微博 兴趣模型,在候选集确定模块中确定向聚类后的各类用户推荐的微博候选集;最后在微博 推荐模块中将所述微博候选集中的微博推荐给用户。 本专利技术具有有益效果。本专利技术通过采用数据挖掘技术,使得微博推荐方法及装置 更加准确有效。具体体现在:通过KNN分类方法,用较低的代价得到高效的分类结果;用贝叶 斯全概率公式计算微博兴趣模型,在推荐的实时性方面得到提升;用K均值聚类方法,对所 有用户进行有效聚类。【附图说明】 图1是本专利技术的摘要附图; 图2是本专利技术的实施流程图;图3是本专利技术的装置示意图;图3中:1、微博分类模块;2、兴趣建模模块;3、用户聚类模块;4、候选集确定模块; 5、微博推荐模块。【具体实施方式】下面结合附图对本专利技术的【具体实施方式】进行详细阐述,以使本专利技术的优点和特征 更容易被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。 实施例一: 本专利技术提供了一种基于数据挖掘的微博推荐方法,其实施流程如图2所示,包括如 下步骤: 步骤一,将微博根据内容进行分类。 按照内容可分为情感类、社会类、明星类、财经类、体育类、科技类、军事类、教育 类、游戏类。 具体地,可通过多项式模型的KNN分类算法来对微博进行分类,其优点在于,重新 训练的代价较低,而且简单有效,另外该算法比较适用于样本容量比较大的类域的自动分 类,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别 的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。对 微博分类的主要目的是实现对各认证微博或者公众号微博以及热门微博的自动分类,分类 结果用来分析用户兴趣,将按照内容分类得到的类别作为描述用户兴趣的参照。步骤二,获取预置时间段内选定用户对各类微博的点击量,并根据各类微博的该 所述点击量,计算得到所述用户在所述时间段内的微博兴趣模型。 下面建立选定用户的微博兴趣模型,微博兴趣模型指的是用户和用户所感兴趣的 微博之间相互对应的关系,即,用户对各类微博的微博兴趣度,获取某时间段内用户对各类 微博的点击量,并根据所述点击量,计算得到选定用户在所述时间段内的微博兴趣模型。 其中,选定用户作为训练集,为了能够代表微博用户的真实使用情况,采用随机抽 样的方法来选定,则得到所述选定用户在某时间段的微博兴趣模型就是全体用户当前第1页1 2 本文档来自技高网...

【技术保护点】
一种基于数据挖掘技术的微博推荐方法,其特征在于包括以下步骤:步骤一,将微博按照内容进行分类通过KNN分类算法,将微博按照内容进行分类。按照内容可分为情感类、社会类、明星类、财经类、体育类、科技类、军事类、教育类、游戏类;步骤二,获取预置时间段内选定用户对各类微博的点击量,并根据各类微博的该所述点击量,计算得到所述用户在所述时间段内的微博兴趣模型;根据各类微博的所述点击量,通过贝叶斯全概率公式计算得到所述用户在所述时间段内的微博兴趣模型。根据所述用户在所述时间段的微博兴趣模型,加权平均计算得到所述用户在包含多个所述时间段的当天24小时的最终微博兴趣模型;步骤三,按照所述最终微博兴趣模型聚类所有用户,并根据所述最终微博兴趣模型确定向聚类后的各类用户推荐的微博候选集;将对微博的兴趣向量相似的用户聚成一个用户类,向属于同一个聚类的用户推荐相同的微博,具体采用鉴于K均值算法的MapReduce模型实现用户聚类,根据预置时间段内最终微博兴趣模型得到微博候选集;步骤四,将所述微博候选集中的微博推荐给所述用户将所述微博候选集中的微博按照一定的规则推荐给用户,根据用户兴趣标签推荐相关类别的微博;规则为:在相关类别中,将所述微博候选集中的微博按照权重值进行降序排列,并按照排列的先后顺序向所述用户推荐微博。...

【技术特征摘要】

【专利技术属性】
技术研发人员:施化吉郝梓琳周从华刘志锋朱小龙陈伟鹤徐宗保
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1