一种基于项目的协同过滤推荐方法及装置制造方法及图纸

技术编号:12879301 阅读:95 留言:0更新日期:2016-02-17 13:46
本发明专利技术实施例公开了一种基于项目的协同过滤推荐方法及装置,该方法包括:获得目标数据集;将目标数据集拆解成若干适合内存容量的数据块;对每个数据块B中的每个项目i,在本地计算项目i和该数据块B中其它项目的相似度;将与所述项目i的相似度高于预设的阈值对应的项目确定为项目i的候选推荐项目。应用本发明专利技术实施例,只使用一台计算机进行基于项目的协同过滤推荐算法的计算,在计算时,将项目的整个数据集拆解成若干适合内存容量的数据块,提高了基于项目的协同过滤推荐算法的性能,消减了额外的辅助功能对算法性能的影响,同时避免了成本的增加。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种基于项目的协同过滤推荐方法及装置
技术介绍
协同过滤推荐(Collaborative Filtering recommendat1n)技术是目前推荐系统中应用最为广泛的技术之一。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。目前,协同过滤推荐算法主要分为基于项目的协同过滤推荐算法和基于用户的协同过滤推荐算法,其中,基于项目的协同过滤推荐算法,通过相同用户对不同的项目的评分来评测项目之间的相似性,基于项目之间的相似性做出推荐;基于用户的协同过滤推荐算法,通过不同用户对相同项目的评分来评测用户之间的相似性,基于用户之间的相似性做出推荐。现有两种基于项目的协同过滤推荐算法的方式,一种方式是使用一台计算机来进行基于项目的协同过滤推荐算法的计算;另一种方式是使用计算机集群来进行基于项目的协同过滤推荐算法的计算。然而,在实际应用中,使用一台计算机来进行基于项目的协同过滤推荐算法的计算时,当被计算的数据集的数据量达到内存容纳不下的量级时,算法的性能不高;使用计算机集群来进行基于项目的协同过滤推荐算法的计算时,计算机集群的每台计算机计算数据集的一部分,虽然能解决数据量大的问题,但是需要增加额外的辅助功能,影响算法的性能。例如:同一份数据在计算机集群里的各个计算机里都有一份拷贝,数据存在冗余;计算机集群的各个计算机需要保存计算的数据,同时各个计算机之间还需要进行通信;计算机集群的每台计算机计算数据集的一部分之后,还需要将计算的结果整合在一起,并且需要对拆分成若干数据子集的边缘数据进行处理。并且随着数据量的增加,需要增加计算机集群中的计算机,增加了成本。
技术实现思路
本专利技术实施例的目的在于提供一种基于项目的协同过滤推荐方法及装置,以提高基于项目的协同过滤推荐算法的性能,且避免成本的增加。为达到上述目的,本专利技术实施例公开了一种基于项目的协同过滤推荐方法,包括:获得目标数据集;将目标数据集拆解成若干适合内存容量的数据块;对每个数据块B中的每个项目i,在本地计算项目i和该数据块B中其它项目的相似度;将与所述项目i的相似度高于预设的阈值对应的项目确定为项目i的候选推荐项目。较佳的,所述目标数据集,包括:不同用户收藏的网址信息;或不同用户点击过的广告信息;或不同用户搜索过的内容;或不同用户购买过的商品。较佳的,所述方法还包括:判断项目i的候选推荐项目的数量是否达到项目i实际推荐项目的需求数量N ;在项目i的候选推荐项目的数量达到项目i实际推荐项目的需求数量N的情况下,对项目i的候选推荐项目中的所有项目按照相似度数值从高到低排序;从排序队列中选取前N个项目作为项目i实际推荐项目,向客户端反馈项目i的实际推荐的项目,以使所述客户端将所述项目i的实际推荐的项目推荐给所述项目i的用户。 较佳的,所述方法还包括:在项目i的候选推荐项目的数量没有达到项目i实际推荐项目的需求数量N的情况下,将项目i的候选推荐项目中的所有项目作为项目i实际推荐项目,向客户端反馈项目i的实际推荐的项目,以使所述客户端将所述项目i的实际推荐的项目推荐给所述项目i的用户。较佳的,所述方法还包括:在项目i的候选推荐项目的数量没有达到项目i实际推荐项目的需求数量N的情况下,将预设的阈值调低,直到在项目i所处的数据块B中,项目i的候选推荐项目的数量达到项目i实际推荐项目的需求数量N ;对项目i的候选推荐项目中的所有项目按照相似度数值从高到低排序;从排序队列中选取前N个项目作为项目i实际推荐的项目,向客户端反馈项目i的实际推荐的项目,以使所述客户端将所述项目i的实际推荐的项目推荐给所述项目i的用户。较佳的,所述方法还包括:在项目i的候选推荐项目的数量没有达到项目i实际推荐项目的需求数量N的情况下,计算项目i和至少一个其它数据块中的各项目的相似度;将与所述项目i的相似度高于预设的阈值对应的项目确定为项目i的候选推荐项目。较佳的,所述方法还包括:判断项目i的候选推荐项目的数量是否达到项目i实际推荐项目的需求数量N ;在项目i的候选推荐项目的数量达到项目i实际推荐项目的需求数量N的情况下,对项目i的候选推荐项目中的所有项目按照相似度数值从高到低排序;从排序队列中选取前N个项目作为项目i实际推荐项目,向客户端反馈项目i的实际推荐的项目,以使所述客户端将所述项目i的实际推荐的项目推荐给所述项目i的用户。较佳的,所述方法还包括:在项目i的候选推荐项目的数量没有达到项目i实际推荐项目的需求数量N的情况下,将项目i的候选推荐项目中的所有项目作为项目i实际推荐项目,向客户端反馈项目i的实际推荐的项目,以使所述客户端将所述项目i的实际推荐的项目推荐给所述项目i的用户。较佳的,所述方法还包括:在项目i的候选推荐项目的数量没有达到项目i实际推荐项目的需求数量N的情况下,将预设的阈值调低,直到在所有数据块中,项目i的候选推荐项目的数量达到项目i实际推荐项目的需求数量N;对项目i的候选推荐项目中的所有项目按照相似度数值从高到低排序;从排序队列中选取前N个项目作为项目i实际推荐的项目,向客户端反馈项目i的实际推荐的项目,以使所述客户端将所述项目i的实际推荐的项目推荐给所述项目i的用户。为达到上述目的,本专利技术实施例还公开了一种基于项目的协同过滤推荐装置,包括:数据集获得模块,用于获得目标数据集;数据集拆解模块,用于将目标数据集拆解成若干适合内存容量的数据块;第一相似度计算模块,用于对每个数据块B中的每个项目i,在本地计算项目i和该数据块B中其它项目的相似度;候选推荐项目确定模块,用于将与所述项目i的相似度高于预设的阈值对应的项目确定为项目i的候选推荐项目。较佳的,所述目标数据集,包括:不同用户收藏的网址信息;或不同用户点击过的广告信息;或不同用户搜索过的内容;或不同用户购买过的商品。较佳的,所述装置还包括:第一判断模块,用于判断项目i的候选推荐项目的数量是否达到项目i实际推荐项目的需求数量N;排序模块,用于在第一判断模块判断结果为是的情况下,对项目i的候选推荐项目中的所有项目按照相似度数值从高到低排序;实际推荐项目选取模块,用于从排序队列中选取前N个项目作为项目i实际推荐项目,向客户端反馈项目i的实际推荐的项目,以使所述客户端将所述项目i的实际推荐的项目推荐给所述项目i的用户。较佳的,所述实际推荐项目选取模块,还用于:在第一判断模块判断结果为否的情况下,将项目i的候选推荐项目中的所有项目作为项目i实际推荐项目,向客户端反馈项目i的实际推荐的项目,以使所述客户端将所述项目i的实际推荐的项目推荐给所述项目i的用户。较佳的,所述装置还包括:第一阈值调整模块,用于在第一判断模块判断结果为否的情况下,将预设的阈值调低,直到在项目i所处的数据块B中,项目i的候选推荐项目的数量达到项目i实际推荐项目的需求数量N。较佳的,所述装置还包括:第二判断模块,用于在第一判断模块判断结果为否的情况下,判断是否还存在未和项目i计算相似度的其他数据块的项目;第二相似度计算模块,用于在第二判断模块判断结果为是的情况下,计算项目i和其它本文档来自技高网
...

【技术保护点】
一种基于项目的协同过滤推荐方法,其特征在于,所述方法包括:获得目标数据集;将目标数据集拆解成若干适合内存容量的数据块;对每个数据块B中的每个项目i,计算项目i和该数据块B中其它项目的相似度;将与所述项目i的相似度高于预设的阈值对应的项目确定为项目i的候选推荐项目。

【技术特征摘要】

【专利技术属性】
技术研发人员:万振张凯达
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1