一种信息推送方法及设备技术

技术编号:7107823 阅读:378 留言:0更新日期:2012-04-11 18:40
本申请公开了一种信息推送方法及设备,主要内容包括:在进行相似度计算时先丢弃明显无法满足目标门限值的待处理item,只对与目标item进行操作的相同用户的用户数量达到门限值的待处理item进行相似度运算,大大减少了运算量,提高运算效率;同时,将与目标item的相似度明显较低的待处理item删除,能够降低运算噪音,提高运算结果的准确性。

【技术实现步骤摘要】

本申请涉及计算机
,尤其涉及一种信息推送方法及设备
技术介绍
协同过滤(Collaborative Filtering)技术作为信息过滤的主要技术之一,被广泛应用于计算机技术下的多种领域的个性化服务系统中。基于条目比较的协同过滤算法 (后续简称为Itembased算法)是协同过滤算法之一,Itembased算法认为用户更倾向于获知与其已操作(如浏览、购买item中的商品)过的条目(item)相似或相关的其他item,因此,将item视为由用户对该item的操作行为构成的向量,从系统提供的数据中搜索与目标 item相关的邻居item集合,并将所述邻居item集合中各item的信息推送给用户,使用户在浏览目标item时,可以根据推送的信息方便地浏览邻居item ;上述目标item是指某一用户已操作过的条目,上述邻居item是指与该目标item相似或相关的其他item。例如目标item是A品牌手机,在一段时间内浏览过目标item对应页面的用户包括用户_1、用户_2和用户_3。通过对系统中所有item与目标item之间的关联比较,得出如下结果查找出邻居item_l是B品牌手机,在一段时间内浏览过邻居item_l对应页面的用户包括用户_1、用户_2和用户_4,则表示既浏览过目标item对应页面又浏览过邻居 item_l对应页面的用户数量为2 ;查找出邻居item_2是C品牌手机,在一段时间内浏览过邻居item_2对应页面的用户包括用户_1、用户_2、用户_3和用户_4,则表示既浏览过目标item对应页面又浏览过邻居item_2对应页面的用户数量为3。如果上述结果表明邻居item_l和邻居item_2与目标item之间的相似度已经满足需求,则可以将邻居item_l和邻居item_2的信息推送给用户,用户在浏览目标item对应的页面时,可以方便地浏览邻居item_l和邻居item_2对应的页面,使用户获得实际需求的有用信息。在目前的Itembased算法中,如果系统内item的数量为M,则最高需要进行M2次 item之间的相似度计算,由于Itembased算法的运算量非常大,导致运算时间长,且无论是否有用的item都要进行相似度运算,导致运算噪音大,运算结果准确性较低;另外,由于进行M2次item之间的相似度计算后产生的数据文件过大,需要占用较大的存储空间,并且过大的数据文件为后续的搜索过程带来运算压力。
技术实现思路
本申请实施例的目的在于,提供一种信息推送方法及设备,用以解决现有技术中存在的Itembased算法的运算量大和运算噪音大的问题。一种信息推送方法,所述方法包括依次读取待处理条目item,针对读取的每个item分别执行判断对读取的待处理item和目标item都进行操作的用户数量是否达到门限值;若未达到门限值,则丢弃所述待处理item ;否则,确定所述待处理item与目标 item之间的相似度;在待处理item都读取完后,将与目标item之间的相似度由高到低的N个待处理 item的信息推送给用户,所述N为正整数。一种信息推送设备,所述设备包括读取模块,用于依次读取待处理条目item,并针对读取的每个item触发第一判断模块;第一判断模块,用于判断对读取的待处理item和目标item都进行操作的用户数量是否达到门限值;丢弃模块,用于在未达到门限值时,丢弃所述待处理item ;相似度确定模块,用于在达到门限值时,确定所述待处理item与目标item之间的相似度;推送模块,用于在待处理item都读取完后,将与目标item之间的相似度由高到低的N个待处理item的信息推送给用户,所述N为正整数。本申请在进行相似度计算时先丢弃明显无法满足目标门限值的待处理item,只对与目标item进行操作的相同用户的用户数量达到门限值的待处理item进行相似度运算, 大大减少了运算量,提高运算效率;将与目标item的相似度明显较低的待处理item删除, 能够降低运算噪音,提高运算结果的准确性;同时,由于减少了运算量,运算后得到的数据文件较小,因此,减少了数据文件占用的存储空间,也提高了后续搜索过程的效率。附图说明图1为本申请的网络架构示意图;图2为本申请实施例一中信息推送方法步骤示意图;图3(a)和图3(b)为本申请实施例二中信息推送设备结构示意图。具体实施例方式为了实现本申请目的,本申请实施例对Itembased算法进行优化,在计算待处理 item与目标item之间的相似度时,将明显与目标item的相似度较低的待处理item删除, 也就是判断对待处理item和目标item都进行操作的用户数量是否达到门限值,若达到, 则表示待处理item和目标item的相似度不会特别低,因此,可以后续的操作;否则,表示表示待处理item和目标item的相似度必然会很低,则不需要再浪费系统资源进行后续操作。本申请实施例由于在进行相似度计算时先初步删除明显无法满足目标门限值的待处理 item,减少了 Itembased算法中的运算量,提高了运算效率;同时,由于减少了运算量,运算后得到的数据文件较小,因此,减少了数据文件占用的存储空间,也提高了后续搜索过程的效率。下面结合说明书附图对本申请实施例进行详细描述。如图1所示,为本申请的网络架构示意图,从图1中可以看出,系统主要包括数据层、过滤层和算法层。图1所示的网络结构可以位于网站服务器中,进一步地,可以位于网站服务器中用于向用户推送用户需要查看的页面信息的搜索引擎中。数据层可以是网站服务器中的一个存储空间,在数据层中存储有数据表,包括注册在系统中的用户信息表、商品信息表以及用户对商品的操作信息表。由于一条item在后台对应的存储空间中存储了一用户对该item对应页面的操作(如浏览、购买页面中的商品),因此,可将本申请中涉及的item视为用户对该item进行操作的操作行为构成的向量, 也就是将用户对商品的操作信息表中的内容看作是item。item对外界的表现形式可以是 item对应的页面,用户对item的操作可以看作是用户对该item对应的页面进行操作,具体的操作类型包括浏览页面,以及对该页面提供的对话框进行点击操作等,这里的点击操作包括但不限于收藏该页面、购买该页面展示的商品等。当用户对某一标识的item进行操作后,为该item在后台开辟的存储空间内将会记录对该item进行操作的用户的用户信息以及操作类型。数据层中存储的数据表中的内容可能会实时发生变化,因此,可以周期性地对数据层中的数据表中的内容进行更新。过滤层可以是网站服务器中具有数据过滤功能的逻辑部件,过滤层包括对两方面信息的过滤,一方面是对数据层提供给算法层的输入item进行过滤,初步滤除明显无用的 item,以减少算法层中的运算量;另一方面,对算法层确定的可向用户推送的item信息进行过滤,滤除与用户意图契合度较低的item,避免向用户推送的信息过大而影响推送信息的实际使用效果。算法层可以是网站服务器中存储并能够运行本申请涉及的优化Itembased算法的逻辑部件,算法层对过滤层过滤后的item与目标item进行运算,查找出与目标item之间的相似度高的item作为准备向用户推送信息的item。本申请通过网站服务器中数本文档来自技高网
...

【技术保护点】
1.一种信息推送方法,其特征在于,所述方法包括:依次读取待处理条目item,针对读取的每个item分别执行:判断对读取的待处理item和目标item都进行操作的用户数量是否达到门限值;若未达到门限值,则丢弃所述待处理item;否则,确定所述待处理item与目标item之间的相似度;在待处理item都读取完后,将与目标item之间的相似度由高到低的N个待处理item的信息推送给用户,所述N为正整数。

【技术特征摘要】

【专利技术属性】
技术研发人员:张旭顾海杰祁建程苏宁军
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1