网页内容推荐方法和网页内容推荐设备技术

技术编号:10481397 阅读:100 留言:0更新日期:2014-10-03 13:34
公开了一种网页内容推荐方法和设备,该方法包括:推荐网页确定步骤,基于当前用户访问的当前网页,从预定数据库存储的多个候选网页中确定要推荐给当前用户的推荐网页;网页类型判断步骤,根据预定数据库判断推荐网页的类型,并确定用于从推荐网页提取网页内容的内容提取规则;网页内容提取步骤,如果推荐网页的类型是基于内容的网页,则直接利用所确定的内容提取规则提取推荐网页的网页内容,而如果推荐网页的类型是基于查询的网页,则识别当前网页中包含的查询词,利用所识别的查询词在推荐网页中进行查询以得到查询结果页,然后利用所确定的内容提取规则来提取查询结果页的网页内容;以及网页内容推荐步骤,将所提取的网页内容推荐给当前用户。

【技术实现步骤摘要】
网页内容推荐方法和网页内容推荐设备
本技术涉及信息处理领域,并且具体地,涉及一种能够基于用户当前访问的网页向用户推荐期望的网页内容的网页内容推荐方法和网页内容推荐设备。
技术介绍
近年来,用于根据用户当前访问的网页向用户推荐其接下来可能访问的网页的网页推荐技术已得到了广泛应用,诸如情景应用(SA)等。所推荐的网页根据其特性可以被分为两类:基于内容的网页,即网页本身的内容即是用户所需内容的网页,诸如企业内部的考勤系统中的刷卡时间网页、输入请假单网页等;以及基于查询的网页,即需要用户输入查询词后返回的查询结果页的内容才是用户所需内容的网页,如谷歌、天气预报等。然而,根据传统的网页推荐方法,对于基于内容的网页,该方法能够向用户推荐该网页的内容,而对于基于查询的网页,该方法仅能够将该网页本身推荐给用户,并且需要用户自己输入查询词以获取期望的信息。因此,在采用传统的网页推荐方法的情况下,对于基于查询的网页,如果用户想要得到期望的信息,还需要用户手动输入查询词进行查询,从而浪费了用户的时间且给用户带来了不便,此外,所查询到的信息本身有可能会导致用户偏离主题。
技术实现思路
在下文中给出了关于本技术的简要概述,以便提供关于本技术的某些方面的基本理解。但是,应当理解,这个概述并不是关于本技术的穷举性概述。它并不是意图用来确定本技术的关键性部分或重要部分,也不是意图用来限定本技术的范围。其目的仅仅是以简化的形式给出关于本技术的某些概念,以此作为稍后给出的更详细描述的前序。 鉴于上述情形,因此本技术的目的是提供一种网页内容推荐方法和网页内容推荐设备,其能够基于用户当前访问的网页确定要推荐给该用户的网页,并且对于作为基于内容的网页的推荐网页,能够利用预定的内容提取规则提取该网页的内容并推荐给用户,而对于作为基于查询的网页的推荐网页,能够自动识别当前网页内容中包含的查询词,利用该查询词在推荐网页中进行查询以得到返回的查询结果页,然后利用预定的内容提取规则提取查询结果页的内容并推荐给用户。 根据本技术的一方面,提供了一种网页内容推荐方法,该方法可以包括:推荐网页确定步骤,基于当前用户访问的当前网页,从预定数据库中存储的多个候选网页中确定要推荐给当前用户的推荐网页;网页类型判断步骤,根据预定数据库判断推荐网页的类型,并确定用于从推荐网页提取网页内容的内容提取规则;网页内容提取步骤,如果推荐网页的类型是基于内容的网页,则直接利用所确定的内容提取规则提取推荐网页的网页内容,而如果推荐网页的类型是基于查询的网页,则识别当前网页中包含的查询词,利用所识别的查询词在推荐网页中进行查询以得到查询结果页,然后利用所确定的内容提取规则来提取查询结果页的网页内容;以及网页内容推荐步骤,将所提取的网页内容推荐给当前用户。 根据本技术的优选实施例,推荐网页确定步骤可以进一步包括:在前网页集合确定子步骤,对于候选网页中的每个候选网页,基于所有用户的网页访问历史,将所有访问过该候选网页的用户在紧挨该候选网页之前所访问的预定数量的在前网页的集合确定为关于该候选网页的在前网页集合;相似度计算子步骤,计算当前网页与每个在前网页集合之间的相似度;第一访问概率确定子步骤,基于相似度,确定在当前网页之后访问每个候选网页的第一访问概率;以及推荐网页选择子步骤,基于第一访问概率,从候选网页中选择推荐网页。 根据本技术的另一优选实施例,推荐网页确定步骤可以进一步包括:网页序列统计子步骤,基于所有用户的网页访问历史,统计在预定时段内由各个数量的连续访问网页构成的各个网页序列的出现次数;以及第二访问概率确定子步骤,基于所统计的各个网页序列的出现次数,确定在当前网页之后访问每个候选网页的第二访问概率。优选地,在推荐网页选择子步骤中,还可以基于第二访问概率来选择推荐网页。 根据本技术的又一优选实施例,如果推荐网页的类型是基于查询的网页,则网页内容提取步骤可以进一步包括:规则确定子步骤,基于当前网页和推荐网页,在预定规则库中确定与当前网页和推荐网页对应的规则;查询词识别子步骤,根据所确定的规则中包括的查询词出现位置,从当前网页中识别查询词;查询结果页获取子步骤,根据所确定的规则中包括的查询词与网址之间的转换规则,将所识别的查询词转换为相应的网址从而获得查询结果页;以及查询结果页内容提取子步骤,利用所确定的内容提取规则提取查询结果页的内容。 根据本技术的再一优选实施例,预定规则库可以通过以下步骤进行训练得到:转换规则确定步骤,针对所有用户的网页访问历史中的每个基于查询的网页,对利用查询词在该基于查询的网页中进行查询所得到的查询结果页进行统计,以确定查询词与查询结果页的网址之间的转换规则;以及查询词出现位置确定步骤,针对每个基于查询的网页,根据关于该基于查询的网页的查询词,对所述网页访问历史中的各个网页进行统计,以确定该网页的查询词出现位置。 根据本技术的另一方面,还提供了一种网页内容推荐设备,其可以包括:推荐网页确定单元,被配置成基于当前用户访问的当前网页,从预定数据库中存储的多个候选网页中确定要推荐给当前用户的推荐网页;网页类型判断单元,被配置成根据预定数据库判断推荐网页的类型,并确定用于从推荐网页提取网页内容的内容提取规则;网页内容提取单元,被配置成如果推荐网页的类型是基于内容的网页,则直接利用所确定的内容提取规则提取推荐网页的网页内容,而如果推荐网页的类型是基于查询的网页,则识别当前网页中包含的查询词,利用所识别的查询词在推荐网页中进行查询以得到查询结果页,然后利用所确定的内容提取规则来提取查询结果页的网页内容;以及网页内容推荐单元,被配置成将所提取的网页内容推荐给当前用户。 根据本技术的又一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行根据本技术的网页内容推荐方法。 此外,根据本技术的再一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行根据本技术的网页内容推荐方法。 因此,根据本技术的实施例,根据用户当前访问的网页,基于网页访问历史和网页内容之间的相似度两者来确定要推荐给该用户的网页,从而提高了推荐网页与用户的偏好的匹配度。此外,对于基于内容的网页以及基于查询的网页,均能够自动地提取这些网页中所包括的用户所需内容并将所提取的内容推荐给用户,从而为用户带来了便利性。 在下面的说明书部分中给出本技术实施例的其它方面,其中,详细说明用于充分地公开本技术实施例的优选实施例,而不对其施加限定。 【附图说明】 本技术可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本技术的优选实施例和解释本技术的原理和优点。其中: 图1是示出根据本技术的实施例的网页内容推荐方法的示例的流程图; 图2是示出图1所示的推荐网页确定步骤中的详细处理示例的流程图; 图3是示出图1所示的网页内容提取步骤中的详细处理示例的流程图; 本文档来自技高网...

【技术保护点】
一种网页内容推荐方法,包括:推荐网页确定步骤,基于当前用户访问的当前网页,从预定数据库中存储的多个候选网页中确定要推荐给所述当前用户的推荐网页;网页类型判断步骤,根据所述预定数据库判断所述推荐网页的类型,并确定用于从所述推荐网页提取网页内容的内容提取规则;网页内容提取步骤,如果所述推荐网页的类型是基于内容的网页,则直接利用所确定的内容提取规则提取所述推荐网页的网页内容,而如果所述推荐网页的类型是基于查询的网页,则识别所述当前网页中包含的查询词,利用所识别的查询词在所述推荐网页中进行查询以得到查询结果页,然后利用所确定的内容提取规则来提取所述查询结果页的网页内容;以及网页内容推荐步骤,将所提取的网页内容推荐给所述当前用户。

【技术特征摘要】
1.一种网页内容推荐方法,包括: 推荐网页确定步骤,基于当前用户访问的当前网页,从预定数据库中存储的多个候选网页中确定要推荐给所述当前用户的推荐网页; 网页类型判断步骤,根据所述预定数据库判断所述推荐网页的类型,并确定用于从所述推荐网页提取网页内容的内容提取规则; 网页内容提取步骤,如果所述推荐网页的类型是基于内容的网页,则直接利用所确定的内容提取规则提取所述推荐网页的网页内容,而如果所述推荐网页的类型是基于查询的网页,则识别所述当前网页中包含的查询词,利用所识别的查询词在所述推荐网页中进行查询以得到查询结果页,然后利用所确定的内容提取规则来提取所述查询结果页的网页内容;以及 网页内容推荐步骤,将所提取的网页内容推荐给所述当前用户。2.根据权利要求1所述的 方法,其中,所述推荐网页确定步骤进一步包括: 在前网页集合确定子步骤,对于所述候选网页中的每个候选网页,基于所有用户的网页访问历史,将所有访问过该候选网页的用户在紧挨该候选网页之前所访问的预定数量的在前网页的集合确定为关于该候选网页的在前网页集合; 相似度计算子步骤,计算所述当前网页与每个在前网页集合之间的相似度; 第一访问概率确定子步骤,基于所述相似度,确定在所述当前网页之后访问每个候选网页的第一访问概率;以及 推荐网页选择子步骤,基于所述第一访问概率,从所述候选网页中选择所述推荐网页。3.根据权利要求2所述的方法,其中,所述推荐网页确定步骤进一步包括: 网页序列统计子步骤,基于所有用户的网页访问历史,统计在预定时段内由各个数量的连续访问网页构成的各个网页序列的出现次数;以及 第二访问概率确定子步骤,基于所统计的各个网页序列的出现次数,确定在所述当前网页之后访问每个候选网页的第二访问概率, 其中,在所述推荐网页选择子步骤中,还基于所述第二访问概率来选择所述推荐网页。4.根据权利要求1所述的方法,其中,如果所述推荐网页的类型是基于查询的网页,则所述网页内容提取步骤进一步包括: 规则确定子步骤,基于所述当前网页和所述推荐网页,在预定规则库中确定与所述当前网页和所述推荐网页对应的规则; 查询词识别子步骤,根据所确定的规则中包括的查询词出现位置,从所述当前网页中识别查询词; 查询结果页获取子步骤,根据所确定的规则中包括的查询词与网址之间的转换规则,将所识别的查询词转换为相应的网址从而获得所述查询结果页;以及 查询结果页内容提取子步骤,利用所确定的内容提取规则提取所述查询结果页的内容。5.根据权利要求4所述的方法,其中,所述预定规则库是通过以下步骤进行训练得到的: 转换规则确定步骤,针对所有用户的网页访问历史中的每个基于查询的网页,对利用查询词在该基于查询的网页中进行查询所得到的查询结果页进行统计,以确定查询词与查询结果页的网址之间的转换规则;以及 查询词出现位置确定步骤,针对每个基于查询的网页,根据关于该基于查询的网页的查询词,对所述网页访问历史中的各个网页进行统计,以确定该网页的查询词出现位置。6.—种网页内容推荐设备,包括: 推荐网页确定单元,...

【专利技术属性】
技术研发人员:杨华邹纲张军松尾昭彦
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1