【技术实现步骤摘要】
网页内容推荐方法和网页内容推荐设备
本技术涉及信息处理领域,并且具体地,涉及一种能够基于用户当前访问的网页向用户推荐期望的网页内容的网页内容推荐方法和网页内容推荐设备。
技术介绍
近年来,用于根据用户当前访问的网页向用户推荐其接下来可能访问的网页的网页推荐技术已得到了广泛应用,诸如情景应用(SA)等。所推荐的网页根据其特性可以被分为两类:基于内容的网页,即网页本身的内容即是用户所需内容的网页,诸如企业内部的考勤系统中的刷卡时间网页、输入请假单网页等;以及基于查询的网页,即需要用户输入查询词后返回的查询结果页的内容才是用户所需内容的网页,如谷歌、天气预报等。然而,根据传统的网页推荐方法,对于基于内容的网页,该方法能够向用户推荐该网页的内容,而对于基于查询的网页,该方法仅能够将该网页本身推荐给用户,并且需要用户自己输入查询词以获取期望的信息。因此,在采用传统的网页推荐方法的情况下,对于基于查询的网页,如果用户想要得到期望的信息,还需要用户手动输入查询词进行查询,从而浪费了用户的时间且给用户带来了不便,此外,所查询到的信息本身有可能会导致用户偏离主题。
技术实现思路
在下文中给出了关于本技术的简要概述,以便提供关于本技术的某些方面的基本理解。但是,应当理解,这个概述并不是关于本技术的穷举性概述。它并不是意图用来确定本技术的关键性部分或重要部分,也不是意图用来限定本技术的范围。其目的仅仅是以简化的形式给出关于本技术的某些概念,以此作为稍后给出的更详细描述的前序。 鉴于上述情形,因此本技术的目的是提供一种网页内容推荐方法和网页内容推 ...
【技术保护点】
一种网页内容推荐方法,包括:推荐网页确定步骤,基于当前用户访问的当前网页,从预定数据库中存储的多个候选网页中确定要推荐给所述当前用户的推荐网页;网页类型判断步骤,根据所述预定数据库判断所述推荐网页的类型,并确定用于从所述推荐网页提取网页内容的内容提取规则;网页内容提取步骤,如果所述推荐网页的类型是基于内容的网页,则直接利用所确定的内容提取规则提取所述推荐网页的网页内容,而如果所述推荐网页的类型是基于查询的网页,则识别所述当前网页中包含的查询词,利用所识别的查询词在所述推荐网页中进行查询以得到查询结果页,然后利用所确定的内容提取规则来提取所述查询结果页的网页内容;以及网页内容推荐步骤,将所提取的网页内容推荐给所述当前用户。
【技术特征摘要】
1.一种网页内容推荐方法,包括: 推荐网页确定步骤,基于当前用户访问的当前网页,从预定数据库中存储的多个候选网页中确定要推荐给所述当前用户的推荐网页; 网页类型判断步骤,根据所述预定数据库判断所述推荐网页的类型,并确定用于从所述推荐网页提取网页内容的内容提取规则; 网页内容提取步骤,如果所述推荐网页的类型是基于内容的网页,则直接利用所确定的内容提取规则提取所述推荐网页的网页内容,而如果所述推荐网页的类型是基于查询的网页,则识别所述当前网页中包含的查询词,利用所识别的查询词在所述推荐网页中进行查询以得到查询结果页,然后利用所确定的内容提取规则来提取所述查询结果页的网页内容;以及 网页内容推荐步骤,将所提取的网页内容推荐给所述当前用户。2.根据权利要求1所述的 方法,其中,所述推荐网页确定步骤进一步包括: 在前网页集合确定子步骤,对于所述候选网页中的每个候选网页,基于所有用户的网页访问历史,将所有访问过该候选网页的用户在紧挨该候选网页之前所访问的预定数量的在前网页的集合确定为关于该候选网页的在前网页集合; 相似度计算子步骤,计算所述当前网页与每个在前网页集合之间的相似度; 第一访问概率确定子步骤,基于所述相似度,确定在所述当前网页之后访问每个候选网页的第一访问概率;以及 推荐网页选择子步骤,基于所述第一访问概率,从所述候选网页中选择所述推荐网页。3.根据权利要求2所述的方法,其中,所述推荐网页确定步骤进一步包括: 网页序列统计子步骤,基于所有用户的网页访问历史,统计在预定时段内由各个数量的连续访问网页构成的各个网页序列的出现次数;以及 第二访问概率确定子步骤,基于所统计的各个网页序列的出现次数,确定在所述当前网页之后访问每个候选网页的第二访问概率, 其中,在所述推荐网页选择子步骤中,还基于所述第二访问概率来选择所述推荐网页。4.根据权利要求1所述的方法,其中,如果所述推荐网页的类型是基于查询的网页,则所述网页内容提取步骤进一步包括: 规则确定子步骤,基于所述当前网页和所述推荐网页,在预定规则库中确定与所述当前网页和所述推荐网页对应的规则; 查询词识别子步骤,根据所确定的规则中包括的查询词出现位置,从所述当前网页中识别查询词; 查询结果页获取子步骤,根据所确定的规则中包括的查询词与网址之间的转换规则,将所识别的查询词转换为相应的网址从而获得所述查询结果页;以及 查询结果页内容提取子步骤,利用所确定的内容提取规则提取所述查询结果页的内容。5.根据权利要求4所述的方法,其中,所述预定规则库是通过以下步骤进行训练得到的: 转换规则确定步骤,针对所有用户的网页访问历史中的每个基于查询的网页,对利用查询词在该基于查询的网页中进行查询所得到的查询结果页进行统计,以确定查询词与查询结果页的网址之间的转换规则;以及 查询词出现位置确定步骤,针对每个基于查询的网页,根据关于该基于查询的网页的查询词,对所述网页访问历史中的各个网页进行统计,以确定该网页的查询词出现位置。6.—种网页内容推荐设备,包括: 推荐网页确定单元,...
【专利技术属性】
技术研发人员:杨华,邹纲,张军,松尾昭彦,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。