本发明专利技术提供一种信息推荐装置和信息推荐方法。输入用户浏览的文档组、以及包含用户浏览过的文档的历史文档等等。该文档组和历史文档被各自分析以便获取特征向量。通过群集该文档组获取多个话题群集和多个副话题群集。表示生成的副话题群集之间的话题的转变的转变结构,和特征属性从每一个话题群集和每一个副话题群集被提取。通过历史文档的特征向量和包含在文档组中的每一个文档的特征向量之间的比较来提取兴趣群集,基于自己的转变结构通过兴趣群集获取与兴趣群集关系的具有转变关系的副话题群集,并且包含在副话题群集中的文档被提取作为推荐的文档,以和特征属性一起被显示。
【技术实现步骤摘要】
本专利技术涉及一种配置为从具有作为属性的日期和时间信息的文档中有效地检测并呈现 从过去用户浏览的文档持续的文档的。
技术介绍
传统地,己经开发了各种技术以满足关于基于用户兴趣推荐和识别(recognize)话题 的大量需求。例如,在万维网(WW)中,存在一种推荐与包括在浏览历史中并为每个用户 做"兴趣"记号的网页有关的其他网页的技术,并且存在一种推荐由也购买了该用户感兴 趣的商品的其他用户购买的商品的技术。基于用户的兴趣推荐信息的手段,粗略地划分,包括通过协作过滤的推荐形式、以及类 似内容项目和相同类别的推荐形式。例如,在JP-A 2003-167901 (特开)中公开了一种试 图预测在协作过滤方法中的评估值的技术。在JP-A 2006-190128 (特开)中尝试基于和用 户的偏好相匹配的特征向量的信息推荐。例如,这种技术从作为用户的使用历史的文档组 中提取多个特征关键字,存储这些关键字作为特征向量,根据新内容项目是否类似于该特 征向量,判定新内容项目是否是接近用户的偏好的内容项目。然而,关于JP-A 2003-167901 (特开)中描述的协作过滤,为了进行匹配,需要使用 其他用户的使用历史。例如,在为对某个话题感兴趣的用户A推荐内容项目的情况中,该 过滤检索另一个用户,同样对这个话题感兴趣的用户B,并且基于用户B的内容使用历史 决定要被推荐给用户A的内容项目。这种在JP-A 200 -167901 (特开)中描述的技术不能在 不引用(或不能引用)其他用户的使用历史的操作中使用。在JP-A 2006-190128(KOKAI)中描述的这种系统中,基于用户的使用历史和偏好,在如 同相同话题由不同的关键字表示的情况的,关键字没有彼此直接地符合的情况中,出现不 能推荐内容项目的问题。即使在基于类别的推荐的情况中,在显示该类别的话题的范围和 用户兴趣的范围没有彼此符合的情况下,也可能出现问题。此外,会出现这样一个问题,即上述系统不能追踪在作为通用的话题的类别中的内容项 目的过程或转变。
技术实现思路
根据本专利技术的一个方面,提供一种信息推荐装置,包括输入文档组的文档输入单元, 每个文档组具有指定期间内的日期和时间信息;文档分析单元,文档分析单元通过包括浏 览过的文档或由书签操作标记的文档的文档组或历史文档的关键字分析,获取多个特征向 量,每个特征向量包括多个向量要素的关键字;获取多个话题群集和多个副话题群集的群 集单元,多个话题群集和多个副话题群集各自通过群集文档组,由属于相同的话题的文档 组成;生成转变结构的话题转变生成单元,转变结构显示副话题群集当中的话题的转变; 特征属性提取单元,特征属性提取单元从各个话题群集和各个副话题群集提取频繁包含的 关键字的特征属性;兴趣群集提取单元,兴趣群集提取单元通过历史文档的特征向量和包 含在文档组中的各个文档的特征向量当中的相似性判定,提取相当于多个话题群集或副话 题群集中的任一个的兴趣群集;推荐文档提取单元,推荐文档提取单元基于兴趣群集所拥 有的转变结构,获取具有与兴趣群集的转变关系的副话题群集,并且提取包含在副话题群 集中的文档作为推荐的文档;和呈现推荐的文档和特征属性的推荐文档呈现单元。附图说明图1是描绘包括一种实施例的信息推荐装置的系统构造的实例的示意图2是服务器的示范性的硬件结构图3是描绘服务器的功能构造的示范性的方框图4A是举例说明在因特网上的网页上的新闻记事的示范图,图4B是举例说明在电子 节目指南(EPG)上的信息的示范图5是描绘话题群集提取的处理步骤的示范性的流程图; 图6是描绘关键字提取的处理步骤的示范性的流程图; 图7是描绘话题关键字列表的数据结构的示意图; 图8是描绘话题关键字的结构的处理步骤示范性的流程图9是描绘群集结构(cluster structure)信息的实例的示范图; 图IO是描绘群集结果的实例的示范图;图ll是有关具有副话题群集的用户的浏览和书签历史、并且提取显示它的转变的话题 的示意图12是描绘用户的浏览和书签历史与话题的对应关系(理由)、以及话题的过程的示意 图;以及图13是基于用户的历史的分类使用的情况的示范图。具体实施例方式以下,将参考附图描述本专利技术的实施例。如图l所示,关于一个实例,假定一种服务器客户系统,其包括经由诸如局域网(LAN) 的网络2连接到服务器计算机(称为服务器)1的多个客户计算机(称为客户机)3。举例来说, 服务器1和客户机3是普通的个人计算机。如图2所示,服务器1包括中央处理单元(CPU)101;在其内存储基本输入/输出系统 (BIOS)的只用于读取的只读存储器(ROM) 102;以可重写方式存储各种数据的随机存取存 储器(RAM) 103;起着各种数据库作用并存储各种程序的硬盘驱动器(HDD)104;使用存 储介质110存储信息、向外分配信息和从外部获取信息的诸如CD-ROM的介质读取装置105; 用于通过经由网络2与外部的其他计算机的通信来发送信息的通信控制装置106;向操作 者(用户)显示处理过程和结果等等的诸如阴极射线管(CRT)和液晶显示器(LCD)的显示单 元107;以及操作者向CPU101输入命令和信息的诸如键盘和鼠标的输入单元108。总线控 制器109调整每个单元之间发送与接收的数据以操作CPU 101。在这种服务器1和客户机3中, 一旦被用户激活,CPU 101启动存储在ROM 102中的称 为载入程序的程序,并且将称为操作系统(OS)的管理计算机的硬件和软件的程序从HDD 104读取到RAM3中以启动0S。 OS响应用户的操作,启动程序、读取信息并存储信息。关 于典型的0S, Windows(注册商标)为大家所熟知。在OS上操作的程序被称为"应用程序"。 该应用程序不局限于在OS上的一个操作,并且应用程序可以使OS担负执行如下所描述的 各种处理的部分,或可以包括在由指定的应用软件和OS组成的程序文件的群之内。服务器1在HDD 104中存储实施例的信息推荐程序。这意味着HDD 104起着存储信息 推荐程序的存储介质的作用。通常,要被安装在HDD 104中的应用程序被记录在存储介质 110上,存储介质110包括诸如CD-ROM和DVD的光盘、诸如磁光盘和软磁盘的磁盘、以及 半导体存储器。记录在存储介质110上的操作程序被安装在HDD104中。因此,具有便携性的存储介质110,例如,诸如CD-ROM的光学信息记录介质以及诸如FD的磁介质可以成 为记录介质,以便存储应用程序。此外,例如,可以经由通信控制装置106将应用程序 从外部安装到HDD 104中。在服务器1中,当在OS上操作的信息推荐程序启动,CPU 101按照推荐程序执行各种 计算处理,并且集中地控制上述的每个单元。以下将描述在服务器l中由CPU 101执行的 各种计算处理的实施例的特征处理。如图3所示,服务器l包括文档输入单元ll、历史输入单元12、群集单元13、文档分 析单元14、结构判定单元15、特征属性提取单元16、话题转变生成单元17、群集结构 存储单元18、兴趣群集提取单元19、推荐文档提取单元20、和推荐文档呈现单元21。群 集结构存储单元18可以由诸如HDD 104、存储介质110和RAM 103的普遍采用的本文档来自技高网...
【技术保护点】
一种信息推荐装置,其特征在于,包括: 输入文档组的文档输入单元,所述文档组的每个文档具有在指定期间内的日期和时间信息; 文档分析单元,所述文档分析单元通过文档组或包括浏览过的文档或由书签操作标记的文档的历史文档的关键字分析,获取 多个特征向量,每个所述特征向量包括多个向量要素的关键字; 获取多个话题群集和多个副话题群集的群集单元,所述多个话题群集和多个副话题群集中的每一个都是通过群集所述文档组,由属于相同话题的文档组成; 生成转变结构的话题转变生成单元, 所述转变结构显示所述副话题群集当中的所述话题的转变; 特征属性提取单元,所述特征属性提取单元从各个话题群集和各个副话题群集中提取频繁包含的关键字的特征属性; 兴趣群集提取单元,所述兴趣群集提取单元通过历史文档的所述特征向量和包含 在所述文档组中的各个文档的所述特征向量当中的相似性判定,提取相当于所述多个话题群集或副话题群集中的任一个的兴趣群集; 推荐文档提取单元,所述推荐文档提取单元基于所述兴趣群集拥有的所述转变结构,获取具有与所述兴趣群集具有转变关系的副话题 群集,并且提取包含在所述副话题群集中的文档作为推荐的文档;和 呈现所述推荐的文档和所述特征属性的推荐文档呈现单元。...
【技术特征摘要】
...
【专利技术属性】
技术研发人员:冈本昌之,菊池匡晃,
申请(专利权)人:株式会社东芝,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。