一种基于互联网的新闻推荐方法和系统技术方案

技术编号:2913322 阅读:312 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于互联网的新闻推荐方法,包括:预先建立关键词词库,并依据所述关键词词库,提取用户行为信息中所包括的关键词,根据用户行为信息中所包括的关键词推荐新闻给用户。本发明专利技术同时公开了一种基于互联网的新闻推荐系统。应用本发明专利技术所述的方法和系统,能够针对不同用户,分别推荐与该用户相关的不同新闻,从而提升了用户体验。

【技术实现步骤摘要】

本专利技术涉及网络技术,特别涉及一种基于互联网的新闻推荐方法和系统
技术介绍
互联网的飞速发展将人类带入了网络信息时代,对人们的个人生活产生了深刻的影响。人们在互联网上可以轻易地获取到各种网络信息,如购物信息、影视下载信息以及音乐下载信息等。通常,人们通过互联网获取网络信息的方式主要有搜索信息以及浏览新闻网站等,但近几年,又涌现出了一种帮助用户获取网络信息的新方式:推荐系统。推荐系统是指根据用户的特点,如兴趣爱好,为用户推荐有价值的信息。其最主流的定义是Resnick & Varian在1997年给出的:“它是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”。所以,目前推荐系统的主要应用领域为网上购物,用于为用户推荐符合其兴趣爱好的商品,如书籍、音像以及生活用品等。推荐系统的主要组成要素包括:推荐对象、用户以及推荐方法。其中,推荐对象是指作为推荐结果反馈给用户的基本对象;用户即指推荐系统所面对的客户;推荐方法指采用什么方式,即如何推荐。随着技术的发展,目前推荐系统的应用领域已经不再局限于网上购物,而是扩展到了其它方面,比如,出现了纯粹的新闻推荐系统,即当用户登陆网络浏览新闻或下载资源时,将点击率最高的热门新闻或最新的新闻推荐给用户。但是,这种方式的缺陷是不能针对不同的用户,分别将用户感兴趣的新闻推荐给不同的用户,从而造成用户的体验较差。-->
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种基于互联网的新闻推荐系统,能够针对不同的用户,分别推荐与该用户相关的不同新闻,从而提升用户体验。本专利技术的另一目的在于提供一种基于互联网的新闻推荐系统,能够针对不同的用户,分别推荐与该用户相关的不同新闻,从而提升用户体验。为达到上述目的,本专利技术的技术方案是这样实现的:一种基于互联网的新闻推荐方法,包括:建立关键词词库;依据所述关键词词库,提取用户行为信息中所包括的关键词,根据用户行为信息中所包括的关键词推荐新闻给用户。一种基于互联网的新闻推荐系统,包括:关键词数据库,用于保存预先建立的关键词词库;服务器子系统,用于依据所述关键词词库,提取用户行为信息中所包括的关键词,并根据所述用户行为信息中所包括的关键词推荐新闻给用户。可见,采用本专利技术的技术方案,考虑到用户在互联网上进行某一行为,如浏览新闻或下载资源时,可能会希望了解一些与所浏览的新闻或所下载的资源相关的新闻,所以,预先建立关键词词库,并依据所述关键词词库中的关键词,提取用户行为信息中所包括的关键词,根据该提取出的关键词推荐新闻给用户。这样一来,即可针对不同的用户,分别推荐与该用户相关的不同新闻,从而提升了用户体验。附图说明图1为本专利技术新闻推荐方法实施例的流程图。图2为本专利技术新闻推荐系统实施例的组成结构示意图。-->具体实施方式为解决现有技术中存在的问题,本专利技术中提出一种全新的新闻推荐方案,考虑到用户在互联网上进行某一行为时,可能会希望了解一些与所进行的行为相关的新闻,所以本专利技术所述方案中:预先建立关键词词库,并依据所述关键词词库,提取用户行为信息中所包括的关键词,根据该提取出的关键词推荐新闻给用户。这样一来,针对不同用户,即可分别推荐与该用户相关的不同新闻,从而提升了用户体验。为使本专利技术的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本专利技术作进一步地详细说明。图1为本专利技术新闻推荐方法实施例的流程图。假设本实施例中的用户行为是指用户浏览新闻或下载资源,那么相应地,所述提取用户行为信息中所包括的关键词是指提取用户所浏览的新闻标题或所下载的资源标题中的关键词。如图1所示,该实施例包括以下步骤:步骤101:建立关键词词库。本专利技术实施例中所提到的关键词词库主要由互联网上曾经出现过的影片标题、歌曲名、人名、游戏、软件、书籍、重要事件名以及重要时间等一系列有意义的词汇组成。具体建立方式,或者说词汇收集方式主要有:到一些专门的影视、歌曲、游戏或书籍等网站上进行抓取,和/或,提取各网站新闻中指定的符号,如《》和“”中所标定的内容,和/或,接收人工编辑并输入的词汇,比如一些重要的人名和重要事件名等。另外,还可依据不同的关键词的类别属性,分别建立不同的数据表以标记不同关键词的相关属性。对于一个词来说,通常可以按需求赋予不同的属性,如类别属性,即影视、音乐、游戏、软件、书籍等类别,同时,还具有与类别相关的属性。比如,天龙八部,属于影视类别,它还具有导演、演员、国家、影片类型以及影片介绍等相关属性;再比如,老鼠爱大米,属于歌曲类别,它还具有歌手、专辑、国别以及歌词等相关属性;再有,对于人名或书籍等,将-->具有与人物相关的时间或书籍作者等相关属性;另外,还有可能一个词被同时赋予多种类别属性,比如,刘德华,既可被赋予影视类别属性,也可被赋予音乐类别属性,而每种类别属性又分别对应一种相关属性,所以,对于“刘德华”这样一个关键词,可能同时具有两种相关属性,即两个数据表。数据表的具体作用将在后续介绍。在按照上述方式建立起关键词词库后,后续过程中,可按需要随时对其进行更新,如何更新为本领域公知,不再赘述。步骤102:依据所述关键词词库,提取用户行为信息中所包括的关键词,根据用户行为信息中所包括的关键词推荐新闻给用户。优选实施例中,当用户登陆网络浏览新闻或下载资源时,依据所建立的关键词词库,提取新闻标题或资源标题中的关键词推荐新闻给用户。本步骤中,当用户登陆网络浏览新闻或下载资源时,可依据步骤101中所建立的关键词词库,并利用分词算法,提取新闻标题或资源标题中的关键词,具体如何提取为本领域公知;然后,利用提取出的关键词,搜索包含所述从标题中提取出的关键词的新闻,具体如何搜索为本领域公知;最后,将搜索到的新闻推荐给用户。优选实施例中,本方法还包括获取并保存作为推荐对象的新闻的步骤。本步骤中,获取新闻的方式主要包括:从指定的网站上抓取,这里所提到的指定网站主要是指一些比较大的门户网站,具体抓取方式可以是采用网络爬虫工具-Spider抓取;或者,也可以人工编辑各种新闻;当然,也可采用上述两种方式的组合,但通常以Spider抓取方式为主,以人工编辑为辅。另外,还可对抓取到的新闻进行更新,以确保能够获取到最新的新闻。通过Spider抓取方式获取到的新闻主要包括以下内容:新闻标题、新闻分类(体育、娱乐或军事等)、新闻标签、正文内容以及新闻图片等。有的新闻可能没有新闻标签或新闻图片,那么对于这类新闻,只需抓取新闻标题、新闻分类以及正文内容即可。之后,对获取到的新闻进行预处理,包括新闻分类、关键词提取以及建立-->索引等。其中,针对新闻的分类,目前已经出现了一些自动分类系统,但由于本专利技术所述方案中的新闻主要来源于各大门户网站,它们对新闻已有详细的分类,而且分类方式基本相同,可能只是在文字描述方式上有一些细微的差别,所以本专利技术实施例中,在对获取到的新闻进行分类时,只需对各门户网站中常用的新闻分类词汇进行统一即可。比如:中国足球和国内足球是两个不同的门户网站中对足球项目的一种分类,其实质含义是一样的,只是表达方式不同,因此可以将它们归属为同一类。对分类后的每篇新闻的标题、标签以及正文内容进行关键词提取。具体提取方式如下:首先本文档来自技高网...

【技术保护点】
一种基于互联网的新闻推荐方法,其特征在于,该方法包括: 建立关键词词库; 依据所述关键词词库,提取用户行为信息中所包括的关键词,根据用户行为信息中所包括的关键词推荐新闻给用户。

【技术特征摘要】
1、一种基于互联网的新闻推荐方法,其特征在于,该方法包括:建立关键词词库;依据所述关键词词库,提取用户行为信息中所包括的关键词,根据用户行为信息中所包括的关键词推荐新闻给用户。2、根据权利要求1所述的方法,其特征在于,所述建立关键词词库包括:从互联网上抓取所需的词汇、提取各网站的新闻中指定符号所标定的内容,和/或,接收人工输入的词汇。3、根据权利要求2所述的方法,其特征在于,该方法进一步包括:获取和保存作为推荐对象的新闻。4、根据权利要求3所述的方法,其特征在于,所述获取和保存作为推荐对象的新闻包括:从指定的网站上抓取和/或人工编辑各种新闻并保存;对每篇新闻的标题、标签和正文内容进行关键词提取,并为每篇新闻的标题、标签、正文内容以及从该新闻中提取出的关键词建立索引;所述根据用户行为信息中所包括的关键词推荐新闻给用户包括:利用所建立的索引,在所保存的新闻中搜索包含所述用户行为信息中所包含的关键词的新闻,并推荐给用户。5、根据权利要求4所述的方法,其特征在于,所述对每篇新闻的标题、标签和正文内容进行关键词提取包括:依据所述关键词词库,利用分词算法,对每篇新闻的标题、标签和正文内容进行关键词提取,同时,提取每篇新闻中的指定符号所标定的内容作为关键词;并为所述从新闻中提取出的关键词设置不同的权重,对所述从新闻中提取出的关键词按照权重由大到小的顺序进行排序,过滤掉排序后处于尾部的预定个关键词。6、根据权利要求4或5所述的方法,其特征在于,所述在所保存的新闻中搜索包含所述用户行为信息中所包括的关键词的新闻,并推荐给用户包括:为新闻的标题、标签、正文内容以及从新闻中提取出的关键词设置不同的权重;按照所述用户行为信息中所包含的关键词在搜索到的新闻中所处位置的权重的不同,将搜索到的新闻按照权重由大到小的顺序进行排序,并将排序后的新闻依次推荐给用户。7、根据权利要求6所述的方法,其特征在于,该方法进一步包括:设定一个时间界限,过滤掉所述按照权重由大到小的顺序进行排序后的新闻中发表时间在所述时间界限之后的新闻,将过滤后的新闻推荐给用户;或者,将所述按照权重由大到小的顺序进行排序后的新闻进一步按照发表时间的先后进行排序,将重新排序后的新闻推荐给用户。8、根据权利要求4或5所述的方法,其特征在于,所述建立关键词词库进一步包括:依据不同关键词的类别属性,建立不同的数据表以标识不同关键词的相关属性;所述提取用户行为信息中所包含的关键词进一步包括:确定所述用户行为信息中所包含的关键词的类别属性,并依据所述用户行为信息中所包含的关键词对应的数据表,确定所述用户行为信息中所包含的关键词的相关属性;所述在所保存的新闻中搜索包含所述用户行为信息中所包含的关键词的新闻进一步包括:在所保存的新闻中搜索包含所述用户行为信息中所包含的关键词的相关属性的新闻,或者,在所保存的新闻中搜索同时包含所述用户行为信息中所包含的关键词及其相关属性的新闻。9、根据权利要求8所述的方法,其特征在于,所述在所保存的新闻中搜索同时包含所述用户行为信息中所包含的关键词及其相关属性的新闻进一步包括:将按照所述用户行为信息中所包含的关键词搜索到的新闻的权重设置为高于按照所述用户行为信息中所包含的关键词的相关属性搜索到的新闻;所述推荐给用户包括:将按照所述用户行为信息中所包含的关键词搜索到的新闻优先推荐给用户。10...

【专利技术属性】
技术研发人员:刘汉洲
申请(专利权)人:深圳市迅雷网络技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1