【技术实现步骤摘要】
本专利技术实施例涉及信息处理
,尤其涉及一种基于人工智能的新闻推荐方法及装置。
技术介绍
人工智能(ArtificialIntelligence,AI),它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。在信息快速发展的时代,随着互联网技术发展,越来越多的新闻资讯进入大众视野,随之新闻相关产品也出现在人们的日常生活中,与人们日常生活息息相关。例如,常见的新闻相关产品有“今日头条”、“百度好看”、“手机百度资讯”等。它们主要是从各类新闻网站挖掘新闻,根据不同用户的兴趣和新闻本身热度、关注度等情况,将新闻推荐给用户。由于新闻来源广泛,不可避免有雷同新闻的情况。比如,A网站原创一条新闻,B网络转载,C网站略加修改之后转载,D网站基于相同新闻事件,又原创一条新闻。四则新闻其实是同一事件,新闻推荐产品都会挖掘出来,并不知道其中差别,会都推荐给用户,但是用户往往看过一条新闻之后已经知道新闻事件,没有必要再看到同样的新闻。尤其对于那些标题有差别的雷同新闻,用户往往看完新闻之后才知道是雷同新闻,造成用户时间浪费。
技术实现思路
本专利技术实施例提供一种基于人工智能的新闻推荐方法及装置,能够避免重复向用户推荐雷同新闻,以提高新闻推荐效率。第一方面,本专利技术实施例提供了一种基于人工智能的新闻推荐方法,包括:获取待推荐新闻的第一新闻特征和已浏览新闻的第二 ...
【技术保护点】
一种基于人工智能的新闻推荐方法,其特征在于,包括:获取待推荐新闻的第一新闻特征和已浏览新闻的第二新闻特征;根据所述第一新闻特征和所述第二新闻特征确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻;若为雷同新闻,则拒绝推荐所述待推荐新闻;若为非雷同新闻,则推荐所述待推荐新闻。
【技术特征摘要】
1.一种基于人工智能的新闻推荐方法,其特征在于,包括:获取待推荐新闻的第一新闻特征和已浏览新闻的第二新闻特征;根据所述第一新闻特征和所述第二新闻特征确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻;若为雷同新闻,则拒绝推荐所述待推荐新闻;若为非雷同新闻,则推荐所述待推荐新闻。2.根据权利要求1所述的方法,其特征在于,根据所述第一新闻特征和所述第二新闻特征确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻包括:将所述第一新闻特征和所述第二新闻特征输入神经网络模型中进行学习;根据学习结果确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻。3.根据权利要求2所述的方法,其特征在于,根据学习结果确定所述待推荐新闻和所述已浏览新闻是否为雷同新闻包括:若所述学习结果满足预设条件,则确定所述待推荐新闻和已浏览新闻为雷同新闻;若所述学习结果不满足预设条件,则确定所述待推荐新闻和已浏览新闻为非雷同新闻。4.根据权利要求3所述的方法,其特征在于,所述预设条件包含以下至少一种:所述神经网络模型输出的分值高于预设分值、标题一致、正文相似度高于预设阈值和来源相同。5.根据权利要求2所述的方法,其特征在于,将所述第一新闻特征和所述第二新闻特征输入神经网络模型中进行学习包括:确定判定所述待推荐新闻和所述已浏览新闻是否为雷同新闻所采用的判定雷同标准;若所述判定雷同标准为第一类雷同标准,则采用神经网络模型中的第一类雷同训练子模型对所述第一新闻特征和所述第二新闻特征进行学习;和/或,若所述判定雷同标准为第二类雷同标准,则采用神经网络模型中的第二类雷同训练子模型对所述第一新闻特征和所述第二新闻特征进行学习。6.根据权利要求5所述的方法,其特征在于,所述第一类雷同标准为同一新闻事件和同一新闻来源,被其它新闻网站进行如下任意一种操作:转载、盗版和改编;和/或,所述第二类雷同标准为同一新闻事件,被不同媒体进行如下任意一种操作:报道、原创和附加自己媒体的评论。7.根据权利要求5或6所述的方法,其特征在于,若为雷同新闻,则拒绝推荐所述待推荐新闻包括:若根据所述第一类雷同标准确定所述待推荐新闻和所述已浏览新闻为雷同新闻,则直接拒绝推荐所述待推荐新闻;或者,若根据所述第二类雷同标准确定所述待推荐新闻和所述已浏览新闻为雷同新闻,且检测到推荐设置项为拒绝推荐,则拒绝推荐所述待推荐新闻。8.根据权利要求2-6任一项所述的方法,其特征在于,还包括:获取已知雷同新闻和/或已知非雷同新闻;根据所述已知雷同新闻的第三新闻特征构造已知雷同新闻的第一训练样本,和/或根据所述已知非雷同新闻的第四新闻特征构造已知非雷同新闻的第二训练样本;利用神经网络对所述第一训练样本和/或所述第二训练样本进行训练,得到所述神经网络模型。9.根据权利要求8所述的方法,其特征在于,所述神经网络模型的输出结果满足以下条件:所述待推荐新闻和所述已浏览新闻为雷同新闻的分值高于为非雷同新闻的分值。10.根据权利要求8或9所述的方法,其特征在于,获取已知雷同新闻和/或已知非雷同新闻包括:采用爬虫技术挖掘存在转载、盗版和改编中的至少一种关系的新闻聚对,将所述新闻聚对作为第一已知雷同新闻;将不存在转载、盗版和改编中的至少一种关系的新闻作为第一已知非雷同新闻;相应的,利用神经网络对所述第一训练样本和/或所述第二训练样本进行训练,得到所述神经网络模型包括:利用神经网络对所述第一已知雷同新闻的训练样本和/或所述第一已知非雷同新闻的训练样本进行训练,得到所述神经网络模型中的第一雷同训练子模型;和/或,采用爬虫技术挖掘新闻标题、内容和发布时间匹配程度超过预设程度的新闻组合,将所述新闻组合作为第二已知雷同新闻;将所述匹配程度未过预设程度的新闻作为第二已知非雷同新闻;相应的,利用神经网络对所述第一训练样本和/或所述第二训练样本进行训练,得到所述神经网络模型包括:利用神经网络对所述第二已知雷同新闻的训练样本和/或所述第二已知非雷同新闻的训练样本进行训...
【专利技术属性】
技术研发人员:田植良,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。