新闻推送方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:32019694 阅读:54 留言:0更新日期:2022-01-22 18:38
本申请涉及人工智能技术领域,提供一种新闻推送方法、装置、计算机设备和存储介质。所述方法包括:获取网站权重,根据网站权重获取新闻数据,将新闻数据聚类为多个热点群,统计各热点群的群参数,抽取热点群的关键词,根据关键词获取预设时间段内新闻数据的统计参数,基于网站权重、群参数、新闻数据的统计参数以及预设的时间衰减因子,确定新闻数据的新闻热度,根据新闻热度筛选出目标新闻数据、并推送目标新闻数据,其中,网站权重通过预设的网站排名查询工具获取,群参数包括群内文章数和群权重,新闻数据的统计参数包括新闻统计数量和用户行为参与度。采用本方法能够得到准确的新闻热度,使得推送的目标新闻数据更为精准。使得推送的目标新闻数据更为精准。使得推送的目标新闻数据更为精准。

【技术实现步骤摘要】
新闻推送方法、装置、计算机设备和存储介质


[0001]本申请涉及人工智能
,特别是涉及一种新闻推送方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着互联网和自媒体的快速发展,迎来了信息爆炸的时代,每天都会涌现出大量的新闻,面对花样百出层出不穷的新闻,人们希望花费更少的时间去了解实时热点新闻。因此,基于新闻热度筛选热点新闻,再将筛选出的热点新闻推送给用户成为了目前新闻推送的主要方式。
[0003]然而,目前主要的新闻热度的评估方式主要包括基于用户行为数据和聚类算法进行评估。然而,目前新闻门户网站和第三方平台如社交门户网站不是互通的,且很多新闻门户网站不统计用户行为,或者隐藏用户行为,对于第三方平台来说,无法直接通过抽取用户行为数据的方式来评估新闻热度;而通过聚类计算新闻热度的方式中,新闻自身的差异性考虑得不够全面,使得依赖聚类算法计算出的新闻热度不够准确。
[0004]综上所述,目前基于新闻热度推送新闻的方式存在新闻热度评估不够准确,无法准确推送新闻数据的问题。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够准确推送新闻数据的新闻推送方法、装置、计算机设备和存储介质。
[0006]一种新闻推送方法,方法包括:
[0007]获取网站权重,根据网站权重获取新闻数据,网站权重表征网站的曝光率;
[0008]将新闻数据聚类为多个热点群,统计各热点群的群参数;
[0009]抽取热点群的关键词,根据关键词获取预设时间段内新闻数据的统计参数;
[0010]基于网站权重、群参数、新闻数据的统计参数以及预设的时间衰减因子,结合预设的新闻热度计算方式,确定新闻数据的新闻热度;
[0011]根据新闻热度筛选出目标新闻数据、并推送目标新闻数据;
[0012]其中,网站权重通过预设的网站排名查询工具获取,群参数包括群内文章数和群权重,新闻数据的统计参数包括新闻统计数量和用户行为参与度。
[0013]在一个实施例中,将新闻数据聚类为多个热点群包括:
[0014]将新闻数据按照话题进行分类,提取各话题下每篇文章的TF

IDF值,并确定每篇文章中每个词的词向量;
[0015]根据TF

IDF(term frequency

inverse document frequency,词频

逆文本频率指数)值以及词向量,确定每篇文章的特征向量;
[0016]对各话题下的文章的特征向量进行聚类,得到多个热点群。
[0017]在一个实施例中,提取各话题下每篇文章的TF

IDF值之前,还包括:
[0018]对各话题下的文章进行包括分词、去除停用词、去除链接以及去除特殊符号的数据预处理。
[0019]在一个实施例中,对各话题下每篇文章的特征向量进行聚类,得到多个热点群包括:
[0020]通过DBSCAN(Density—Based Spatial Clustering of Application with Noise,基于密度的带噪应用程序空间聚类)聚类算法对各话题下的文章的特征向量进行聚类,得到多个热点群。
[0021]在一个实施例中,用户行为参与度采用下述方式得到:
[0022]获取新闻数据的用户行为数据,用户行为数据包括评论量、转载量和浏览量;
[0023]对转载量、浏览量和评论量进行标准化处理;
[0024]对标准化处理之后的转载量、浏览量和评论量进行加权求和,得到用户行为参与度。
[0025]在一个实施例中,获取网站权重,根据网站权重获取新闻数据包括:
[0026]根据预设的网站排名查询工具,获取网站权重;
[0027]根据网站权重筛选出目标网站;
[0028]根据爬虫机制从目标网站爬取新闻数据。
[0029]在一个实施例中,根据新闻热度筛选出目标新闻数据包括:
[0030]基于新闻热度,确定新闻数据的评分;
[0031]根据新闻数据的评分,筛选出目标新闻数据。
[0032]一种新闻推送装置,所述装置包括:
[0033]数据获取模块,用于获取网站权重,根据网站权重获取新闻数据,网站权重表征网站的曝光率;
[0034]数据划分模块,用于将新闻数据聚类为多个热点群,统计各热点群的群参数;
[0035]数据统计模块,用于抽取热点群的关键词,根据关键词获取预设时间段内新闻数据的统计参数;
[0036]新闻热度确定模块,用于基于网站权重、群参数、新闻统计参数以及预设的时间衰减因子,结合预设的新闻热度计算方式,确定新闻数据的新闻热度;
[0037]新闻推送模块,用于根据新闻热度筛选出目标新闻数据、并推送目标新闻数据;
[0038]其中,网站权重通过预设的网站排名查询工具获取,群参数包括群内文章数和群权重,新闻数据的统计参数包括新闻统计数量和用户行为参与度。
[0039]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0040]获取网站权重,根据网站权重获取新闻数据,网站权重表征网站的曝光率;
[0041]将新闻数据聚类为多个热点群,统计各热点群的群参数;
[0042]抽取热点群的关键词,根据关键词获取预设时间段内新闻数据的统计参数;
[0043]基于网站权重、群参数、新闻数据的统计参数以及预设的时间衰减因子,结合预设的新闻热度计算方式,确定新闻数据的新闻热度;
[0044]根据新闻热度筛选出目标新闻数据、并推送目标新闻数据;
[0045]其中,网站权重通过预设的网站排名查询工具获取,群参数包括群内文章数和群
权重,新闻数据的统计参数包括新闻统计数量和用户行为参与度。
[0046]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0047]获取网站权重,根据网站权重获取新闻数据,网站权重表征网站的曝光率;
[0048]将新闻数据聚类为多个热点群,统计各热点群的群参数;
[0049]抽取热点群的关键词,根据关键词获取预设时间段内新闻数据的统计参数;
[0050]基于网站权重、群参数、新闻数据的统计参数以及预设的时间衰减因子,结合预设的新闻热度计算方式,确定新闻数据的新闻热度;
[0051]根据新闻热度筛选出目标新闻数据、并推送目标新闻数据;
[0052]其中,网站权重通过预设的网站排名查询工具获取,群参数包括群内文章数和群权重,新闻数据的统计参数包括新闻统计数量和用户行为参与度。
[0053]上述新闻推送方法、装置、计算机设备和存储介质,通过网站权重获取新闻数据,能够保证新闻抓取的准确度和时效性,同时在确定新闻热度时考虑了网站权重、群内文章数和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新闻推送方法,其特征在于,所述方法包括:获取网站权重,根据所述网站权重获取新闻数据,所述网站权重表征网站的曝光率;将所述新闻数据聚类为多个热点群,统计各热点群的群参数;抽取所述热点群的关键词,根据所述关键词获取预设时间段内所述新闻数据的统计参数;基于所述网站权重、所述群参数、所述新闻数据的统计参数以及预设的时间衰减因子,结合预设的新闻热度计算方式,确定所述新闻数据的新闻热度;根据所述新闻热度筛选出目标新闻数据、并推送所述目标新闻数据;其中,所述网站权重通过预设的网站排名查询工具获取,所述群参数包括群内文章数和群权重,所述新闻数据的统计参数包括新闻统计数量和用户行为参与度。2.根据权利要求1所述的新闻推送方法,其特征在于,所述用户行为参与度采用下述方式得到:获取所述新闻数据的用户行为数据,所述用户行为数据包括评论量、转载量和浏览量;对所述转载量、所述浏览量和所述评论量进行标准化处理;对标准化处理之后的所述转载量、所述浏览量和所述评论量进行加权求和,得到用户行为参与度。3.根据权利要求1所述的新闻推送方法,其特征在于,所述将所述新闻数据聚类为多个热点群包括:将所述新闻数据按照话题进行分类,提取各话题下每篇文章的TF

IDF值,并确定每篇文章中每个词的词向量;根据所述TF

IDF值以及所述词向量,确定每篇文章的特征向量;对各话题下的文章的特征向量进行聚类,得到多个热点群。4.根据权利要求3所述的新闻推送方法,其特征在于,所述提取各话题下每篇文章的TF

IDF值之前,还包括:对各话题下的文章进行包括分词、去除停用词、去除链接以及去除特殊符号的数据预处理。5.根据权利要求4所述的新闻推送方法,其特征在于,所述对各话题下每...

【专利技术属性】
技术研发人员:党升
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1