一种基于大数据处理的新闻传播方法技术

技术编号:38139430 阅读:18 留言:0更新日期:2023-07-08 09:53
本发明专利技术提供一种基于大数据处理的新闻传播方法,涉及新闻传播技术领域,具体包括以下步骤:S1.数据信息获取,通过使用爬虫程序,模拟浏览器发送请求(获取网页代码)、提取有用的关键信息数据并存放于数据库或文件中,并根据新闻信息标签对其进行分类归纳,实现请求通过在新闻传播平台利用cookie实现模拟登录。该方法在请求时通过传入关键词和时间,排序方法要按照时间排序,穿入关键词包括积极词,中性词和消极词,并利用random模块随机生成数字下标,进行随机抽取关键词搜索,以求得到的数据能代表当天的用户主流心态,并定时定量地针对特定群体投放相对喜好的新闻内容,易于抓住接受群体注意力,有利于提升新闻传播的效率。有利于提升新闻传播的效率。

【技术实现步骤摘要】
一种基于大数据处理的新闻传播方法


[0001]本专利技术涉及新闻传播
,具体为一种基于大数据处理的新闻传播方法。

技术介绍

[0002]随互现在联网技术的快速发展与广泛应用,基于互联网的新闻传播方式已经对人们的生活产生日益显著的影响,各新闻网站及软件平台渐渐变成人们获取信息与分享观点的核心平台,为了提高新闻信息传播效率,提升用户的信息接收体验,基于大数据处理采集的用户数据流量,充分考虑到不同用户群体不同时间段的接收喜好,根据不同时间不同群体不同喜好进行对应新闻信息定制,以此不断提升大数据新闻传播效率和宣扬效果。
[0003]随着现代社会信息跟更迭速度的日益加快,现代新闻的传播及时性和有效性对于基于大数据处理的传播方式提出了更高的要求,因此,如何提供一种基于大数据处理的新闻传播方法在当前的环境中显得尤为重要。

技术实现思路

[0004](一)解决的技术问题针对现有技术的不足,本专利技术提供了一种基于大数据处理的新闻传播方法,解决了基于大数据处理的偏好内容新闻主动推送传播效率进一步提升的问题。
[0005](二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于大数据处理的新闻传播方法,具体包括以下步骤:S1.数据信息获取通过使用爬虫程序,模拟浏览器发送请求(获取网页代码)、提取有用的关键信息数据并存放于数据库或文件中,并根据新闻信息标签对其进行分类归纳;S2.数据预处理使用 jieba 库实现对S1采集的新闻信息进行分词,将内容语句精确切分,对切分词语进行清洗,去除其中无用词语,即删除停用词,统计清洗后剩余词语在新闻内容中出现的频率,即统计词频;S3.获得情感词组合使用 SnowNLP 库,判断S2新闻文本词语的情感,得出的数值是该文本蕴含情感的概率;S4.计算句子情感通过S3得出新闻文本独立句例蕴含情感的概率;S5.计算新闻情感根据S4获取新闻文本各独立句例蕴含情感,根据多句例综合比对确定新闻文本综合情感;S6.限定投送范围人群
根据获取后台用户浏览数据,根据偏好类型对多数用户浏览偏好添加标签,限定划分符合用户浏览偏好的范围人群账户;S7.针对推送根据S6限定投送用户人群范围,增大针对性相关新闻内容投送。
[0006]优选的,S1在平台网站输入提前注册好的账号和密码,设置好需要爬虫的时间范围,启动爬虫程序,输出结果,并将结果输出为 Excel 表格文件。
[0007]优选的,对于S2获得词语可通过词频矩阵的形式,将每条文本数据转换为 n 维 1/0 值向量的形式,此时可以对比分析每个向量之间的相似性来给文本数据分类。
[0008]优选的,对于S3情感计算需要准备情感词表,否定词和程词表,情感计算规则,可采用Boson情感词典能良好的展现情感类型和强度。
[0009]优选的,S3获取情感词组合时选取可选取日常程度副词,按情绪强烈程度分为四个等级,并对每个等级赋予了相应的程度权值。
[0010]优选的,基于上述SO

PMI算法,可对原有词典进行新词补充。
[0011]优选的,通过 Echarts 对全流程形成可视化图表,经过分析数据类型并设计展示方法、图表形式,采用大屏展示数据的方法,利用 HTML 和 JS 编程实现网页呈现。
[0012]优选的,网页呈现运用了Echarts库和jQuery库。
[0013](三)有益效果本专利技术提供了一种基于大数据处理的新闻传播方法。具备以下有益效果:1、本专利技术提供了一种基于大数据处理的新闻传播方法,该传播方式通过预先对新闻播报文本内容进行初步分解、清洗和情感分析,并对多用户群体不同时间段进行喜好标签划分,定时定量地针对特定群体投放相对喜好的新闻内容,易于抓住接受群体注意力,有利于提升新闻传播的效率。
[0014]2、本专利技术提供了一种基于大数据处理的新闻传播方法,该方法通过在新闻传播平台利用 cookie 实现模拟登录,利用网页新闻平台的高级搜索接口作为入口,可以实现在新闻平台的关键词爬虫,即搜索并储存带有设定关键词的新闻,请求部分使用 requests 库,目标是网页端搜索的 url ,为了能够保证在请求时不用登陆,可以在请求的同时传入 Cookie ,因为要搜索特定时间和特定关键词的微博,所以在请求时还要传入关键词和时间,排序方法要按照时间排序,穿入关键词包括积极词,中性词和消极词,并利用random 模块随机生成数字下标,进行随机抽取关键词搜索,以求得到的数据能代表当天的用户主流心态。
具体实施方式
[0015]下面将对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
实施例:
[0016]本专利技术实施例提供一种基于大数据处理的新闻传播方法,具体包括以下步骤:
S1.数据信息获取通过使用爬虫程序,模拟浏览器发送请求(获取网页代码)、提取有用的关键信息数据并存放于数据库或文件中,并根据新闻信息标签对其进行分类归纳;实现请求通过在新闻传播平台利用 cookie 实现模拟登录,利用网页新闻平台的高级搜索接口作为入口,可以实现在新闻平台的关键词爬虫,即搜索并储存带有设定关键词的新闻;请求部分使用 requests 库,目标是网页端搜索的 url ,为了能够保证在请求时不用登陆,可以在请求的同时传入 Cookie ,因为要搜索特定时间和特定关键词的微博,所以在请求时还要传入关键词和时间,排序方法要按照时间排序。穿入关键词包括积极词,中性词和消极词,并利用random 模块随机生成数字下标,进行随机抽取关键词搜索,以求得到的数据能代表当天的用户主流心态。部分关键代码解释如下:import requests<br>url = 'https://weibo.cn/search/mblog' # 网页端微博搜索url <br>headers = {<br>'Cookie': '自己的Cookie',<br>'User

Agent': UserAgent().random
ꢀꢀ
# fake_useragent库
ꢀꢀ
<br>}<br>params = {<br>'keyword': self.keyword,
ꢀꢀ
# 随机关键词
ꢀꢀ
<br>'endtime': self.end_time,
ꢀꢀ
# 传入搜索时间,精确到小时,所以爬虫以小时为单位
ꢀꢀ
<br>'sort': 'time', # 依据时间对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据处理的新闻传播方法,其特征在于,具体包括以下步骤:S1.数据信息获取通过使用爬虫程序,模拟浏览器发送请求(获取网页代码)、提取有用的关键信息数据并存放于数据库或文件中,并根据新闻信息标签对其进行分类归纳;S2.数据预处理使用 jieba 库实现对S1采集的新闻信息进行分词,将内容语句精确切分,对切分词语进行清洗,去除其中无用词语,即删除停用词,统计清洗后剩余词语在新闻内容中出现的频率,即统计词频;S3.获得情感词组合使用 SnowNLP 库,判断S2新闻文本词语的情感,得出的数值是该文本蕴含情感的概率;S4.计算句子情感通过S3得出新闻文本独立句例蕴含情感的概率;S5.计算新闻情感根据S4获取新闻文本各独立句例蕴含情感,根据多句例综合比对确定新闻文本综合情感;S6.限定投送范围人群根据获取后台用户浏览数据,根据偏好类型对多数用户浏览偏好添加标签,限定划分符合用户浏览偏好的范围人群账户;S7.针对推送根据S6限定投送用户人群范围,增大针对性相关新闻内容投送。2.根据权利要求1所述的一种基于大数据处理的新闻传播方法,其特征在于:S1在平台网站输入提前注册好的账号和密码,设置好需要爬虫的时间范围,启动爬虫程序,输出结果,并将结果输出为 Excel 表格文件。3.根据权...

【专利技术属性】
技术研发人员:王微王越曹聪颖薛冯铭张佳旭
申请(专利权)人:河北环境工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1