自动生成新闻频道信息的方法、装置、设备及存储介质制造方法及图纸

技术编号:31838443 阅读:16 留言:0更新日期:2022-01-12 13:17
本发明专利技术公开了一种自动生成新闻频道信息的方法、装置、设备、及存储介质,所述方法包括获取目标新闻主题的源新闻标题,按各源新闻标题的时间顺序分别爬取相应的内容,将数据库中不存在的网络地址对应的源新闻标题作为目标源新闻标题,针对各目标源新闻标题从已爬取的内容中确定新闻基本信息,并选择若干句子来生成目标新闻主题的新闻摘要;将新闻摘要的文本内容转化为语音信息;通过各目标源新闻标题的网络地址来爬取所述目标新闻主题相关的新闻事件图片;根据新闻摘要的文本内容、语音信息、以及新闻事件图片合成目标新闻主题视频;本方法能够自动对当前正在被讨论的热点新闻进行整合,并能自动加工成音视频,显著的减轻了新闻行业的人工劳动量。闻行业的人工劳动量。闻行业的人工劳动量。

【技术实现步骤摘要】
自动生成新闻频道信息的方法、装置、设备及存储介质


[0001]本专利技术涉及大数据
,尤其涉及一种自动生成新闻频道信息的方法、装置、设备、及存储介质。

技术介绍

[0002]随着技术的发展,人们获取新闻信息的渠道和方式也逐渐在改变,从传统的报纸书刊、广播电视,到互联网兴起时的门户网站以及目前社交平台上的新闻播报。每一次的改变,对先有的技术都是一次提升和改进。
[0003]目前这些渠道的新闻更多地是报道当下事件的进展和状况,很少追溯事件的前因,让听众对事件有整体的了解。虽然在社交平台上新闻播报有所改善,尽可对相关事件进行挖掘,但是通常依靠人工查找资料,进行关键信息提取,并汇总成新的文字,因此需要投入较多的人力,效率较低。高投入低回报的特点导致不会有人专门去做这些工作。如果读者只想要简单了解和当天新闻有关的资料,通常情况下只能自己去搜索相关内容。由于现在的搜索引擎不一定是按照精准匹配进行推送,读者还需要自己筛选哪些是有关的,哪些是无关的,浪费精力和时间。

技术实现思路

[0004]本专利技术的主要目的在于提供一种自动生成新闻频道信息的方法、装置、设备、及存储介质,用以解决上述技术问题。
[0005]第一方面,本专利技术提供一种自动生成新闻频道信息的方法,所述方法包括以下步骤:
[0006]步骤S1:确定目标新闻主题;分别获取所述目标新闻主题对应的不同的源新闻标题,按各源新闻标题的时间顺序分别爬取相应的内容;判断各源新闻标题的网络地址是否已经存在数据库中;
[0007]步骤S2:将所述数据库中不存在的网络地址对应的源新闻标题作为目标源新闻标题,针对各目标源新闻标题,从已爬取的内容中确定新闻基本信息,并从已爬取的内容中选择若干句子来生成所述目标新闻主题的新闻摘要,并将所述新闻基本信息和所述新闻摘要存储到所述数据库中;
[0008]步骤S3:将所述新闻摘要的文本内容转化为语音信息,并将所述语言信息保存;
[0009]步骤S4:通过各目标源新闻标题的网络地址来爬取所述目标新闻主题相关的新闻事件图片,将爬取的新闻事件图片保存在所述数据库中;
[0010]步骤S5:根据所述新闻摘要的文本内容、所述语音信息、以及所述新闻事件图片合成目标新闻主题视频;
[0011]步骤S6:将生成的所述目标新闻主题视频插入到当前新闻,标明所述目标新闻主题的标题以及相应时间,生成所述目标新闻主题相关的的专属频道信息。
[0012]优选地,如权利要求1一种新闻频道信息自动生成的方法,其特征在于,在所述步
骤S1中采用增量式爬虫的方式爬取源新闻标题的新闻内容,具体包括:
[0013]使用预设网络爬虫工具,所述预设网络爬虫工具从启动到关闭期间设立一个网络地址集合,将所述预设网络爬虫工具运行期间爬取过的网络地址放入所述网络地址集合,每次对待处理网络地址发起请求时,将待处理的网络地址与所述网络地址集合中已有的网络地址进行比对,并过滤掉爬取过的重复网络地址。
[0014]优选地,所述步骤S2中生成所述目标新闻主题的新闻摘要的步骤为:
[0015]摘要采用提取式的算法,计算出各句子的权重,根据各句子的权重选择若干句子拼接成段作为此新闻的摘要,其中,各句子权重的通过以下公式计算获得:
[0016][0017]其中,d为阻尼系数,S0为源新闻标题中的词和句子中的词重复的个数,S
i
为第i个句子中的词数,In(V
i
)和Out(V
j
)分别为指向节点V
i
的节点集合和从节点V
i
出发边指向的节点集合,WS(V
i
)表示节点V
i
的rank值,WS(V
j
)表示节点V
j
的rank值,w
ji
表示V
j
到V
i
的权值即句子之间的相似度,W
jk
表示V
j
到V
k
的权值;通过S0和S
i
的比例实现新闻标题对句子权重的影响。
[0018]优选地,所述步骤S4还包括:
[0019]在每次爬取所述目标新闻主题相关的当前新闻事件图片时,将对应的网络地址中的预设字段进行去除并缓存,得到待比对网络地址;
[0020]在爬取所述目标新闻主题相关的下一新闻事件图片时,比较两待比对网络地址之间的差异:
[0021]若比较结果为无差异,则跳过当前步骤并继续爬取下一新闻事件图片;若
[0022]比较结果为存在差异,则执行将爬取的新闻事件图片保存在所述数据库中的步骤。
[0023]优选地,在所述步骤S5中,以所述新闻摘要的文本内容作为所述目标新闻主题的字幕,以所述语言信息作为所述目标新闻主题的音频,以新闻事件图片作为所述目标新闻主题视频的背景。
[0024]可选地,所述步骤S5之前,还包括:
[0025]响应用户输入的查询请求,从所述数据库中查找相应的新闻主题视频,并对查找到的已合成目标新闻主题视频进行展示;
[0026]在接收到用户对视频的选定操作之后,执行所述步骤S6的步骤。
[0027]第二方面,本专利技术还提出一种自动生成新闻频道信息的装置,所述装置包括:
[0028]爬虫模块:用于确定目标新闻主题;分别获取所述目标新闻主题对应的不同的源新闻标题,按各源新闻标题的时间顺序分别爬取相应的内容;判断各源新闻标题的网络地址是否已经存在数据库中;
[0029]自动摘要模块:若确定所述数据库中不存在的网络地址对应的目标源新闻标题,则针对各目标源新闻标题,从已爬取的内容中确定新闻基本信息,并从已爬取的内容中选择若干句子来生成所述目标新闻主题的新闻摘要,并将所述新闻基本信息和所述新闻摘要存储到所述数据库中;
[0030]合成视频模块:将所述新闻摘要的文本内容转化为语音信息,并将所述语言信息保存;通过各目标源新闻标题的网络地址爬取所述目标新闻主题相关的新闻事件图片,将爬取的新闻事件图片保存在所述数据库中;根据所述新闻摘要的文本内容、所述语音信息、以及所述新闻事件图片合成目标新闻主题视频;
[0031]视频发布模块,用于响应用户输入的查询请求,从所述数据库中查找相应的新闻主题视频,并对查找到的已合成目标新闻主题视频进行展示;在接收到用户对视频的选定操作之后,将生成的所述目标新闻主题视频插入到当前新闻,标明所述目标新闻主题的标题以及相应时间,生成所述目标新闻主题相关的的专属频道信息。
[0032]第三方面,本专利技术还提出一种自动生成新闻频道信息的设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的自动生成新闻频道信息的程序,所述程序配置为实现如上任一项所述的自动生成新闻频道信息方法的步骤。
[0033]第三方面,本专利技术还提出一种存储介质,所述存储介质上存储有自动生成新闻频道信息的程序,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动生成新闻频道信息的方法,其特征在于,所述方法包括以下步骤:步骤S1:确定目标新闻主题;分别获取所述目标新闻主题对应的不同的源新闻标题,按各源新闻标题的时间顺序分别爬取相应的内容;判断各源新闻标题的网络地址是否已经存在数据库中;步骤S2:将所述数据库中不存在的网络地址对应的源新闻标题作为目标源新闻标题,针对各目标源新闻标题,从已爬取的内容中确定新闻基本信息,并从已爬取的内容中选择若干句子来生成所述目标新闻主题的新闻摘要,并将所述新闻基本信息和所述新闻摘要存储到所述数据库中;步骤S3:将所述新闻摘要的文本内容转化为语音信息,并将所述语言信息保存;步骤S4:通过各目标源新闻标题的网络地址来爬取所述目标新闻主题相关的新闻事件图片,将爬取的新闻事件图片保存在所述数据库中;步骤S5:根据所述新闻摘要的文本内容、所述语音信息、以及所述新闻事件图片合成目标新闻主题视频;步骤S6:将生成的所述目标新闻主题视频插入到当前新闻,标明所述目标新闻主题的标题以及相应时间,生成所述目标新闻主题相关的的专属频道信息。2.如权利要求1一种新闻频道信息自动生成的方法,其特征在于,在所述步骤S1中采用增量式爬虫的方式爬取源新闻标题的新闻内容,具体包括:使用预设网络爬虫工具,所述预设网络爬虫工具从启动到关闭期间设立一个网络地址集合,将所述预设网络爬虫工具运行期间爬取过的网络地址放入所述网络地址集合,每次对待处理网络地址发起请求时,将待处理的网络地址与所述网络地址集合中已有的网络地址进行比对,并过滤掉爬取过的重复网络地址。3.如权利要求1一种新闻频道信息自动生成的方法,其特征在于,所述步骤S2中生成所述目标新闻主题的新闻摘要的步骤为:摘要采用提取式的算法,计算出各句子的权重,根据各句子的权重选择若干句子拼接成段作为此新闻的摘要,其中,各句子权重的通过以下公式计算获得:其中,d为阻尼系数,S0为源新闻标题中的词和句子中的词重复的个数,S
i
为第i个句子中的词数,In(V
i
)和Out(V
j
)分别为指向节点V
i
的节点集合和从节点V
i
出发边指向的节点集合,WS(V
i
)表示节点V
i
的rank值,WS(V
j
)表示节点V
j
的rank值,w
ji
表示V
j
到V
i
的权值即句子之间的相似度,W
jk
表示V
j
到V
k
的权值;通过S0和S
i
的比例实现新闻标题对句子权重...

【专利技术属性】
技术研发人员:叶正胡志博覃俊刘晶葛君
申请(专利权)人:中南民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1