一种基于多模态信息融合理解的全媒体新闻智能编目方法技术

技术编号:28503262 阅读:44 留言:0更新日期:2021-05-19 22:51
本发明专利技术公开了一种基于多模态信息融合的全媒体新闻智能编目方法,对全媒体新闻中的视频信息、语音信息、字幕条信息、人物信息进行统一表征与融合理解来获得多模态融合特征,使用多模态融合特征实现新闻的自动切片、自动编目描述、自动场景分类。本发明专利技术的有益效果在于:实现了面向全媒体新闻的自动化综合编目的完整流程,通过在视频、音频、文本多种模态融合的基础上生成拆条标记、新闻编目描述、新闻分类标签、新闻关键词、新闻人物,提高了编目方法的准确率与泛化性,并大幅减少人工编目时间。并大幅减少人工编目时间。并大幅减少人工编目时间。

【技术实现步骤摘要】
一种基于多模态信息融合理解的全媒体新闻智能编目方法


[0001]本专利技术涉及智能媒体领域,具体涉及一种基于多模态信息融合理解的全媒体新闻智能编目方法。

技术介绍

[0002]随着智能移动设备的普及以及数字媒体内容的发展,包含图像、视频、语音、文本等全媒体新闻内容被高频生产并快速传播,海量资源与高人力成本的问题使得传媒行业越来越迫切的寻求在分类、编目、检索等资源管理流程中的智能化方法。
[0003]全媒体新闻是典型的多模态内容载体,它包含了新闻现场或演播室影像、新闻字幕文本、新闻播报语音等多模态信息,这使得面向单模态处理的智能技术无法有效替代编目任务中的人工流程。相比于单模态,多模态之间的互补性、关联性提供了求解每种模态潜在解释因素的监督信息,对多模态信息进行表征、转化、融合等综合的处理更接近于人类智能对自然界的感知与理解模式。因此,如何融合新闻内容中多种模态信息,实现资源的自动化编目流程,是媒体行业广泛存在的需求和挑战。
[0004]目前,不论是以电视台为代表的传统广电单位,还是以今日头条为代表的新兴自媒体社区,人工编目仍然是媒体内容分类入库的普遍方法,其一般步骤是:编目人员先将新闻视频按场景或镜头进行切片(拆条)标注,然后对各个片段的内容进行文本描述、关键词描述、广电分类描述、关键人物描述等,最后提交入库。高质量的新闻编目可以提供优质的资源检索、资源点播、资源推荐等服务,是全媒体时代重要的基础业务流程。尽管近年来有云媒资系统、深度学习等新框架或新技术的辅助,增加了新闻编目流程的自动化程度,但它们常限于对资源的云端管理,或是对单模态内容的单任务处理,无法覆盖编目所需的完整流程以实现全面的智能化流水线。我们将当前已有的编目方法归纳如下:
[0005]1.传统编目管理系统:采用手动的方式进行新闻资源的切片、描述、分类等,全部操作取决于编目人员的主观判断。该方法普遍用于传媒行业的传统媒资管理系统,管理人员首先登录系统,然后对待编资源进行相应操作,最后提交系统完成入库。
[0006]2.具有智能拆条辅助的编目系统:采用基于镜头转换的分割方法,将新闻资源拆分为独立片段(即自动标注拆条的起止时间),编目人员对切片效果进行确认,然后手动完成片段描述、分类等后续工作。
[0007]3.具有智能场景分类的编目系统:采用深度学习等技术对视频场景进行智能分类,自动为视频标注“综艺”、“体育”、“动画”等场景标签,编目人员对分类标签进行确认,然后手动完成拆条、片段描述、分类等后续工作。
[0008]4.综合智能编目系统:包含上述1、2、3条中若干功能的综合系统,但系统中的各个功能都是相对独立的,即针对同一资源分别运行对应的算法以生成基于单模态信息的结果。
[0009]上述编目方法存在两点主要缺陷。第一,系统中涉及到的智能算法均是面向单模态内容的提取、分析和生成方法,即使计算机视觉、自然语言处理、语音识别等人工智能技
术在单模态信息的处理任务上已经达到了接近或超越人脑的能力,但单模态的信息往往难以提供场景或现象中的完整知识;在全媒体新闻编目流程中,由于缺少对新闻内容包含的多模态信息的统一表征(融合)与综合分析(理解)的有效方法,大量的分类、标注、描述、审核工作仍然需要投入较多的人工成本来完成。第二,智能编目系统中的视频镜头分割、视频语义描述等方法是从已有的机器学习任务场景移植来的,这些方法在面向新闻报道场景时存在兼容问题:基于镜头转换的分割仅考虑前后帧的变化,常用于关键帧提取的前置步骤,但它没有考虑同一场景中事件的连续性,如同一事件中远景与中景的镜头的切换在新闻编目中一般认为是一个片段,不需要加以分割;视频语义描述常分析场景中的动作及事件的描述,但它没有聚焦核心人物的行为事件,这与编目中的片段内容描述需求不符。

技术实现思路

[0010]本专利技术针对现有编目过程中新闻内容单模态处理模式所导致的效果瓶颈与人工依赖问题,以及面向新闻报道内容的编目算法兼容性问题,提出一种基于多模态信息融合理解的全媒体新闻智能编目方法,该方法提升了从新闻报道中获取编目所需知识的完整性、有效性和兼容性,从而实现更高准确度与自动化程度的智能编目流程。
[0011]一种基于多模态信息融合理解的全媒体新闻智能编目方法,包括以下步骤:
[0012]1)获取原始新闻视频,分割镜头片段并定位场景关键帧;
[0013]2)从步骤1)获得的推理场景分类标签并合并相邻的相似场景标签的镜头片段,生成多个切片片段;
[0014]3)对步骤2)获得的切片片段进行视觉特征提取并生成新闻描述文本;
[0015]4)对步骤2)获得的切片片段进行语音识别获得语音文本;
[0016]5)抽取步骤2)获得的切片片段的图像帧识别获得字幕条文本;
[0017]6)识别步骤2)获得的切片片段中的人脸特征并在新闻人物库中进行匹配,得到人物信息文本;
[0018]7)将步骤3)得到的新闻描述文本、步骤4)得到的语音文本、步骤5)得到的字幕条文本、步骤6)得到的人物信息文本,输入到多模态融合的生成模型处理,生成新闻关键词及综合编目描述,经过整理和组装后输出,完成新闻智能编目。
[0019]步骤1)中,获取原始新闻视频,分割镜头片段并定位场景关键帧,具体包括:
[0020]将原始新闻视频处理为成静态图像帧集合,计算每一帧与其上一帧图像之间的直方图差异值,设置窗口范围与窗口移动步长,将窗口内的拥有最大差异值的帧作为镜头边界帧,将两个镜头边界帧间的所有帧作为一个镜头片段(将第i个镜头片段记为D
i
,i为从1开始的片段序号),抽取各个镜头片段的中间帧作为该片段的场景关键帧(将片段D
i
中的场景关键帧记为k
i
)。
[0021]步骤2)中,从步骤1)获得的推理场景分类标签并合并相邻的相似场景标签的镜头片段,生成多个切片片段,具体包括:
[0022]A)通过已训练的用于新闻场景分类任务的残差网络来提取各个场景关键帧k
i
的视觉特征并推理获得最高匹配度的面向新闻场景的场景分类标签(预设的新闻场景分类标签包含“演播室”、“会议现场”、“户外连线”等新闻报道中的常见场景);
[0023]B)基于步骤A)中获得的各个片段的场景分类标签进行相邻同场景合并处理;
[0024]C):将步骤B)处理后仍保留的镜头边界标记作为新闻视频的切片标记,将相邻镜头边界标记之间的帧序列作为一个切片片段,生成多个切片片段。
[0025]步骤B)中,具体包括:若k
i
的场景分类标签与k
i
‑1的场景分类标签重合率大于预设的阈值(本专利技术中设置为0.5),则删除片段D
i
与D
i
‑1间的镜头边界标记,取两者的场景分类标签并集作为合并后片段的新分类标签。
[0026]步骤3)中,基于步骤2)的切片片段,通过已训练的新闻视频编目描述模型生成各个片段的视频描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态信息融合理解的全媒体新闻智能编目方法,其特征在于,包括以下步骤:1)获取原始新闻视频,分割镜头片段并定位场景关键帧;2)从步骤1)获得的推理场景分类标签并合并相邻的相似场景标签的镜头片段,生成多个切片片段;3)对步骤2)获得的切片片段进行视觉特征提取并生成新闻描述文本;4)对步骤2)获得的切片片段进行语音识别获得语音文本;5)抽取步骤2)获得的切片片段的图像帧识别获得字幕条文本;6)识别步骤2)获得的切片片段中的人脸特征并在新闻人物库中进行匹配,得到人物信息文本;7)将步骤3)得到的新闻描述文本、步骤4)得到的语音文本、步骤5)得到的字幕条文本、步骤6)得到的人物信息文本,输入到多模态融合的生成模型处理,生成新闻关键词及综合编目描述,经过整理和组装后输出,完成新闻智能编目。2.根据权利要求1所述的基于多模态信息融合理解的全媒体新闻智能编目方法,其特征在于,步骤1)中,获取原始新闻视频,分割镜头片段并定位场景关键帧,具体包括:将原始新闻视频处理为成静态图像帧集合,计算每一帧与其上一帧图像之间的直方图差异值,设置窗口范围与窗口移动步长,将窗口内的拥有最大差异值的帧作为镜头边界帧,将两个镜头边界帧间的所有帧作为一个镜头片段,抽取各个镜头片段的中间帧作为该片段的场景关键帧。3.根据权利要求1所述的基于多模态信息融合理解的全媒体新闻智能编目方法,其特征在于,步骤2)中,从步骤1)获得的推理场景分类标签并合并相邻的相似场景标签的镜头片段,生成多个切片片段,具体包括:A)通过已训练的用于新闻场景分类任务的残差网络来提取各个场景关键帧的视觉特征并推理获得最高匹配度的面向新闻场景的场景分类标签;B)基于步骤A)中获得的各个片段的场景分类标签进行相邻同场景合并处理;C):将步骤B)处理后仍保留的镜头边界标记作为新闻视频的切片标记,将相邻镜头边界标记之间的帧序列作为一个切片片段,生成多个切片片段。4.根据权利要求1所述的基于多模态信息融合理解的全媒体新闻智能编目方法,其特征在于,步骤7)中,步骤3)得到的新闻描述文本作为主要特征,步骤4)得到的语音文本、步骤5)得到的字幕条文本以及步骤6)得到的人物信息文本作为辅助特征,输入到多模态融合的生成模型中。5.根据权利要求1所述的基于多模态信息融合理解的全媒体新闻智能编目方法,其特征在于,步骤7)中,多模态融合的生成模型处理,具体包括:将新闻描述文本、语音文本、字幕条文本和人物信息文本输入到已通过新闻语料文本训练的嵌入层中,使文本转化为语义特征向量,然后将这些向量通过统一映射层分别映射到统一的语义空间中,接着将统一...

【专利技术属性】
技术研发人员:张随雨俞定国方莉萍钱永江王亚奇马小雨
申请(专利权)人:浙江传媒学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1