一种基于多模态信息融合理解的全媒体新闻智能编目方法技术

技术编号：28503262 阅读：44 留言：0更新日期：2021-05-19 22:51

本发明专利技术公开了一种基于多模态信息融合的全媒体新闻智能编目方法，对全媒体新闻中的视频信息、语音信息、字幕条信息、人物信息进行统一表征与融合理解来获得多模态融合特征，使用多模态融合特征实现新闻的自动切片、自动编目描述、自动场景分类。本发明专利技术的有益效果在于：实现了面向全媒体新闻的自动化综合编目的完整流程，通过在视频、音频、文本多种模态融合的基础上生成拆条标记、新闻编目描述、新闻分类标签、新闻关键词、新闻人物，提高了编目方法的准确率与泛化性，并大幅减少人工编目时间。并大幅减少人工编目时间。并大幅减少人工编目时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态信息融合理解的全媒体新闻智能编目方法

[0001]本专利技术涉及智能媒体领域，具体涉及一种基于多模态信息融合理解的全媒体新闻智能编目方法。

技术介绍

[0002]随着智能移动设备的普及以及数字媒体内容的发展，包含图像、视频、语音、文本等全媒体新闻内容被高频生产并快速传播，海量资源与高人力成本的问题使得传媒行业越来越迫切的寻求在分类、编目、检索等资源管理流程中的智能化方法。
[0003]全媒体新闻是典型的多模态内容载体，它包含了新闻现场或演播室影像、新闻字幕文本、新闻播报语音等多模态信息，这使得面向单模态处理的智能技术无法有效替代编目任务中的人工流程。相比于单模态，多模态之间的互补性、关联性提供了求解每种模态潜在解释因素的监督信息，对多模态信息进行表征、转化、融合等综合的处理更接近于人类智能对自然界的感知与理解模式。因此，如何融合新闻内容中多种模态信息，实现资源的自动化编目流程，是媒体行业广泛存在的需求和挑战。
[0004]目前，不论是以电视台为代表的传统广电单位，还是以今日头条为代表的新兴自媒体社区，人工编目仍然是媒体内容分类入库的普遍方法，其一般步骤是：编目人员先将新闻视频按场景或镜头进行切片(拆条)标注，然后对各个片段的内容进行文本描述、关键词描述、广电分类描述、关键人物描述等，最后提交入库。高质量的新闻编目可以提供优质的资源检索、资源点播、资源推荐等服务，是全媒体时代重要的基础业务流程。尽管近年来有云媒资系统、深度学习等新框架或新技术的辅助，增加了新闻编目流程的自动化程度，但它们常...

【技术保护点】

【技术特征摘要】
1.一种基于多模态信息融合理解的全媒体新闻智能编目方法，其特征在于，包括以下步骤：1)获取原始新闻视频，分割镜头片段并定位场景关键帧；2)从步骤1)获得的推理场景分类标签并合并相邻的相似场景标签的镜头片段，生成多个切片片段；3)对步骤2)获得的切片片段进行视觉特征提取并生成新闻描述文本；4)对步骤2)获得的切片片段进行语音识别获得语音文本；5)抽取步骤2)获得的切片片段的图像帧识别获得字幕条文本；6)识别步骤2)获得的切片片段中的人脸特征并在新闻人物库中进行匹配，得到人物信息文本；7)将步骤3)得到的新闻描述文本、步骤4)得到的语音文本、步骤5)得到的字幕条文本、步骤6)得到的人物信息文本，输入到多模态融合的生成模型处理，生成新闻关键词及综合编目描述，经过整理和组装后输出，完成新闻智能编目。2.根据权利要求1所述的基于多模态信息融合理解的全媒体新闻智能编目方法，其特征在于，步骤1)中，获取原始新闻视频，分割镜头片段并定位场景关键帧，具体包括：将原始新闻视频处理为成静态图像帧集合，计算每一帧与其上一帧图像之间的直方图差异值，设置窗口范围与窗口移动步长，将窗口内的拥有最大差异值的帧作为镜头边界帧，将两个镜头边界帧间的所有帧作为一个镜头片段，抽取各个镜头片段的中间帧作为该片段的场景关键帧。3.根据权利要求1所述的基于多模态信息融合理解的全媒体新闻智能编目方法，其特征在于，步骤2)中，从步骤1)获得的推理场景分类标签并合并相邻的相似场景标签的镜头片段，生成多个切片片段，具体包括：A)通过已训练的用于新闻场景分类任务的残差网络来提取各个场景关键帧的视觉特征并推理获得最高匹配度的面向新闻场景的场景分类标签；B)基于步骤A)中获得的各个片段的场景分类标签进行相邻同场景合并处理；C)：将步骤B)处理后仍保留的镜头边界标记作为新闻视频的切片标记，将相邻镜头边界标记之间的帧序列作为一个切片片段，生成多个切片片段。4.根据权利要求1所述的基于多模态信息融合理解的全媒体新闻智能编目方法，其特征在于，步骤7)中，步骤3)得到的新闻描述文本作为主要特征，步骤4)得到的语音文本、步骤5)得到的字幕条文本以及步骤6)得到的人物信息文本作为辅助特征，输入到多模态融合的生成模型中。5.根据权利要求1所述的基于多模态信息融合理解的全媒体新闻智能编目方法，其特征在于，步骤7)中，多模态融合的生成模型处理，具体包括：将新闻描述文本、语音文本、字幕条文本和人物信息文本输入到已通过新闻语料文本训练的嵌入层中，使文本转化为语义特征向量，然后将这些向量通过统一映射层分别映射到统一的语义空间中，接着将统一...

【专利技术属性】
技术研发人员：张随雨，俞定国，方莉萍，钱永江，王亚奇，马小雨，
申请(专利权)人：浙江传媒学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人