基于多尺度空间-时间特征的会议视频插帧方法及系统技术方案

技术编号：39725287 阅读：12 留言：0更新日期：2023-12-17 23:30

本发明专利技术提供了一种基于多尺度空间

全部详细技术资料下载

【技术实现步骤摘要】
基于多尺度空间
‑
时间特征的会议视频插帧方法及系统

[0001]本专利技术涉及一种视频增强
(
提升视频帧率
)

，尤其涉及一种基于多尺度空间
‑
时间特征的会议视频插帧技术
。

技术介绍

[0002]视频会议是一种通过网络连接远程参与者进行实时音视频通信的技术，其近年来得到广泛应用，成为人们远程办公
、
学习
、
医疗等领域的主要工具之一
。
视频会议通过降低参与者的时间和空间限制，提高了工作效率和沟通效果，成为现代社会中不可或缺的通讯方式之一
。
但是由于网络宽带不足
、
硬件设备性能不佳，视频编码解码效率低下等导致视频会议中的视频数据传输的延迟和丢失，从而影响视频帧率的稳定性和流畅度，造成视频卡顿，这严重影响到用户的视听体验和沟通效率
。
本次实验就是专利技术一种提升视频帧率的方法，利用神经网络实现会议视频插帧以提升会议视频帧率以及画面流畅度
。
[0003]所述视频插帧，是指通过在两个视频帧之间插入新的帧来增加视频的帧率，这些新帧通常是根据相邻帧之间的运动进行估计和合成的，通过增加帧率使视频的流畅度提高，减少卡顿的现象
。
[0004]由于现有的视频插帧技术存在插帧效果不稳定的情况，虽然可以提升视频的帧率，但是画面内容上存在异常，给用户带来突兀感，显然现有的视频插帧方法的性能有待提升
。
>
技术实现思路

[0005]本专利技术的专利技术目的在于提供了一种视频增强
(
提升视频帧率
)
技术，可以根据输入视频的连续两帧插入中间帧，从而提升视频帧率，使视频画面更加流畅
。
[0006]为了实现上述目的，本专利技术提出一种基于多尺度空间
‑
时间特征的会议视频插帧方法，包括获取低帧率的视频，将视频分帧；将奇数帧作为输入帧，偶数帧作为中间帧，构建训练集和测试集；提取训练集输入帧的多尺度空间
‑
时间特征；将提取的空间
‑
时间特征，输入到合成器中，通过相应
2D
卷积神经网络估计卷积核
、
偏移以及权重，合成中间帧；计算网络的损失函数，设置参数，并训练神经网络；测试神经网络，将测试集输入帧输入到神经网络模型中进行测试，得到中间帧，实现基于神经网络模型获取视频插帧结果
。
[0007]而且，所述的将视频分帧，是根据视频帧率将视频分帧
。
[0008]而且，对输入帧提取多尺度空间
‑
时间特征的实现方式如下，
[0009]1)
使用
3D
卷积提取输入帧的浅层空间
‑
时间特征；
[0010]2)
将浅层空间
‑
时间特征
F
按照时间维度进行切分
(
并送入多层感知机
MLP
处理，提取时间特征
F
t
；
[0011]3)
将时间特征
F
t
以及对
F
t
分别按照水平和垂直方向切分得到的特征分别送入多层感知机
MLP
处理，进一步提取空间特征
F
c
、F
h
、F
v
；
[0012]4)
将空间特征
F
c
、F
h
、F
v
使用
3D
卷积下采样；
[0013]5)
迭代进行
2)
‑
4)
，实现多个尺度的处理，在不同尺度设置不同的切分长度以提取局部和全局特征；
[0014]6)
将得到的特征送入解码器进行解码，以将特征的大小恢复成与输入帧大小一致
。
[0015]而且，所述合成器中，所述的卷积核和权重是通过使用
2D
卷积神经网络以及
softmax
激活函数得到的，偏移是通过
2D
卷积神经网络得到的，利用卷积核以及偏移使用可变形卷积对输入帧进行处理，通过与权重结合得到中间帧
。
[0016]而且，使用测试集数据测试网络时，使用图像质量评价指标评价模型质量，将峰值信噪比
PSNR、
结构相似性
SSIM
以及学习感知图像块相似度
LPIPS
作为衡量中间帧质量的评价指标
。
[0017]另一方面，本专利技术提供一种基于多尺度空间
‑
时间特征的会议视频插帧系统，用于实现如上所述的一种基于多尺度空间
‑
时间特征的会议视频插帧方法
。
[0018]而且，包括以下模块，
[0019]第一模块，用于获取低帧率的视频，将视频分帧；
[0020]第二模块，用于将奇数帧作为输入帧，偶数帧作为中间帧，构建训练集和测试集；
[0021]第三模块，用于提取训练集输入帧的多尺度空间
‑
时间特征；
[0022]第四模块，用于将提取的空间
‑
时间特征，输入到合成器中，通过相应
2D
卷积神经网络估计卷积核
、
偏移以及权重，合成中间帧；
[0023]第五模块，用于计算网络的损失函数，设置参数，并训练神经网络；
[0024]第六模块，用于测试神经网络，将测试集输入帧输入到神经网络模型中进行测试，得到中间帧，实现基于神经网络模型获取视频插帧结果
。
[0025]或者，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种基于多尺度空间
‑
时间特征的会议视频插帧方法
。
[0026]或者，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种基于多尺度空间
‑
时间特征的会议视频插帧方法
。
[0027]本专利技术提供了一种基于多尺度空间
‑
时间特征的会议视频插帧方案：获取低帧率视频并将视频分帧；将视频中的奇数帧作为输入帧，偶数帧作为中间帧构建训练集和测试集；将训练集中的奇数帧送入神经网络训练中得到模型；将测试集奇数帧送入该神经网络中进行测试，得到中间帧，将中间帧与原始奇数帧组合提升视频帧率；将峰值信噪比
、
结构相似性以及学习感知图像块相似度作为衡量中间帧质量的评价指标
。
本专利技术利用多尺度空间
‑
时间特征实现在视频的连续两帧中插入中间帧，达到提升视频帧率使视频更加流畅的效果
。
[0028]本专利技术方案实施简单本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于多尺度空间
‑
时间特征的会议视频插帧方法，其特征在于：包括获取低帧率的视频，将视频分帧；将奇数帧作为输入帧，偶数帧作为中间帧，构建训练集和测试集；提取训练集输入帧的多尺度空间
‑
时间特征；将提取的空间
‑
时间特征，输入到合成器中，通过相应
2D
卷积神经网络估计卷积核
、
偏移以及权重，合成中间帧；计算网络的损失函数，设置参数，并训练神经网络；测试神经网络，将测试集输入帧输入到神经网络模型中进行测试，得到中间帧，实现基于神经网络模型获取视频插帧结果
。2.
根据权利要求1所述的一种基于多尺度空间
‑
时间特征的会议视频插帧方法，其特征在于：所述的将视频分帧，是根据视频帧率将视频分帧
。3.
根据权利要求1所述的一种基于多尺度空间
‑
时间特征的会议视频插帧方法，其特征在于：对输入帧提取多尺度空间
‑
时间特征的实现方式如下，
1)
使用
3D
卷积提取输入帧的浅层空间
‑
时间特征；
2)
将浅层空间
‑
时间特征
F
按照时间维度进行切分
(
并送入多层感知机
MLP
处理，提取时间特征
F
t
；
3)
将时间特征
F
t
以及对
F
t
分别按照水平和垂直方向切分得到的特征分别送入多层感知机
MLP
处理，进一步提取空间特征
F
c
、F
h
、F
v
；
4)
将空间特征
F
c
、F
h
、F
v
使用
3D
卷积下采样；
5)
迭代进行
2)
‑
4)
，实现多个尺度的处理，在不同尺度设置不同的切分长度以提取局部和全局特征；
6)
将得到的特征送入解码器进行解码，以将特征的大小恢复成与输入帧大小一致
。4.
根据权利要求1所述的一种基于多尺度空间
‑

【专利技术属性】
技术研发人员：李登实，王前瑞，肖晶，李巍，高雨，宋昊，薛童，陈澳雷，朱晨倚，
申请(专利权)人：江汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人