一种端到端的视频唇音帧差检测方法和装置制造方法及图纸

技术编号：42506773 阅读：26 留言：0更新日期：2024-08-22 14:22

本发明专利技术提供一种端到端的视频唇音帧差检测方法和装置，涉及音画同步检测技术领域。其中，这种检测方法包含步骤S1至步骤S4。S1、获取待识别视频。S2、根据所述待识别视频，随机抽取第一预设长度的视频片段。S3、提取视频片段中间的连续N帧的人脸嘴部区域的图像序列。S4、将视频片段的音频和所述图像序列分别输入预先训练好的唇音对齐检测模型的音频编码通道和视频编码通道，获取所述图像序列和所述音频的同步关系，以及具体的帧差。其中，同步关系包含帧差为零的完全同步关系、帧差在预设值内的交叉关系，以及音频中不包含图像序列的音频的完全不同步关系。该检测方法能够端到端的检测，大大提高了音视频对齐检测的效率，具有很好的实际意义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音画同步检测，具体而言，涉及一种端到端的视频唇音帧差检测方法和装置。

技术介绍

1、音视频同步在众多领域有着广泛应用，例如在影视制作中确保角色的口型与语音完美匹配，提升观众的观看体验；在在线教育中保证教师授课的画面与声音同步，让学习过程更加流畅；在视频会议中实现发言者的图像与声音的一致性，保障交流的准确性。

2、现有的音视频同步技术中，syncnet 是其中一种。它通过从视频的特定窗口大小的片段中提取视频连续帧和音频，利用双通道网络进行编码，并采用对比损失来度量视频特征向量和音频特征向量的距离以判断同步情况。这在唇音同步检测技术中是一种相对简单且有效的方案。

3、然而，syncnet存在明显不足。其一，当需要对大量视频进行唇音同步识别时，相关工作非常耗时。比如在确定非唇音同步视频的具体帧差时，不是端到端计算，而是需要选取连续视频帧在时间轴上对应的音频以及前后多个音频片段，每次计算都需要大量的音视频片段作为输入，计算量极大。其二，该网络较少考虑唇音变化在时间序列上的因果关系，比如视频中相邻帧嘴形之间的预测关系，这导致识别效果差，同时也增加了计算量。

4、有鉴于此，申请人在研究了现有的技术后特提出本申请。

技术实现思路

1、本专利技术提供了一种端到端的视频唇音帧差检测方法和装置，以改善上述技术问题中的至少一个。

2、第一方面、本专利技术实施例提供了一种端到端的视频唇音帧差检测方法，其包含步骤s1至步骤s4。

3、s1、获取待识别视频。

4、s2、根据所述待识别视频，随机抽取第一预设长度的视频片段。

5、s3、提取视频片段中间的连续n帧的人脸嘴部区域的图像序列。

6、s4、将视频片段的音频和所述图像序列分别输入预先训练好的唇音对齐检测模型的音频编码通道和视频编码通道，获取所述图像序列和所述音频的同步关系，以及具体的帧差。其中，同步关系包含帧差为零的完全同步关系、帧差在预设值内的交叉关系，以及音频中不包含图像序列的音频的完全不同步关系。

7、在一个可选的实施例中，所述第一预设长度为2n+1、2n或3n。

8、在一个可选的实施例中，步骤s3具体包括步骤s31至步骤s36。

9、s31、提取视频片段中间的连续n帧的图像。

10、s32、分别对每帧图像执行以下操作，获取人脸嘴部区域的图像序列。

11、s33、通过人脸检测模型检测图像，获取人脸关键点信息。

12、s34、根据所述人脸关键点信息，获取嘴部区域关键点的中间坐标。

13、s35、根据所述中间坐标和所述人脸关键点信息，计算眉心到鼻尖的距离length。

14、s36、将图像以所述中间坐标往上下左右分别外扩length像素长度进行裁剪，获取嘴部区域图片。

15、在一个可选的实施例中，所述唇音对齐检测模型包括视频编码通道、音频编码通道、拼接层和第三全连接层。

16、视频编码通道包含依次连接的第一特征提取层、第二特征提取层、第三卷积层、第四卷积层、第五卷积层、第六卷积层和第一全连接层。其中，第一特征提取层包含依次连接的第一卷积层和第一池化层。第二特征提取层包含依次连接的第二卷积层和第二池化层。

17、音频编码通道包含依次连接的第三特征提取层、第四特征提取层、第九卷积层、第十卷积层、第十一卷积层、第十二卷积层和第二全连接层。其中，第三特征提取层包含依次连接的第七卷积层和第三池化层。第四特征提取层包含依次连接的第八卷积层、和第四池化层。

18、拼接层构造为用以拼接视频编码通道的输出和音频编码通道的输出。第三全连接层连接于所述拼接层，用以输出所述图像序列和所述音频的同步关系，以及具体的帧差。

19、在一个可选的实施例中，第一卷积层包含96个3x3的卷积核。第一池化层的池化核为1x1。第二卷积层包含256个3x3的卷积核。第二池化层的池化核为3x3。第三卷积层包含256个3x3的卷积核。第四卷积层包含256个3x3的卷积核。第五卷积层包含256个3x3的卷积核。第六卷积层包含512个6x6的卷积核。第一全连接层的神经元数量为512。

20、在一个可选的实施例中，第七卷积层包含96个3x3的卷积核。第三池化层的池化核为1x1。第八卷积层包含256个3x3的卷积核。第四池化层的池化核为3x3。第九卷积层包含256个3x3的卷积核。第十卷积层包含256个3x3的卷积核。第十一卷积层包含256个3x3的卷积核。第十二卷积层包含512个6x6的卷积核。第二全连接层的神经元数量为512。

21、在一个可选的实施例中，第三全连接层的神经元数量为第一预设长度+1。

22、在一个可选的实施例中，唇音对齐检测模型训练时的样本数据的采样方法为：

23、获取音画对齐的初始视频。

24、从所述初始视频中提取连续的n帧画面，获取训练图像序列。

25、以所述连续的n帧画面所在的时间段为起点向前和向后扩展n帧，获取音频提取框，并提取当前位置的正相关音频样本。

26、将所述音频提取框向前移动n次每次移动1帧，每次移动提取一个交叉相关音频样本，以及将所述音频提取框向后移动n次每次移动1帧，每次移动提取一个交叉相关音频样本，获取m个交叉相关音频样本。

27、随机获取y个和所述n帧画面重复帧数小于n的负相关样本。

28、所述训练图像序列分别和1个所述正相关音频样本、m个所述交叉相关音频样本和y个所述负相关样本组成唇音对齐检测模型训练时的样本数据。

29、在一个可选的实施例中，唇音对齐检测模型训练时的损失函数为：式中，是以e为底的指数函数、是当前输入的样本、为正相关的样本、是正样本输出的数值表示logits、是交叉相关的样本、是交叉样本输出的数值表示logits、是负相关的样本、是负样本输出的数值表示logits、是负样本的数量、是温度超参数。

30、第二方面、本专利技术实施例提供了一种端到端的视频唇音帧差检测装置，其包含待识别视频获取模块、第一抽取模块、区域提取模块和对齐识别模块。

31、待识别视频获取模块，用于获取待识别视频。

32、第一抽取模块，用于根据所述待识别视频，随机抽取第一预设长度的视频片段。

33、区域提取模块，用于提取视频片段中间的连续n帧的人脸嘴部区域的图像序列。

34、对齐识别模块，用于将视频片段的音频和所述图像序列分别输入预先训练好的唇音对齐检测模型的音频编码通道和视频编码通道，获取所述图像序列和所述音频的同步关系，以及具体的帧差。其中，同步关系包含帧差为零的完全同步关系、帧差在预设值内的交叉关系，以及音频中不包含图像序列的音频的完全不同步关系。

35、所述唇音对齐检测模型包括视频编码通道、音频编码通道、拼接层和第三全连接层。

36、视频编码通道包含依本文档来自技高网...

【技术保护点】

1.一种端到端的视频唇音帧差检测方法，其特征在于，包含：

2.根据权利要求1所述的一种端到端的视频唇音帧差检测方法，其特征在于，第一卷积层包含96个3x3的卷积核；第一池化层的池化核为1x1；第二卷积层包含256个3x3的卷积核；第二池化层的池化核为3x3；第三卷积层包含256个3x3的卷积核；第四卷积层包含256个3x3的卷积核；第五卷积层包含256个3x3的卷积核；第六卷积层包含512个6x6的卷积核；第一全连接层的神经元数量为512；

3.根据权利要求2所述的一种端到端的视频唇音帧差检测方法，其特征在于，第三全连接层的神经元数量为第一预设长度+1。

4.根据权利要求1所述的一种端到端的视频唇音帧差检测方法，其特征在于，所述第一预设长度为2N+1、2N或3N。

5.根据权利要求1所述的一种端到端的视频唇音帧差检测方法，其特征在于，提取视频片段中间的连续N帧的人脸嘴部区域的图像序列，具体包括：

6.根据权利要求1所述的一种端到端的视频唇音帧差检测方法，其特征在于，唇音对齐检测模型训练时的损失函数为：式中，是以e为底的指

7.根据权利要求1所述的一种端到端的视频唇音帧差检测方法，其特征在于，唇音对齐检测模型训练时的样本数据的采样方法为

8.一种端到端的视频唇音帧差检测装置，其特征在于，包含：

...

【技术特征摘要】

1.一种端到端的视频唇音帧差检测方法，其特征在于，包含：

3.根据权利要求2所述的一种端到端的视频唇音帧差检测方法，其特征在于，第三全连接层的神经元数量为第一预设长度+1。

4.根据权利要求1所述的一种端到端的视频唇音帧差检测方法，其特征在于，所述第一预设长度为2n+1、2n或3...

【专利技术属性】
技术研发人员：周以军，邢东进，杨洪进，
申请(专利权)人：厦门蝉羽网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人