System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及多模态领域,具体涉及一种基于对抗神经网络的音频驱动图像编辑方法。
技术介绍
1、随着深度学习技术的迅速发展,基于深度学习的计算机视觉技术在近年来取得了巨大的进步。在自然界中,视频和音频信号是两种最常见的模式,而视觉和听觉则是人类感知系统中最重要的感官系统。这两种模态之间的天然联系使人类能够从视觉和听觉环境中学习和推断。然而,在当前社会中,发现人们对音频的感知在心理意象方面异常丰富。聆听音频时,大脑中会勾勒出生动的画面,人们对图像编辑技术的需求也在不断增加。而如何在给定的条件下,尤其是在音频等多模态信息的输入下,编辑图像生成高质量且语义合理的视觉内容也逐渐成为人们关注的议题。因此,基于音频驱动的图像编辑任务在多模态领域引起了越来越多的关注,它旨在根据输入的音频,在语义上编辑原始图像,同时保护图像的结构信息不被破坏。
2、早期的研究主要采用传统的卷积神经网络来实现图像生成,随着不同神经网络的发展,一系列基于利用对抗神经网络的方法被提出并且取得了突出的效果。利用对抗神经网络的方法取得更加优异的效果,解决传统神经网络不能有效地建模特征的长距离依赖关系,从而更好的保护图像的细节信息等问题,尽管目前基于音频编辑图像的研究方法已经取得了显著进展,但仍存在一些关键局限:
3、首先,跨模态的对齐一直是该领域的挑战,音频和图像之间的对齐需要解决复杂的语义关系问题,缺乏有效的跨模态对齐方法可能限制了模型生成图像的准确性和表现力,导致生成图像和输入音频的语义信息相差较大。其次,图像的编辑往往导致生成图像和原始图像之
技术实现思路
1、本专利技术的目的是针对现有技术的不足而提出的一种基于对抗神经网络的音频驱动图像编辑方法,采用对抗神经网络的生成器和鉴别器架构,构建一种可以操纵场景的纹理以匹配声音的方法。给定一个成对的视听数据的数据集,学习修改输入图像,以便在操作之后,它们更有可能与给定的输入声音同时出现。利用深度残差网络分别提取音频和图像两种模态的特征,将图像特征表示的通道维度与音频特征表示的维度对齐后拼接,之后利用多头注意力机制将得到跨模态特征表示进行跨模态的融合,利用解码器将融合后的特征转换为图像,将生成图像和原始图像同时经过图像编码器,在五个不同的尺度下利用对比学习保护图像的结构信息,利用音频-图像语义鉴别器来判断生成图像和输入音频的语义相似度,模型的多尺度结构信息鉴别器强调对图像结构信息的保护,而解码器突出对图像语义信息的修改,将音频的语义信息展现在图像。这种对抗神经网络采用对比学习可以极大程度上保护图像的结构信息不发生变化,同时根据音频的语义信息修改图像的视觉特征,获得更稳定的图像编辑效果,方法简便,效果好,具有良好的应用前景。
2、本专利技术的目的是这样实现的:
3、一种基于对抗神经网络的音频驱动图像编辑方法,其特点是该方法首先使用深度残差网络提取音频和图像特征,获取模态的特征表示;为了将不同模态的特征融合在一起,通过多头注意力机制融合音频和图像特征;接着,使用2d全卷积网络解码融合后的特征生成目标图像;然后,利用鉴别器来分析生成图像和音频之间的语义信息,并通过对比学习策略保护生成图像和原始图像之间的结构信息。具体包括以下述步骤:
4、1)使用深度残差网络提取音频和图像两种模态特征;
5、1.1:以从vggsound数据集采集得到的视频数据,通过分离视听信号获取音频数据以及人工选择语义匹配视频帧,作为训练集和验证集,训练集和验证集采集比例为8∶2;其中,所述的人工选择语义匹配视频帧即音频对应的目标图像;
6、1.2:对输入音频进行预处理;利用librosa将音频处理成梅尔语谱图,然后将其输入到resnet-18提取特征,得到音频模态特征表示;
7、1.3:对输入图像进行预处理;将人工选择语义匹配视频帧进行保存,统一存储为色彩模式为rgb,图像大小为256×256,得到图像模态特征表示。
8、2) 利用多头注意力机制融合音频和图像特征表示;
9、2.1:将图像特征表示的通道维度与音频特征表示的维度对齐后拼接,得到跨模态特征表示;
10、2.2:将音频和图像跨模态特征表示通过多头注意力机制后获得融合特征表示,再与步骤1中处理得到的音频模态特征的维度对齐后,拼接得到最终融合后的特征表示。
11、3) 通过对比学习利用多尺度结构信息鉴别器处理目标图像和原始图像的结构信息;
12、3.1:将原始图像和目标图像从五个不同尺度提取中间特征,即输入rgb像素、第一和第二下采样特征以及第一和第二残差特征;
13、3.2:对图像的每一个尺度随机采样256个位置,将生成图像作为查询,从原始图像中抽取对应的正样本和多个负样本,样本通过一个两层的多层感知机映射到256维向量。采用对比学习优化在多个负样本中选择正样本的概率,处理目标图像和原始图像的结构信息。
14、4) 利用音频图像模态语义信息鉴别器处理目标图像和输入音频之间的语义信息;
15、5) 对图像特征进行解码生成目标图像;
16、5.1:图像编码器和解码器的网络结构均为基于残差的9层全卷积网络,图像编码器中除了第一层的卷积核大小为7×7,其他层均为3×3,而图像解码器中除了最后一层的卷积核大小为7×7,其他层均为3×3,图像编码器中存在下采样操作,因此将步幅大小设定为2;
17、5.2:采用全卷积网络对融合的特征表示进行解码,生成目标图像。
18、本专利技术与现有技术相比具有以下有益技术效果和显著的技术进步:
19、1)本专利技术提出基于对比学习的多尺度结构鉴别器用于保留场景结构。全局的结构对应关系通常由局部对应关系决定,将生成图像的局部信息作为查询,原始图像对应的局部结构作为正样本,采用对比学习增强生成图像和原始图像之间局部信息的互信息。这种维护结构信息的策略放弃了对生成图像纹理信息的处理,可以极大程度上保证生成图像的结构不会出现较大变化。
20、2)本专利技术提出的解码器架构不会导致跨模态之间的语义不匹配。通过多头注意力机制将音频和图像两种不同的模态进行融合,获得更好的特征表示。音频-视觉纹理鉴别器用于转换场景纹理,处理将生成图像和输入音频模态,将音频的语义信息添加到生成图像中。
本文档来自技高网...【技术保护点】
1.一种基于对抗神经网络的音频驱动图像编辑方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的音频驱动图像编辑方法,其特征在于,所述步骤1具体包括:
3.根据权利要求1所述的音频驱动图像编辑方法,其特征在于,所述步骤2具体包括:
4.根据权利要求1所述的音频驱动图像编辑方法,其特征在于,所述步骤3具体包括:
5.根据权利要求1所述的音频驱动图像编辑方法,其特征在于,所述步骤5具体包括:
【技术特征摘要】
1.一种基于对抗神经网络的音频驱动图像编辑方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的音频驱动图像编辑方法,其特征在于,所述步骤1具体包括:
3.根据权利要求1所述的音频驱动图像编...
【专利技术属性】
技术研发人员:贺樑,张子昊,许俊杰,吴兴蛟,董道国,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。