基于扩散注意力模型的视频对齐的文本生成音频方法及系统技术方案

技术编号：43135599 阅读：14 留言：0更新日期：2024-10-29 17:41

本发明专利技术公开了一种基于扩散注意力模型的视频对齐的文本生成音频方法及系统，包括：S1，获取待处理音频信号、视频信号及文本提示，提取文本特征和视觉特征；S2，基于视觉特征利用时间自注意层获取时间视觉表示，将时间视觉表示和文本特征输入多模态残差网络进行特征融合，同时基于预设批次利用CLAP模型将时间视觉表示和文本特征对齐以获取视觉对齐文本嵌入；S3，利用STFT基于音频信号获取时频谱图，基于时频谱图利用预设音频编码器获取音频特征；S4，将视觉对齐文本嵌入和音频特征输入预设音频生成模型获取对齐音频嵌入，基于音频解码器获取对齐音频表示。本发明专利技术显著增强了TTA生成的准确性和一致性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机，具体涉及一种基于扩散注意力模型的视频对齐的文本生成音频方法及系统。

技术介绍

1、近年来，扩散模型和大型语言模型(llms)的显著进展极大地推动了人工智能生成内容(artificial intelligence generated content,aigc)领域的发展。其中，文本到音频(text to audio,tta)作为一种新兴的aigc应用，旨在根据自然语言提示生成音频，受到了越来越多的关注。然而，现有的tta研究在生成质量和文本-音频对齐方面，尤其是在处理复杂文本输入时，仍然面临诸多挑战。目前传统的tta方法主要有以下问题：

2、1.生成质量问题：这是早期tta模型面临的主要挑战之一。传统的tta模型通常依赖于单一标签生成音频，这种方法的局限性在于，生成的音频往往单调且受限于预定义的标签空间和生成能力。这不仅限制了音频的多样性和细腻程度，也难以满足用户对高质量生成音频的需求。相比之下，描述性文本可以提供更全面和细致的信息，使得生成的音频更具表现力和灵活性。然而，如何充分利用描述性文本中的信息仍是一个亟待解决的问题；

3、2.文本-音频对齐问题：这方面的挑战仍然存在。尽管最新的扩散生成模型和大型语言模型在内容生成和理解方面展现出显著能力，现有的tta系统在文本-音频对齐方面仍面临困难，尤其是在处理复杂文本输入时。这种对齐问题不仅影响了音频生成的准确性，还可能导致生成的音频与文本描述不符；

4、3.音视频同步性问题：音视频不同步和时间一致性不足的问题也对tta生成效

技术实现思路

1、针对以上问题，本专利技术提出了一种基于扩散注意力模型的视频对齐的文本生成音频方法及系统，在文本转音频生成、视觉对齐和时间一致性方面提供了创新性的解决方案，为tta系统的实际应用提供了更高质量和更好地用户体验。为解决以上技术问题，本专利技术所采用的技术方案如下：

2、一种基于扩散注意力模型的视频对齐的文本生成音频方法，包括如下步骤：

3、s1，获取待处理的音频信号、视频信号及文本提示，基于文本提示利用预设文本编码器提取文本特征，基于视频信号利用预设视频编码器获取视觉特征；

4、s2，基于步骤s1得到的视觉特征利用时间自注意层获取时间视觉表示，将时间视觉表示和步骤s1得到的文本特征输入多模态残差网络进行特征融合，同时基于预设批次利用clap模型将时间视觉表示和文本特征对齐以获取视觉对齐文本嵌入；

5、s3，利用stft基于步骤s1中的音频信号获取时频谱图，基于时频谱图利用预设的音频编码器获取音频特征；

6、s4，将步骤s2得到的视觉对齐文本嵌入和步骤s3得到的音频特征输入预设的音频生成模型获取对齐音频嵌入，并基于音频解码器获取对齐音频表示。

7、在步骤s2中，所述时间视觉表示的表达式为：

8、

9、式中，表示预设视频编码器输出的i时间的视觉特征，表示视觉特征的时间视觉表示，fv表示视觉聚合特征，d表示嵌入维度，t表示视频信号的时间长度。

10、所述视觉对齐文本嵌入的表达式为：

11、

12、式中，表示视觉对齐文本嵌入，ft表示文本特征。

13、在步骤s3中，在基于时频谱图利用预设的音频编码器获取音频特征之前，还可以基于时频谱图生成用于捕捉时频谱图中局部特征的补丁序列。

14、所述补丁序列中补丁的表达式为：

15、[tk*w+l＝{srj∣k·p≤r<(k+1)·p,l·q≤j<(l+1)·q}]；

16、式中，srj表示时频谱图中在第r个频率和第j个时间上的频谱值，k表示补丁在频率轴上的索引，l表示补丁在时间轴上的索引，p表示补丁在频率轴上的宽度，q表示补丁在时间轴上的长度，w表示时间轴上的点数。

17、所述步骤s4还包括基于扩散矩阵对注意力模型的权重矩阵进行更新获取改进扩散注意力模型，基于改进扩散注意力模型构建预设音频生成模型；

18、更新后的权重矩阵的表达式为：

19、

20、式中，ρ表示扩散过程的传输概率，k表示扩散次数。

21、所述音频生成模型包括若干个依次连接的神经网络层，神经网络层的输出表达式为：

22、

23、式中，表示回归维度缩放参数，hl表示第l层网络神经层的输出，pda(·)表示改进后的扩散注意力模型函数，hl-1表示第l-1层网络神经层的输出，mca(·)表示多头跨注意力层。

24、一种基于扩散注意力模型的视频对齐的文本生成音频系统，包括：

25、信号处理模块：用于基于待处理的文本提示和视频信号获取文本特征和视觉特征，并基于待处理的音频信号利用stft获取时频谱图；

26、视觉对齐文本嵌入获取模块：用于基于信号处理模块得到的视觉特征利用时间自注意层获取时间视觉表示，将时间视觉表示和信号处理模块得到的文本特征输入多模态残差网络进行特征融合，同时基于预设批次利用clap模型将时间视觉表示和文本特征对齐获取视觉对齐文本嵌入；

27、音频特征构建模块：用于基于信号处理模块得到的时频谱图利用预设的音频编码器获取音频特征；

28、对齐音频表示获取模块：用于将视觉对齐文本嵌入获取模块得到的视觉对齐文本嵌入和音频特征构建模块得到的音频特征输入预设的音频生成模型获取对齐音频嵌入，基于音频解码器获取对齐音频表示。

29、本专利技术的有益效果：

30、1.改进的文本-音频对齐与音视频同步性增强：通过使用描述性文本提供更细致的信息，增强了文本与音频的对齐。此外，还专注于视觉连贯性和时间同步性，通过视觉控制网络将视觉内容引入tta生成过程中，确保音频与视频画面的一致性，从而提升了用户体验；

31、2.涉及音频、时频谱图和编码器所输出的潜在空间三个特征空间的转换，频谱图特征作为连接音频和像素空间的关键中间状态，通过这种多特征空间转换，显著提升了文本转音频生成的质量；

32、3.结合音频-视觉控制网络调节的时间视觉表示，增强了跨模态对齐。此外，集成了强大的神经网络模型，进一步提本文档来自技高网...

【技术保护点】

1.一种基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，在步骤S2中，所述时间视觉表示的表达式为：

3.根据权利要求2所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，所述视觉对齐文本嵌入的表达式为：

4.根据权利要求1所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，在步骤S3中，在基于时频谱图利用预设的音频编码器获取音频特征之前，还可以基于时频谱图生成用于捕捉时频谱图中局部特征的补丁序列。

5.根据权利要求4所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，所述补丁序列中补丁的表达式为：

6.根据权利要求1所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，所述步骤S4还包括基于扩散矩阵对注意力模型的权重矩阵进行更新获取改进扩散注意力模型，基于改进扩散注意力模型构建预设音频生成模型；

7.根据权利要求6所述的基于扩散注意力模型的视频对

8.一种基于扩散注意力模型的视频对齐的文本生成音频系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，在步骤s2中，所述时间视觉表示的表达式为：

3.根据权利要求2所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，所述视觉对齐文本嵌入的表达式为：

4.根据权利要求1所述的基于扩散注意力模型的视频对齐的文本生成音频方法，其特征在于，在步骤s3中，在基于时频谱图利用预设的音频编码器获取音频特征之前，还可以基于时频谱图生成用于捕捉时频谱图中局部特征的补丁序列。

5.根...

【专利技术属性】
技术研发人员：王闻宇，王晓飞，张青青，师小云，
申请(专利权)人：派欧云计算上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人