基于生成式人工智能的音视频联合编码、解码方法和系统技术方案

技术编号：44574482 阅读：10 留言：0更新日期：2025-03-11 14:35

本发明专利技术公开一种基于生成式人工智能的音视频联合编码、解码方法，编码包括：从音频信号和视频中提取各种模态特征；在跨模态注意力中进行融合；任务识别，首先识别当前的任务类型，确定了任务类型，系统将分析该任务的具体需求；动态自适应权重分配；融合特征，将分配了不同权重的多模态特征进行融合。本发明专利技术的优点在于：将音视特征提取、视频特征提取和基于AI的生成技术，首次应用在对音视频的联合编码中，解决了传统方法在进行视频的编解码的时候，压缩效率低以及不能应对更高质量的追求的问题。同时，基于生成式的编解码方式，可以灵活根据用户的个人需求，进行风格和质量的调整。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音视频生成领域，特别是涉及基于生成式人工智能的音视频联合编解码和解码技术。

技术介绍

1、随着多媒体技术的迅速发展，音视频内容的生成和处理需求日益增加。新的音视频生成技术的发展，为音视频的编解码提供了新的解决思路。特别是在需要高质量音视频内容生成和实时处理的应用场景中，这些新技术展现出了巨大的潜力。目前，随着人工智能技术的迅猛发展，基于人工智能的语音、视频识别与生成技术已经非常成熟，为生成式人工智能的音视频联合编码奠定了坚实的技术基础。通过利用生成式人工智能技术，可以实现高效、准确的音视频编码和解码，满足更高的需求。

2、在音视频内容的识别和生成过程中，ai生成技术能够在多语言、多情感和复杂环境下保持高准确性。通过多模态数据融合技术，提取并融合音频和视频的高级特征，生成综合特征向量，确保生成的音视频内容在视觉和听觉上的一致性和连贯性。这些技术的进步不仅提高了音视频编码的效率和生成的质量，还为多媒体内容的生成和编辑提供了新的技术手段，具有广泛的应用前景。

3、生成式人工智能技术通过学习大量的音视频数据，能够生成高质量的音视频内容。相比传统的编码技术，生成式人工智能技术在处理复杂场景和多模态数据时具有更高的效率和准确性。通过多模态数据融合技术，生成式人工智能能够提取并融合音频和视频的高级特征，生成综合特征向量，从而实现高效的音视频编码和解码。

4、随着生成技术的进一步发展，人们对定制化音视频生成系统的需求也在不断增加。现代用户希望能够根据个人喜好和需求，生成高质量、个性化的音视频内容

5、但是目前的音视频编、解码技术在数字媒体激增的今天面临着严峻的挑战。传统的音视频编码方法通常将音频和视频分别处理，这种独立编码的方式已经无法满足人们日益增长的多样化需求。

技术实现思路

1、本专利技术所要解决的技术问题在于如何提升基于音视频传输的效率和质量。

2、本专利技术通过以下技术手段实现解决上述技术问题的：一种基于生成式人工智能的音视频联合编码方法，包括以下步骤：

3、s9、从音频信号和视频中提取各种模态特征；

4、s10、在跨模态注意力中进行融合，包括：

5、s101、首先，将提取出来的视频特征输入进跨模态注意力；

6、s102、将音频特征经过辅助的残差辅助网络输入到跨模态注意力中，通过跨模态注意力机制到不同模态的特征进行分析；

7、s103、音频特征的跨模态注意力机制和s101和s102相同；将不同模态的特征和通过跨模态注意力的输出结果进行连接；

8、s11、任务识别，首先识别当前的任务类型，确定了任务类型，系统将分析该任务的具体需求；

9、s12、动态自适应权重分配；

10、s13、融合特征，将分配了不同权重的多模态特征进行融合。

11、作为进一步优化的技术方案，所述步骤s12、动态自适应权重分配，具体包括：

12、s121、特征重要性评估：根据任务需求，系统对音频和视频特征的重要性进行评估，通过计算各特征在当前任务中的贡献度，确定每种特征的重要性权重；

13、s122、权重调整策略：系统根据特征重要性评估结果，动态调整音频和视频特征的权重；

14、s123、自适应权重分配：系统在每个任务执行过程中，实时监控任务的进展和特征的表现，动态调整权重分配；

15、s124、模态数据丢失处理：在某一模态的数据丢失或不存在的情况下，系统利用现有模态的数据生成缺失模态的数据。

16、作为进一步优化的技术方案，从音频信号提取各种模态特征包括：

17、s1、情感分析，包括：

18、音频数据预处理：包括降噪、归一化；情感状态识别：利用情感分析算法，对预处理后的音频数据进行情感状态识别，分类出音频中的情感状态；

19、s2、声音事件检测，包括：

20、声音事件识别：对音频数据进行声音事件检测，识别出音频中的各种声音事件；

21、事件标注：对检测到的声音事件进行详细标注，包括事件的起始时间、持续时间和类型；

22、s3、音色识别，包括：

23、音色判断：通过音色识别技术，判断音频片段是否为同一音色，如果检测到不同音色，则发送预定时间的原始语音片段；

24、音色一致处理：如果音色一致，则进行语音识别，提取语音内容；

25、时间标注，对语音进行时间标注；

26、s4、音频特征提取，包括特征参数提取和特征整合，将时间标注、声音事件和情感分析整合到语音特征中，形成一个全面的音频特征数据集；

27、s5、数据发送，将原始语音片段以及特征融合后的音频特征数据集进行发送。

28、作为进一步优化的技术方案，从视频信号提取各种模态特征包括：

29、s6、场景切换检测

30、s61、对于视频中提取的第n帧，场景判别器将其与上一帧进行比较，分析第n帧和第n-1帧的内容，判断是否存在场景切换；

31、s62、如果检测到场景切换，则将该帧设置为关键帧，将第n帧标记为关键帧，同时将帧数进行初始化设置为1；

32、s63、对关键帧进行特征提取和特征融合，获取该帧的特征，从关键帧中提取各种视频特征；将提取的特征进行预处理，生成处理后的特征；

33、s7、定期设置关键帧

34、s71、如果没有检测到场景切换，视频编码器将帧数加1，将当前帧数n加1；

35、s72、倍数检查：判断当前帧数是否为gop的整数倍；如果帧数是gop的整数倍，则将该帧设置为关键帧，帧数重新置为1；

36、s73、对关键帧进行特征提取和特征预处理，从关键帧中提取各种视频特征，将提取的特征进行预处理，生成处理后的特征；

37、s8、帧间运动矢量计算

38、s81、对于帧数不是gop的整数倍的情况，该本文档来自技高网...

【技术保护点】

1.基于生成式人工智能的音视频联合编码方法，其特征在于：包括以下步骤：

2.如权利要求1所述的一种基于生成式人工智能的音视频联合编码方法，其特征在于：所述步骤S12、动态自适应权重分配，具体包括：

3.如权利要求1所述的一种基于生成式人工智能的音视频联合编码方法，其特征在于：从音频信号提取各种模态特征包括：

4.如权利要求1所述的一种基于生成式人工智能的音视频联合编码方法，其特征在于：从视频信号提取各种模态特征包括：

5.一种基于生成式人工智能的音视频联合解码方法，其特征在于：包括以下步骤：

6.如权利要求5所述的一种基于生成式人工智能的音视频联合解码方法，其特征在于：所述步骤S16、联合解码具体包括：

7.如权利要求5所述的一种基于生成式人工智能的音视频联合解码方法，其特征在于：所述步骤S17、合并音视频之后还包括：

8.如权利要求7所述的一种基于生成式人工智能的音视频联合解码方法，其特征在于：所述步骤S19、动态调整包括：

9.一种基于生成式人工智能的音视频编解码方法，其特征在于：包括以下步骤：

10.一种基于生成式人工智能的音视频编码系统，其特征在于：包括音频特征提取器、视频特征提取器、音视频联合编码以及音视频联合解码器，其中音视频联合编码器，采用权利要求1-4任一项所述的音视频联合编码方法对提取的音频特征和视频特征进行联合编码；音视频联合解码器，采用权利要求5-8任一项所述的音视频联合解码方法对接收的音频特征和视频特征进行联合解码。

...

【技术特征摘要】

1.基于生成式人工智能的音视频联合编码方法，其特征在于：包括以下步骤：

2.如权利要求1所述的一种基于生成式人工智能的音视频联合编码方法，其特征在于：所述步骤s12、动态自适应权重分配，具体包括：

3.如权利要求1所述的一种基于生成式人工智能的音视频联合编码方法，其特征在于：从音频信号提取各种模态特征包括：

4.如权利要求1所述的一种基于生成式人工智能的音视频联合编码方法，其特征在于：从视频信号提取各种模态特征包括：

5.一种基于生成式人工智能的音视频联合解码方法，其特征在于：包括以下步骤：

6.如权利要求5所述的一种基于生成式人工智能的音视频联合解码方法，其特征在于：所述步骤s16、联合解码具体包括：

...

【专利技术属性】
技术研发人员：徐正春，许道礼，陈志波，黄瑞丰，向国强，沙克成，管健，
申请(专利权)人：中国科学技术大学先进技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人