自动音频标注系统、方法、电子设备和存储介质技术方案

技术编号：44255179 阅读：1 留言：0更新日期：2025-02-14 22:02

本申请实施例公开自动音频标注系统、方法、电子设备和存储介质，其中，自动音频标注方法包括：获取音频信号，基于所述EAT模型从所述音频信号中提取所述音频表征；基于所述线性投影层将所述音频表征和与所述音频表征对应的文本嵌入对齐并下采样得到第一文本嵌入；至少基于所述大语言模型根据对齐并下采样后的所述音频表征和所述文本嵌入生成文本描述；基于所述策略计算模块计算各所述文本描述与所述音频信号的相似度并选取最匹配的文本描述作为所述自动音频标注系统的输出。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大型语言模型，尤其涉及自动音频标注系统、方法、电子设备和存储介质。

技术介绍

1、相关技术中，自动音频标注（aac，automated audio captioning）是一项具有挑战性的多模态任务，旨在从音频数据中生成自然的结果。与传统的音频理解任务（如音频标记（at， audio tagging））不同，aac要求系统不仅能理解音频片段的内容，还能将文本和声音模式统一起来，最终生成连贯且语言流畅的描述。

2、在aac任务中，序列到序列（seq2seq，sequence-to-sequence）架构被广泛采用，其中音频编码器提取声音表征，语言模型利用这些表征通过自回归的方式生成标注。传统方法通常依赖监督模型（如panns（large-scale pretrained audio neural networks foraudio pattern

3、recognition，用于音频模式识别的大规模预训练音频神经网络））进行音频特征提取。最近，自监督预训练模型（如beats（audio pre-training with acoustictokenizers，使用声学分词器进行音频预训练））已被集成到aac系统中，显著提高了系统性能。

4、在 aac 任务中，高质量的音频和文本配对数据集的缺乏是一个巨大的挑战，这凸显了有效的数据增强技术对提高模型性能的重要性。在自动语音识别（asr，automaticspeech recognition）中，n-best重新评分策略、被广泛用于降低

技术实现思路

1、本专利技术实施例提供一种自动音频标注系统、方法、电子设备和存储介质，用于至少解决上述技术问题之一。

2、第一方面，本专利技术实施例提供一种自动音频标注系统，包括：eat模型，用于从音频信号中提取音频表征；线性投影层，用于将所述音频表征和与所述音频表征对应的文本嵌入对齐并下采样得到第一文本嵌入；大语言模型，用于至少根据对齐并下采样后的所述音频表征和所述文本嵌入生成文本描述；以及策略计算模块，用于计算各所述文本描述与所述音频信号的相似度并选取最匹配的文本描述作为所述自动音频标注系统的输出。

3、第二方面，本专利技术实施例提供一种自动音频标注方法，包括：获取音频信号，基于所述eat模型从所述音频信号中提取所述音频表征；基于所述线性投影层将所述音频表征和与所述音频表征对应的文本嵌入对齐并下采样得到第一文本嵌入；至少基于所述大语言模型根据对齐并下采样后的所述音频表征和所述文本嵌入生成文本描述；基于所述策略计算模块计算各所述文本描述与所述音频信号的相似度并选取最匹配的文本描述作为所述自动音频标注系统的输出。

4、第三方面，本专利技术实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本专利技术任一实施例的自动音频标注方法的步骤。

5、第四方面，本专利技术实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第二方面所述方法的步骤。

6、第五方面，本专利技术实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现第二方面所述方法的步骤。

7、在本申请实施例的方法中，通过llm增强解析和clap-refine来增强 aac。我们使用eat编码器提取音频表征，然后对其进行降采样，并通过线性投影层与文本嵌入对齐。进一步的，解码由llm vicuna 执行，微调仅限于投影仪和 lora（低秩适配器）适配器，以提高训练效率。本申请的slam-aac还应用了文本增强技术，以增加 clotho 中音频片段的标注多样性，从而提高模型的通用性。此外，我们还提出了 clap-refine，这是一种即插即用的解码策略，可在后处理中加强标注选择。该策略利用多个束搜索输出作为候选，并根据clap 模型计算出的与输入音频的最高相似度得分选择最终标注。实验表明，在 audiocaps和 clotho 数据集上，本申请实施例的slam-aac的表现优于现有的aac模型，消减研究验证了每个模块在提高模型整体性能方面的贡献。

本文档来自技高网...

【技术保护点】

1.一种自动音频标注系统，包括：

2.根据权利要求1所述的系统，其中，所述大语言模型还包括大语言模型分词器，用于处理文本提示和真实字幕得到第二文本嵌入和所述真实字幕的长度。

3.根据权利要求2所述的系统，其中，所述自动音频标注系统还包括低秩适配器，用于对所述大语言模型进行微调。

4.根据权利要求3所述的系统，其中，只有所述线性投影层和所述低秩适配器是可训练的，所述系统的其他部分保持冻结。

5.根据权利要求4所述的系统，其中，所述策略计算模块为CLAP-Refine，通过对比预训练将文本描述和音频信号投射到共享空间，从而计算文本相似度，通过评估多束搜索解码生成的候选标注与所述音频信号的相似度，最后选择得分最高的标注作为所述自动音频标注系统的输出。

6.一种自动音频标注方法，用于权利要求1-5中任一项所述的自动音频标注系统，包括：

7.根据权利要求6所述的方法，其中，所述至少基于所述大语言模型根据对齐并下采样后的所述音频表征和所述文本嵌入生成文本描述包括：

8.一种电子设备，其包括：至少一个处理器，以

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求6或7所述方法的步骤。

...

【技术特征摘要】

1.一种自动音频标注系统，包括：

3.根据权利要求2所述的系统，其中，所述自动音频标注系统还包括低秩适配器，用于对所述大语言模型进行微调。

4.根据权利要求3所述的系统，其中，只有所述线性投影层和所述低秩适配器是可训练的，所述系统的其他部分保持冻结。

5.根据权利要求4所述的系统，其中，所述策略计算模块为clap-refine，通过对比预训练将文本描述和音频信号投射到共享空间，从而计算文本相似度，通过评估多束搜索解码生成的候选标注与所述音频信号的相似度，最后选择得...

【专利技术属性】
技术研发人员：俞凯，陈谐，陈文熙，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人