System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于两阶段解耦方式的语音大模型模态对齐方法及装置制造方法及图纸_技高网

基于两阶段解耦方式的语音大模型模态对齐方法及装置制造方法及图纸

技术编号:44738699 阅读:7 留言:0更新日期:2025-03-21 18:05
本发明专利技术提供一种基于两阶段解耦方式的语音大模型模态对齐方法及装置,涉及自然语言处理技术领域。该方法包括:获取预训练的语音数据集以及预训练的任务指令文本;构建初始的语音大模型,根据预训练的语音数据集以及预训练的任务指令文本,采用两阶段解耦方式处对初始的语音大模型进行预训练,获得预训练好的语音大模型;采用LoRA微调技术对预训练好的语音大模型进行指令微调,获得训练好的语音大模型;将待处理的语音数据和语音数据对应的指令,输入训练好的语音大模型中进行处理,输出与语音数据对应的指令需求相匹配的文本。采用本发明专利技术可解决在特征解耦导致信息损失的问题,采用本发明专利技术可提高语音大模型对任务分析的性能。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别是指一种基于两阶段解耦方式的语音大模型模态对齐方法及装置


技术介绍

1、随着计算机技术和人工智能技术的快速发展,语音处理技术逐渐由传统的信号处理方法过渡到以基于机器学习和深度学习算法的方法为主流阶段,传统的语音处理方法包括:基于声音信号处理的方法、基于特征提取的方法以及基于深度学习模型的方法。在多模态领域中,模态对齐是一个备受关注的问题,在多模态领域中,模态对齐的方法包括:基于统计学习的方法、基于深度学习的显式对齐方法、基于深度学习的隐式对齐的方法以及基于深度学习的其他对齐方法。语音大模型的模态对齐目的在于让后端的基于大规模文本语料库训练得到的大语言模型能够充分理解输入语音的内容,并结合语音内容完成各类语音相关的下游任务,根据目标下游任务的选取的差异,具体技术主要分为以下两类:输出模态中仅包含文本时的对齐方式以及输出模态中包含文本和语音时的对齐方式。

2、目前在语音大模型上进行模态对齐主要需要解决的是两方面的问题:(1)语音表示长度远长于文本表示序列长度,较长的序列长度不仅会影响到大模型推理的准确性,还会增大模型的推理时延,因此需要对输入的语音表示进行长度上的缩减;(2)表示空间上语音表示与文本表示存在着很大的差异,通常将语音表示通过可训练的线性映射模块映射到大模型输入空间上,但需要高质量且足够规模的训练数据集作为支撑。目前语音大模型中进行模态对齐的方法为清华大学和字节跳动联合提出的salmonn模型,采用了针对语义特征和声学特征的两种编码器进行语音的编码,通过q-former用于图像-文本对齐的模块引入语音-文本模态对齐,通过使用预设的可训练的多个token序列从语音特征中提取出所需要的特征,并且长度与该预设序列长度保持一致,最终通过上述方式在多个下游任务上都取得了不错的性能。

3、现有的语音大模型存在的问题包括:不充分的解耦,通常可以将语音信息分为语义信息和声学信息,不同的下游任务对这两方面信息的关注程度是不一样的,而现有技术中仅采用单一编码器,仅关注了其中之一方面的信息;而另一部分像salmonn模型尽管使用了两个编码器分别编码两方面的特征,但在后续又以一种不清晰的方式进行了耦合,导致了信息的杂糅。


技术实现思路

1、为了解决现有技术存在的由于往往只考虑了单一方面的信息或存在特征耦合导致信息损失以致于未实现充分的语音信息解耦和再抽取的技术问题,本专利技术实施例提供了一种基于两阶段解耦方式的语音大模型模态对齐方法及装置。所述技术方案如下:

2、一方面,提供了一种基于两阶段解耦方式的语音大模型模态对齐方法,该方法由基于两阶段解耦方式的语音大模型模态对齐设备实现,该方法包括:

3、s1、获取预训练的语音数据集以及预训练的任务指令文本;

4、s2、采用librosa方法对所述语音数据集进行清洗处理,获得清洗后的语音数据集;

5、s3、构建初始的语音大模型;所述初始的语音大模型包括:大语言模型以及对齐模块;

6、s4、将所述清洗后的语音数据集以及所述预训练的任务指令文本输入所述初始的语音大模型中,通过所述对齐模块对所述清洗后的语音数据集进行解耦处理,获得最终的语音特征;采用所述大语言模型的分词器对所述预训练的任务指令文本进行处理,获得预训练的文本特征;通过序列级拼接方式对所述最终的语音特征和所述预训练的文本特征进行处理,获得最终的特征序列;根据最终的特征序列,对所述初始的语音大模型进行预训练,获得预训练好的语音大模型;

7、s5、获取指令微调训练集;根据所述指令微调训练集,采用lora微调技术对所述预训练好的语音大模型进行指令微调,获得训练好的语音大模型;

8、s6、获取待处理的语音数据和语音数据对应的指令;将所述待处理的语音数据和语音数据对应的指令,输入所述训练好的语音大模型中进行处理,输出与语音数据对应的指令需求相匹配的文本。

9、可选地,所述初始的语音大模型,还包括:语音编码器以及音频编码器;

10、其中,所述语音编码器,用于对输入数据进行处理,获得语义化特征;

11、其中,所述音频编码器,用于对输入数据进行处理,获得音频化特征。

12、可选地,所述对齐模块,包括:连续整合激励模块、卷积投影层、所需内容编码器、非所需内容编码器以及解纠缠模块;

13、其中,所述连续整合激励模块,用于对语义化特征进行长度缩减处理,获得缩减后的语义化特征;

14、其中,所述卷积投影层,用于对音频化特征进行长度缩减处理,获得缩减后的音频化特征;

15、其中,所述所需内容编码器,用于从语音输入中编码语言内容信息;

16、其中,所述非所需内容编码器,用于建模非语言的语言特征;

17、其中,所述解纠缠模块,用于对不同模态信息进行分离。

18、可选地,所述s4的将所述清洗后的语音数据集以及所述预训练的任务指令文本,输入所述初始的语音大模型中,通过所述对齐模块对所述清洗后的语音数据集进行解耦处理,获得最终的语音特征,包括:

19、s41、将所述清洗后的语音数据集以及所述预训练的任务指令文本,输入所述初始的语音大模型中,通过语音编码器对清洗后的语音数据集进行处理,获得语义化特征;通过音频编码器对清洗后的语音数据集进行处理,获得音频化特征;

20、s42、将语义化特征输入连续整合激励模块中进行长度缩减处理,获得缩减后的语义化特征;将音频化特征输入卷积投影层进行长度缩减处理,获得缩减后的音频化特征;

21、s43、将缩减后的语义化特征与缩减后的音频化特征进行序列级别的拼接,获得拼接后的特征;将拼接后的特征输入所需内容编码器中进行处理,获得第一拼接后的特征;将拼接后的特征输入非所需内容编码器中进行处理,获得第二拼接后的特征;

22、s44、将第一拼接后的特征与第二拼接后的特征,输入解纠缠模块中进行解耦处理,获得最终的语音特征。

23、可选地,所述s4的根据最终的特征序列对所述初始的语音大模型进行预训练,获得预训练好的语音大模型,包括:

24、将最终的特征序列输入大语言模型中进行解码,输出解码结果;根据解码结果以及交叉熵损失函数,对所述初始的语音大模型进行预训练,获得预训练好的语音大模型。

25、可选地,所述s5的指令微调训练集,包括:指令微调的语音数据集以及语音数据集对应的任务指令文本。

26、可选地,所述s5的根据所述指令微调训练集,采用lora微调技术对所述预训练好的语音大模型进行指令微调,获得训练好的语音大模型,包括:

27、s51、将指令微调的语音数据集以及语音数据集对应的任务指令文本,输入所述预训练好的语音大模型中,通过大语言模型的分词器对语音数据集对应的任务指令文本进行处理,获得指令微调的文本特征;

28、s52、采用解耦方式对指令微调的语音数据集进行处理,获得指令微调本文档来自技高网...

【技术保护点】

1.一种基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述初始的语音大模型,还包括:语音编码器以及音频编码器;

3.根据权利要求1所述的基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述对齐模块,包括:连续整合激励模块、卷积投影层、所需内容编码器、非所需内容编码器以及解纠缠模块;

4.根据权利要求3所述的基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述S4的将所述清洗后的语音数据集以及所述预训练的任务指令文本,输入所述初始的语音大模型中,通过所述对齐模块对所述清洗后的语音数据集进行解耦处理,获得最终的语音特征,包括:

5.根据权利要求1所述的基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述S4的根据最终的特征序列对所述初始的语音大模型进行预训练,获得预训练好的语音大模型,包括:

6.根据权利要求1所述的基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述S5的指令微调训练集,包括:指令微调的语音数据集以及语音数据集对应的任务指令文本。

7.根据权利要求6所述的基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述S5的根据所述指令微调训练集,采用LoRA微调技术对所述预训练好的语音大模型进行指令微调,获得训练好的语音大模型,包括:

8.一种基于两阶段解耦方式的语音大模型模态对齐装置,所述基于两阶段解耦方式的语音大模型模态对齐装置用于实现如权利要求1-7任一项所述基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述装置包括:

9.一种基于两阶段解耦方式的语音大模型模态对齐设备,其特征在于,所述基于两阶段解耦方式的语音大模型模态对齐设备包括:

10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。

...

【技术特征摘要】

1.一种基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述初始的语音大模型,还包括:语音编码器以及音频编码器;

3.根据权利要求1所述的基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述对齐模块,包括:连续整合激励模块、卷积投影层、所需内容编码器、非所需内容编码器以及解纠缠模块;

4.根据权利要求3所述的基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述s4的将所述清洗后的语音数据集以及所述预训练的任务指令文本,输入所述初始的语音大模型中,通过所述对齐模块对所述清洗后的语音数据集进行解耦处理,获得最终的语音特征,包括:

5.根据权利要求1所述的基于两阶段解耦方式的语音大模型模态对齐方法,其特征在于,所述s4的根据最终的特征序列对所述初始的语音大模型进行预训练,获得预训练好的语音大模型,包括:

6....

【专利技术属性】
技术研发人员:陈科海郑祥庆白雪峰冯洋张民
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1