基于对比学习预训练模型的语音识别方法技术

技术编号：40844495 阅读：30 留言：0更新日期：2024-04-01 15:12

本发明专利技术公开一种基于对比学习预训练模型的语音识别方法，CTAP使用对比学习技术联合训练语音编码器、音素编码器、提示编码器和解码器，以学习语音和音素之间的帧级别相似性。语音识别模型训练利用预训练好的CTAP语音表征模型，用于训练的语音数据的梅尔谱通过预训练的语音编码器提取语音编码，后接一个音素解码器用于预测音素序列，此过程的语音编码器权重是冻结的，只需要训练音素解码器，同时利用预训练好的CTAP模型的音素信息编码能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音分析，具体为一种基于对比学习预训练模型的语音识别方法。

技术介绍

1、深度学习方法为语音表示领域带来了重大改进，性能显著。语音处理包含各种任务。对于tts、vc和asr等细粒度生成和识别任务，从语音中提取的中间表示应该成为文本和声学信息之间的"桥梁"。它应该强调语言内容，而不强调副语言信息，如说话人身份和声音细节。因此，为tts、vc和asr开发合适的表征学习模型是一项挑战。

2、自监督表征学习方法，如wav2vec2.0、wav2vec-c、vq-wav2vec、hubert和w2v-bert，提供了通用模型的前景，可以使广泛的任务和领域受益。虽然这些方法可以应用于asr等任务，但在处理vc任务和最小监督tts任务(如spear-tts和diff-lm-speech等)时，它们会遇到冗余和维度爆炸的问题。

3、在有监督的表征学习方法中，ppgs是根据asr声学模型计算得出的。虽然ppgs广泛应用于vc任务，但它本质上是文本信息，无法用于最小监督的tts任务。

4、对比模型通过基于锚表征学习目标样本(正向)与干扰样本(负向)的表征来应对这些挑战。目标是最大化锚和正样本之间的相似性，同时最小化锚和负样本之间的相似性。这种方法已广泛应用于计算机视觉领域，例如open ai的clip、florence和align。

5、在音频领域，基于clip的模型如wav2clip,audioclip和clap已经被开发出来。然而，这些方法侧重于从音频中提取全局描述性信息，用于下游音

6、自监督表征学习方法，如wav2vec2.0、wav2vec-c、vq-wav2vec、hubert和w2v-bert，提供了通用模型的前景，可以使广泛的任务和领域受益。这些方法可以应用于asr任务。

7、现有的技术方案的缺点如下：由于现有自监督语音表征方法存在信息冗余的问题，难以提取得到音素信息相关的语音表征用于语音识别任务。现有自监督语音表征方法用于语音识别模型对效果提升有限，同时会引入累积误差问题。

8、缩略语的中英文全称如下：

9、tts(text-to-speech)语音合成是智能语音交互的核心技术之一。通过将接收到的文字序列转换为自然逼真的语音波形，反馈传递给用户。语音合成技术直接影响着人机交互的实际使用效果。语音合成技术涉及语音信号处理、模式识别、自然语言处理、声学、语言学等多个学科，是信息处理领域不可或缺的一门关键技术。

10、asr(automatic speech recognition)语音识别技术，也被称为自动语音识别，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

11、vc(voice conversion)语音转换即在保留语音内容的同时,将原说话人的音色转换成指定说话人的音色。在传统变声工具中,基于语音信号处理技术,可将个人音色转换为大叔音、萝莉音等音色,但此时的变声比较单一,仅仅是对音色进行改变,不能进行跨语言、多情感风格的转换,转换效果较为机械。

12、g2p(grapheme-to-phoneme)字音转换,输出文本的拼音或音素标注，通常采用基于规则的字典映射方法。而在字音转换的过程中存在多音字辨识问题，字音转换结果对于合成系统的发音有着极大的影响，所以多音字消歧也是语音合成方向的热点研究问题。

13、vae(variational autoencoder)变分自编码器,将真实样本通过编码器网络变换成一个理想的数据分布，数据分布传递给一个解码器网络，得到生成样本。在自编码器模型上做进一步变分处理，使得编码器的输出结果能对应到目标分布的均值和方差。

技术实现思路

1、本专利技术旨在提供一种基于对比学习预训练模型的语音识别方法，以解决现有技术存在的问题。

2、本专利技术的技术方案是基于对比学习预训练模型的语音识别方法，ctap使用对比学习技术联合训练语音编码器(speech encoder)、音素编码器(phoneme encoder)、提示编码器(prompt encoder)和解码器(decoder)，以学习语音和音素之间的帧级别相似性；

3、包括如下步骤：

4、音素编码：在这一阶段，匹配的文本-语音对分别进行编码，文本(text)对应的音素序列(phoneme)和时长(duration)输入长度调节器(lengthregulator)得到上采样之后的音素序列，处理之后的音素序列输入音素编码器(phonemeencoder)得到编码后的音素嵌入层(phoneme embedding)；

5、语音编码：在这一阶段，匹配的文本-语音对分别进行编码，语音(speech)对应的梅尔谱特征(mel-spectrogram)输入语音编码器(speechencoder)得到编码后的语音嵌入层(speechembedding)；

6、提示编码：在这一阶段，语音(speech)对应的梅尔谱随机截取3秒作为提示梅尔谱(promptmel-spectrogram)，提示梅尔谱输入提示编码器(promptencoder)得到编码后的提示嵌入层(promptembedding)；

7、对比学习训练：在这一阶段，步骤(1)和步骤(2)提取得到的音素编码(phonemeembedding)和语音编码(speechembedding)的形状分别重置为2维矩阵，此时重置后的两个编码的长度与维度完全一致，重置后的音素编码与语音编码进行对比学习，相同长度位置对应的为正样例，其余位置为负样例，得到对比损失loss_contrastive；

8、重构损失训练：在这一阶段，步骤(1)和步骤(2)提取得到的音素编码(phonemeembedding)和语音编码(speechembedding)分别输入联合编码器(decoder)，同时将步骤(3)得到的提示编码(promptembedding)作为条件输入，分别预测得到两个梅尔谱：音素预测和语音预测，这两个预测得到的梅尔谱与真实的梅尔谱计算mse损失，分别得到重构损失loss_mse(phoneme)和loss_mse(speech)；

9、语音识别模型训练：在这一阶段，利用上述步骤(1)～(5)预训练好的ctap语音表征模型，用于训练的语音数据的梅尔谱通过预训练的语音编码器(speech encoder)提取语音编码(speech embedding)，后接一个音素解码器(phoneme decoder)用于预测音素序列(prediction phoneme)，此过程的语音编码器(speechencoder)权重是冻结的，只需要训练音素解码器(phonem本文档来自技高网...

【技术保护点】

1.基于对比学习预训练模型的语音识别方法，其特征在于，CTAP使用对比学习技术联合训练语音编码器、音素编码器、提示编码器和解码器，以学习语音和音素之间的帧级别相似性；包括如下步骤：

2.根据权利要求1所述的基于对比学习预训练模型的语音识别方法，其特征在于，语音识别模型推理：在这一阶段，介绍推理阶段语音识别模型的流程，语音对应的梅尔谱输入预训练好的语音编码器得到编码后的语音嵌入层，输入音素解码器得到预测的音素序列。

【技术特征摘要】

1.基于对比学习预训练模型的语音识别方法，其特征在于，ctap使用对比学习技术联合训练语音编码器、音素编码器、提示编码器和解码器，以学习语音和音素之间的帧级别相似性；包括如下步骤：

2.根据权利要求1所...

【专利技术属性】
技术研发人员：王龙标，强春雨，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人