System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于端到端的跨语言大模型的语音识别方法、装置及设备制造方法及图纸_技高网

基于端到端的跨语言大模型的语音识别方法、装置及设备制造方法及图纸

技术编号:43965579 阅读:17 留言:0更新日期:2025-01-07 21:51
本申请涉及一种基于端到端的跨语言大模型的语音识别方法、装置及设备。所述方法包括:构建跨语言大模型;获取由多组语音文本标签对构成的训练数据集,并将训练数据集输入跨语言大模型进行端到端训练,直至得到训练好的跨语言大模型;将待识别的语音信号输入训练好的跨语言模型,依次通过模型中的语音编码模块、文本编码模块、特征对齐模块和解码模块进行过滤器特征与wav2vec2特征提取与拼接、文本的嵌入特征表示、维度对齐、拼接以及解码翻译,输出得到目标语言的语音识别文本。采用本方法能够提升语音识别的准确度以及鲁棒性,并实现跨语言的语音识别。

【技术实现步骤摘要】

本申请涉及人工智能,特别是涉及一种基于端到端的跨语言大模型的语音识别方法、装置及设备


技术介绍

1、语音识别技术是将语音信号自动转换为文本的过程,作为人与机器交互的重要技术之一,其广泛应用于智能助手、语音控制等领域。语音识别的流程一般包括以下几个步骤:

2、(1)语音信号采集:通过话筒输入语音信号,将声波转换为电压信号,再通过a/d(模拟数字转换)装置进行采样,从而将连续的电压信号转换为计算机能够处理的数字信号。

3、(2)特征提取:从采集到的语音信号中提取出关键特征,例如声学特征、时间特征、序列特征等,这些特征是后续语音识别模型进行分析和处理的基础,能够反映语音信号中的主要信息。

4、(3)模型训练:语音识别系统的核心在于模型训练。传统的两阶段模型包括声学模型和语言模型。声学模型将提取的声学特征与语音信号的物理特征对应,从而为每个声学单元打分。语言模型则基于语言学理论,预测不同词语或词组序列的概率,帮助理解并生成符合上下文的文本。模型训练通常使用大规模数据集,通过预训练模型或统计方法提高模型的识别准确度和泛化能力。

5、(4)解码:解码阶段通过结合声学模型和语言模型的结果,生成最有可能的文本输出,最终完成语音到文本的转换。

6、随着深度学习技术的发展,声学模型和语言模型也从传统的隐马尔可夫系列模型逐渐转为基于大模型神经网络的深度学习模型,基于深度学习的声学和语言模型在处理复杂语音信号时表现出了显著的性能提升。但是由于两阶段模型的架构设计,使得声学模型和语言模型之间存在特征不匹配的问题,限制了模型的识别上限。

7、为了解决这一问题,近年来出现了端到端语音识别模型,例如paraformer等。与传统两阶段模型不同,端到端模型通过直接将输入的语音信号映射到输出文本,减少了中间步骤带来的误差累积。然而,这类模型在处理新词、热词以及跨语言识别等场景时,依然面临一定的挑战。为了提高其在这些领域的性能,往往需要引入额外的语言模型进行辅助解码。

8、因此,虽然语音识别技术在深度学习的推动下取得了显著进步,但在准确性、泛化能力和跨语言适应性方面,依然有很大的优化空间。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种基于端到端的跨语言大模型的语音识别方法、装置及设备。

2、一种基于端到端的跨语言大模型的语音识别方法,所述方法包括:

3、构建跨语言大模型,跨语言大模型由语音编码模块、文本编码模块、特征对齐模块和解码模块组成;

4、获取由多组语音文本标签对构成的训练数据集,并将训练数据集输入跨语言大模型进行端到端训练,直至得到训练好的跨语言大模型;其中,在每组语音文本标签对中,文本标签的前端拼接有跨语言识别提示词,跨语言识别提示词用于在训练过程中,提示模型将文本标签翻译为目标语言的文本;

5、将待识别的语音信号输入训练好的跨语言模型,通过语音编码模块对输入的语音信号分别进行过滤器特征与wav2vec2特征提取和拼接,得到语音特征向量;通过文本编码模块根据跨语言识别提示词,对语音信号对应的文本标签进行文本的嵌入特征表示,得到文本嵌入特征向量;通过特征对齐模块将语音特征向量的维度与文本嵌入特征向量的维度进行对齐;通过解码模块对文本编码模块输出的文本嵌入特征向量与特征对齐模块输出的维度对齐后的语音特征向量进行特征向量拼接以及解码翻译,输出得到目标语言的语音识别文本。

6、在其中一个实施例中,通过语音编码模块对输入的语音信号分别进行过滤器特征与wav2vec2特征提取和拼接,得到语音特征向量,包括:

7、语音编码模块由过滤器特征提取模块、wav2vec2预训练模型和特征拼接模块组成;

8、过滤器特征提取模块用于对输入的语音信号依次进行预加重、分帧、加窗、快速傅里叶变换、梅尔谱滤波以及对数运算处理,输出得到过滤器特征;

9、wav2vec2预训练模型用于对输入的语音信号依次进行卷积编码和上下文表征,输出得到wav2vec2特征;

10、特征拼接模块用于对过滤器特征和wav2vec2特征进行特征维度的拼接,输出得到语音特征向量。

11、在其中一个实施例中,wav2vec2预训练模型由编码器网络、上下文网络以及离散化网络组成;

12、编码器网络通过若干个卷积层对输入的语音信号进行特征提取,输出得到卷积特征;上下文网络通过若干个时间步长编码器对卷积特征进行上下文表征,输出得到wav2vec2特征;离散化网络通过对卷积特征进行离散化处理后,根据离散化后的卷积特征与wav2vec2特征计算损失,并根据损失对wav2vec2预训练模型进行训练。

13、在其中一个实施例中,对过滤器特征和wav2vec2特征进行特征维度的拼接,输出得到语音特征向量,包括:

14、通过单个卷积层按照设定的卷积步长对过滤器特征进行特征维度卷积变换,得到变换后的过滤器特征;

15、基于变换后的过滤器特征的特征维度,对wav2vec2特征进行设定步长的邻近点融合,得到变换后的wav2vec2特征,并保持变换后的过滤器特征与变换后的wav2vec2特征的特征维度一致;

16、对变换后的过滤器特征与变换后的wav2vec2特征进行拼接,输出得到语音特征向量。

17、在其中一个实施例中,特征对齐模块采用多层感知机将语音特征向量的维度映射为文本嵌入特征向量的维度,保持二者的维度一致。

18、在其中一个实施例中,解码模块在对文本编码模块输出的文本嵌入特征向量与特征对齐模块输出的维度对齐后的语音特征向量进行特征向量拼接后,将得到的拼接特征向量输入大语言模型进行解码翻译,输出得到目标语言的语音识别文本。

19、一种基于端到端的跨语言大模型的语音识别装置,所述装置包括:

20、模型构建单元,用于构建跨语言大模型,跨语言大模型由语音编码模块、文本编码模块、特征对齐模块和解码模块组成;

21、模型训练单元,用于获取由多组语音文本标签对构成的训练数据集,并将训练数据集输入跨语言大模型进行端到端训练,直至得到训练好的跨语言大模型;其中,在每组语音文本标签对中,文本标签的前端拼接有跨语言识别提示词,跨语言识别提示词用于在训练过程中,提示模型将文本标签翻译为目标语言的文本;

22、语音识别单元,用于将待识别的语音信号输入训练好的跨语言模型,通过语音编码模块对输入的语音信号分别进行过滤器特征与wav2vec2特征提取和拼接,得到语音特征向量;通过文本编码模块根据跨语言识别提示词,对语音信号对应的文本标签进行文本的嵌入特征表示,得到文本嵌入特征向量;通过特征对齐模块将语音特征向量的维度与文本嵌入特征向量的维度进行对齐;通过解码模块对文本编码模块输出的文本嵌入特征向量与特征对齐模块输出的维度对齐后的语音特征向量进行特征向量拼接以及解码翻译,输出得到目标语言的语音识别文本本文档来自技高网...

【技术保护点】

1.一种基于端到端的跨语言大模型的语音识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,通过所述语音编码模块对输入的语音信号分别进行过滤器特征与wav2vec2特征提取和拼接,得到语音特征向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述wav2vec2预训练模型由编码器网络、上下文网络以及离散化网络组成;

4.根据权利要求2所述的方法,其特征在于,对所述过滤器特征和wav2vec2特征进行特征维度的拼接,输出得到语音特征向量,包括:

5.根据权利要求1所述的方法,其特征在于,所述特征对齐模块采用多层感知机将语音特征向量的维度映射为文本嵌入特征向量的维度,保持二者的维度一致。

6.根据权利要求1所述的方法,其特征在于,所述解码模块在对所述文本编码模块输出的文本嵌入特征向量与所述特征对齐模块输出的维度对齐后的语音特征向量进行特征向量拼接后,将得到的拼接特征向量输入大语言模型进行解码翻译,输出得到目标语言的语音识别文本。

7.一种基于端到端的跨语言大模型的语音识别装置,其特征在于,所述装置包括:

8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于端到端的跨语言大模型的语音识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,通过所述语音编码模块对输入的语音信号分别进行过滤器特征与wav2vec2特征提取和拼接,得到语音特征向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述wav2vec2预训练模型由编码器网络、上下文网络以及离散化网络组成;

4.根据权利要求2所述的方法,其特征在于,对所述过滤器特征和wav2vec2特征进行特征维度的拼接,输出得到语音特征向量,包括:

5.根据权利要求1所述的方法,其特征在于,所述特征对齐模块采用多层感知机将语音特征向量的维度映射为文本嵌入特征向量的维度,保持二者的维度一...

【专利技术属性】
技术研发人员:朱飞
申请(专利权)人:中电信数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1