System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种语音语种类别的识别方法技术_技高网

一种语音语种类别的识别方法技术

技术编号:44358297 阅读:4 留言:0更新日期:2025-02-25 09:41
本发明专利技术涉及一种语音语种类别的识别方法,包括:提供目标语音音频,并将所述目标语音音频加载到预先构建的语种识别模型内,以利用所述语种识别模型对目标语音音频进行语种识别处理,其中,语种识别模型对目标语音音频进行语种识别处理时,至少包括依次执行的语音特征提取处理、语种嵌入提取处理以及识别分类处理,其中,执行语音特征提取处理后,基于目标语音音频生成对应的语音特征信息;执行语种嵌入提取处理后,基于语音特征信息生成对应的语种嵌入信息;执行识别分类处理后,将语种嵌入信息映射为表征目标语音音频对应语种的语种分类信息。本发明专利技术能对多语言语种的高效识别,提高了语种识别的准确性和识别效率。

【技术实现步骤摘要】

本专利技术涉及一种识别方法,尤其是一种语音语种类别的识别方法


技术介绍

1、语种识别,是指对给定语音信号进行自动识别,以确定给定语音信号语言类别的过程,语种识别在多语言语音识别、机器翻译和客户服务中心的呼叫路由等各种应用中起到至关重要的作用,这些场景中,通常使用机器学习技术,利用大量数据集进行训练,从而高精度地区分不同语言。随着国际化趋势的增加,各国之间的语言交流逐渐增多,语种识别技术已成为现代语音处理系统中不可或缺的组成部分。

2、与其他语音信号处理分类任务相似,早期的语种识别系统依赖于mfcc和fbank等传统手工特征,这些特征主要描述语音的声学特征,不能有效捕捉声音中的语言学特征,且缺乏灵活性,无法自适应复杂的语音数据。此后,在传统声学特征的基础上,可使用gmm、svm和决策树等机器学习算法进行语音分类,但是这种分类方法容易受到环境的干扰,泛化能力较差。

3、随着深度学习的发展,在各种语音信号处理任务中,深度神经网络表现出了优秀的非线性特征提取能力。尽管深度神经网络在语种识别领域取得了很好的性能,但是它们依然依赖于传统手工提取的特征,而且这些基于声学特征的语种识别模型,大都不支持端到端的训练,一定程度上限制了语种识别系统的优化。

4、近年来,在语种识别任务中,自监督学习在特征提取方面崭露头角,成为一种极具潜力的替代方案。与传统方法不同,自监督学习利用大量未标注的数据进行预训练,并在标注的任务特定数据上进行微调,能够在无需大量人工标注的情况下学习语音的表示,这类模型可以捕捉丰富且复杂的特征,超越手工特征的局限性,提供了对数据更具鲁棒性和泛化能力的理解。

5、需要说明的是,自监督学习会涉及巨量的参数量,由此导致增加了训练的复杂度,且相对简单的分类策略,不能很好地捕捉自监督学习提取的语音特征。除此以外,预训练数据和下游任务(即语种识别任务)使用的数据,可能存在域偏移的问题,如预训练数据中可能不包含下游任务需要识别的语种,进而影响了语种识别的性能。

6、此外,使用传统手工特征和常规分类算法,在训练数据均衡时,可表现出满足工业需要的性能,但是,在处理不均衡的训练数据时,模型的准确率和泛化能力剧烈下降,尤其面对低资源的语种识别是一个严峻的挑战。

7、公开号cn113889090a的申请文件,记载了一种多任务学习的多语种识别模型,该申请采用无监督预训练和自适应预训练方式,对多语种模型进行训练。但是该申请中使用的wav2vec模型参数量较大,增大了训练的复杂度;且该当该申请中的语种样本不均衡时,会影响分类的效果。

8、公开号cn112133291a的申请文件,记载了一种基于判别概率和预测语种标签训练生成网络、神经网络和判别网络获得语种识别模型,但是该申请需要额外的数据预处理步骤,且当模型面对与训练数据分布不同的实际场景,泛化能力可能受到挑战。

9、综上可知,面对语音语种类别的识别还存在不足,难以满足目前的应用需求。


技术实现思路

1、本专利技术的目的是克服现有技术中存在的不足,提供一种语音语种类别的识别方法,其能对多语言语种的高效识别,提高了语种识别的准确性和识别效率。

2、按照本专利技术提供的技术方案,一种语音语种类别的识别方法,所述识别方法包括:

3、提供目标语音音频,并将所述目标语音音频加载到预先构建的语种识别模型内,以利用所述语种识别模型对目标语音音频进行语种识别处理,其中,

4、语种识别模型对目标语音音频进行语种识别处理时,至少包括依次执行的语音特征提取处理、语种嵌入提取处理以及识别分类处理,其中,

5、执行语音特征提取处理后,基于目标语音音频生成对应的语音特征信息;

6、执行语种嵌入提取处理后,基于语音特征信息生成对应的语种嵌入信息;

7、执行识别分类处理后,将语种嵌入信息映射为表征目标语音音频对应语种的语种分类信息,其中,所述语种分类信息为构建语种识别模型时所利用基准语种集中的一个基准语种。

8、所述语种识别模型包括依次连接的语音特征提取模块、语种嵌入提取模块以及识别分类模块,其中,

9、对目标语音音频进行语种识别处理时,利用语音特征提取模块执行语音特征提取处理,并将生成语音特征信息加载到语种嵌入提取模块;

10、利用语种嵌入提取模块执行语种嵌入提取处理,并将生成对应语种嵌入信息加载到识别分类模块;

11、利用识别分类模块执行识别分类处理,并生成语种分类信息。

12、所述语音特征提取模块基于wav2vec2.0模型构建生成,语种嵌入提取模块基于x-vector模型构建生成。

13、构建语种识别模型时,构建方法包括:

14、基于wav2vec2.0模型构建生成语音特征提取模块;

15、生成语音特征提取模块后,构建语种识别基本模型,其中,构建语种识别基本模型时,将语音特征提取模块与语种嵌入提取基本模块连接,且语种嵌入提取基本模块与识别分类基本模块连接;

16、构建模型训练样本集,并利用模型训练样本集对语种识别基本模型进行模型训练,直至将语种识别基本模型训练达到目标训练状态,此后,将达到目标训练状态的语种识别基本模型配置作为语种识别模型,其中,

17、模型训练样本集包括若干模型训练样本,利用模型训练样本集对语种识别基本模型训练时,冻结语音特征提取模块的网络参数,并利用语音特征提取模块提取模型训练样本的语音特征信息,且将提取的语音特征信息加载到语种嵌入提取基本模块内,其中,

18、所述模型训练样本包括训练语音音频以及与所述训练语音音频对应的标签信息,所述标签信息为所述训练语音音频所对应的基准语种;

19、训练语音音频与目标语音音频具有相同的语音特征参数,所述语音特征参数包括语音声道、采样率和/或位深度。

20、构建语音特征提取模块时,包括:

21、构建基于wav2vec2.0模型的语音分类模块,并对所述语音分类模块依次进行预训练以及微调训练,且在微调训练后,基于语音分类模块生成语音特征提取模块,其中,

22、对语音分类模块进行预训练时,构建预训练样本集,利用预训练样本集基于自监督学习的训练方式对语音分类模块进行预训练,并在预训练达到预训练目标状态时,生成语音分类预训练后模块,其中,所述预训练样本集包括若干预训练样本,所述预训练样本为无标签的语音音频;

23、微调训练时,构建微调训练样本集,并利用微调训练样本集对语音分类预训练后模块进行训练,将语音分类预训练后模块进行微调训练达到目标微调状态时,将达到目标微调状态的语音分类预训练后模块配置作为语音特征提取模块,其中,

24、所述微调训练样本集包括多个语种的微调训练样本,所述微调训练样本为无标签的语音音频。

25、对语音分类模块进行预训练时,采用的损失函数为:

26、

27、其本文档来自技高网...

【技术保护点】

1.一种语音语种类别的识别方法,其特征是,所述识别方法包括:

2.根据权利要求1所述的语音语种类别的识别方法,其特征是:所述语种识别模型包括依次连接的语音特征提取模块、语种嵌入提取模块以及识别分类模块,其中,

3.根据权利要求2所述的语音语种类别的识别方法,其特征是:所述语音特征提取模块基于wav2vec2.0模型构建生成,语种嵌入提取模块基于x-vector模型构建生成。

4.根据权利要求3所述的语音语种类别的识别方法,其特征是,构建语种识别模型时,构建方法包括:

5.根据权利要求4所述的语音语种类别的识别方法,其特征是,构建语音特征提取模块时,包括:

6.根据权利要求5所述的语音语种类别的识别方法,其特征是,对语音分类模块进行预训练时,采用的损失函数为:

7.根据权利要求4所述的语音语种类别的识别方法,其特征是,对语种识别基本模型进行模型训练时,采用的批损失函数为:

8.根据权利要求3至7任一项所述的语音语种类别的识别方法,其特征是,所述语种嵌入提取模块包括依次连接的语种局部特征提取层、统计池化层以及语种级别特征提取层,其中,

9.根据权利要求2至8任一项所述的语音语种类别的识别方法,其特征是:所述识别分类模块包括全连接层以及softmax层,其中,

10.一种语音语种类别的识别系统,其特征是,包括语种识别装置,并在所述语种识别装置内部署上述权利要求1~权利要求9任一项所述的语种识别模型,其中,

...

【技术特征摘要】

1.一种语音语种类别的识别方法,其特征是,所述识别方法包括:

2.根据权利要求1所述的语音语种类别的识别方法,其特征是:所述语种识别模型包括依次连接的语音特征提取模块、语种嵌入提取模块以及识别分类模块,其中,

3.根据权利要求2所述的语音语种类别的识别方法,其特征是:所述语音特征提取模块基于wav2vec2.0模型构建生成,语种嵌入提取模块基于x-vector模型构建生成。

4.根据权利要求3所述的语音语种类别的识别方法,其特征是,构建语种识别模型时,构建方法包括:

5.根据权利要求4所述的语音语种类别的识别方法,其特征是,构建语音特征提取模块时,包括:

6.根据权利要求5所述的语音语种类别的识别...

【专利技术属性】
技术研发人员:邹亮赵天聚雷萌凌辉轩赵荣焕闫祖龙张雨涛
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1