一种语言类别识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33528852 阅读:16 留言:0更新日期:2022-05-19 01:55
本公开关于一种语言类别识别方法、装置、电子设备和存储介质,该方法可以获取待处理语音信息对应的语音特征信息,将语音特征信息输入到动态扩展网络中进行动态特征扩展,得到第一语言特征信息,第一语言特征信息表征待处理语音信息的上下文特征信息,基于第一语言特征信息,对待处理语音信息进行语言识别,得到待处理语音信息对应的目标语言类别。该方法可以在对语音特征信息进行动态特征扩展时,扩展到语音特征信息的上下文信息,使得动态扩展网络在进行特征提取时,可以提取到语音特征信息以及语音特征信息相关的上下文中的第一语言特征信息,从而提高了第一语言特征信息的区分性,以及语言识别的有效性。以及语言识别的有效性。以及语言识别的有效性。

【技术实现步骤摘要】
一种语言类别识别方法、装置、电子设备和存储介质


[0001]本公开涉及语言识别
,尤其涉及一种语言类别识别方法、装置、电子设备和存储介质。

技术介绍

[0002]语言类别识别是指从一段说话语音中识别出语种的类别或方言的类别,如日语、韩语、普通话、粤语等。语言类别识别技术的应用非常广泛,不仅可以作为多语言语音识别和多语言翻译系统的前端预处理模块,也可以用于定向广告和生物特征验证。近年来,随着深度学习技术的兴起,语种识别在工业界和学术界都得到广泛的关注。相关技术中,将语音特征信息先通过帧级别的网络模块,然后经过池化层得到段级别的语言特征,经过线性层通道维度整合后再进行分类,得到语言类别,其中,帧级别的网络模型得到的语言特征较为单一,从而导致不同的语言特征信息之间的区分性不明显。

技术实现思路

[0003]本公开提供一种语言类别识别方法、装置、电子设备和存储介质,以至少解决相关技术中不同的语言特征信息之间的区分性不明显的问题。本公开的技术方案如下:
[0004]根据本公开实施例的第一方面,提供一种语言类别识别方法,所述方法包括:
[0005]获取待处理语音信息对应的语音特征信息;
[0006]将所述语音特征信息输入到动态扩展网络中进行动态特征扩展,得到第一语言特征信息,所述第一语言特征信息表征所述待处理语音信息的上下文特征信息;
[0007]基于所述第一语言特征信息,对所述待处理语音信息进行语言识别,得到所述待处理语音信息对应的目标语言类别。
[0008]作为一个可选的实施例,所述动态扩展网络包括注意力计算层和动态扩展层,所述将所述语音特征信息输入到动态扩展网络中进行动态特征扩展,得到第一语言特征信息包括:
[0009]将所述语音特征信息输入到所述注意力计算层中进行注意力计算,得到注意力特征信息;
[0010]将所述语音特征信息和所述注意力特征信息输入到所述动态扩展层中进行动态特征扩展,得到所述第一语言特征信息。
[0011]作为一个可选的实施例,所述动态扩展层包括至少一个特征扩展层和特征融合层,每个特征扩展层中的扩展尺寸信息不同,所述将所述语音特征信息和所述注意力特征信息输入到所述特征扩展层中进行动态特征扩展,得到所述第一语言特征信息包括:
[0012]将所述语音特征信息和所述注意力特征信息输入到每个特征扩展层中,基于每个特征扩展层对应的扩展尺寸信息对所述语音特征信息和所述注意力特征信息进行特征扩展,得到至少一个特征扩展结果,所述每个特征扩展结果对应的特征扩展程度不同;
[0013]将所述至少一个特征扩展结果输入到所述特征融合层中进行特征融合,得到所述
第一语言特征信息。
[0014]作为一个可选的实施例,所述动态扩展网络为按序排列的多个扩展网络,所述将所述语音特征信息输入到动态扩展网络中进行动态特征扩展,得到第一语言特征信息包括:
[0015]在当前扩展网络为第一个扩展网络的情况下,将所述语音特征信息输入到所述第一个扩展网络中进行动态特征扩展,得到所述第一个扩展网络对应的语言特征信息,所述当前扩展网络为每一次执行特征扩展的扩展网络;
[0016]在所述当前扩展网络为非第一个扩展网络的情况下,将所述当前扩展网络对应的上一语言特征信息,输入到所述当前扩展网络中进行动态特征扩展,得到所述当前扩展网络对应的语言特征信息;
[0017]基于每一个扩展网络对应的语言特征信息,得到第二语言特征信息。
[0018]所述基于所述第一语言特征信息,对所述待处理语音信息进行语言识别,得到所述待处理语音信息对应的目标语言类别包括:
[0019]基于所述第二语言特征信息,对所述待处理语音信息进行语言识别,得到所述待处理语音信息对应的目标语言类别。
[0020]作为一个可选的实施例,所述扩展网络包括注意力计算层和动态扩展层,所述动态扩展层包括至少一个特征扩展层和特征融合层,每个特征扩展层中的扩展尺寸信息不同,所述将所述当前扩展网络对应的上一语言特征信息,输入到所述当前扩展网络中进行动态特征扩展,得到所述当前扩展网络对应的第一语言特征信息包括:
[0021]将所述上一语言特征信息输入到所述注意力计算层中进行注意力计算,得到语言注意力信息;
[0022]将所述上一语言特征信息和所述语言注意力信息输入到每个特征扩展层中,基于每个特征扩展层对应的扩展尺寸信息,对所述上一语言特征信息和所述语言注意力特征信息进行特征扩展,得到至少一个当前动态扩展结果,所述每个当前动态扩展结果对应的特征扩展程度不同;
[0023]将所述至少一个当前动态扩展结果输入到所述特征融合层中进行特征融合,得到所述当前扩展网络对应的语言特征信息。
[0024]作为一个可选的实施例,所述第一语言特征信息包括多个第一帧特征信息,所述基于所述第一语言特征信息,对所述待处理语音信息进行语言识别,得到所述待处理语音信息对应的目标语言类别包括:
[0025]对所述多个第一帧特征信息进行多尺度池化,得到第三语言特征信息;
[0026]基于所述第三语言特征信息,对所述待处理语音信息进行分类,得到所述待处理语音信息对应的所述目标语言类别。
[0027]作为一个可选的实施例,所述对所述多个第一帧特征信息进行多尺度池化,得到第三语言特征信息包括:
[0028]对所述多个第一帧特征信息进行均值操作,得到均值特征信息;
[0029]确定所述多个第一帧特征信息对应的离散特征信息;
[0030]将所述均值特征信息和所述离散特征信息进行组合后,得到所述第三语言特征信息。
[0031]作为一个可选的实施例,所述对所述多个第一帧特征信息进行多尺度池化,得到第三语言特征信息包括:
[0032]对所述多个第一帧特征信息进行加权均值操作,得到加权特征信息;
[0033]确定所述多个第一帧特征信息对应的离散特征信息;
[0034]将所述加权特征信息和所述离散特征信息进行组合后,得到所述第三语言特征信息。
[0035]根据本公开实施例的第二方面,提供一种语言识别装置,所述装置包括:
[0036]语音特征信息获取模块,被配置为执行获取待处理语音信息对应的语音特征信息;
[0037]动态扩展模块,被配置为执行将所述语音特征信息输入到动态扩展网络中进行动态特征扩展,得到第一语言特征信息,所述第一语言特征信息表征所述待处理语音信息的上下文特征信息;
[0038]第一语言识别模块,被配置为执行基于所述第一语言特征信息,对所述待处理语音信息进行语言识别,得到所述待处理语音信息对应的目标语言类别。
[0039]作为一个可选的实施例,所述动态扩展网络包括注意力计算层和动态扩展层,所述动态扩展模块包括:
[0040]第一注意力计算单元,被配置为执行将所述语音特征信息输入到所述注意力计算层中进行注意力计算,得到注意力特征信息;
[0041]动态扩展单元,被本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言类别识别方法,其特征在于,所述方法包括:获取待处理语音信息对应的语音特征信息;将所述语音特征信息输入到动态扩展网络中进行动态特征扩展,得到第一语言特征信息,所述第一语言特征信息表征所述待处理语音信息的上下文特征信息;基于所述第一语言特征信息,对所述待处理语音信息进行语言识别,得到所述待处理语音信息对应的目标语言类别。2.根据权利要求1所述的语言类别识别方法,其特征在于,所述动态扩展网络包括注意力计算层和动态扩展层,所述将所述语音特征信息输入到动态扩展网络中进行动态特征扩展,得到第一语言特征信息包括:将所述语音特征信息输入到所述注意力计算层中进行注意力计算,得到注意力特征信息;将所述语音特征信息和所述注意力特征信息输入到所述动态扩展层中进行动态特征扩展,得到所述第一语言特征信息。3.根据权利要求2所述的语言类别识别方法,其特征在于,所述动态扩展层包括至少一个特征扩展层和特征融合层,每个特征扩展层中的扩展尺寸信息不同,所述将所述语音特征信息和所述注意力特征信息输入到所述特征扩展层中进行动态特征扩展,得到所述第一语言特征信息包括:将所述语音特征信息和所述注意力特征信息输入到每个特征扩展层中,基于每个特征扩展层对应的扩展尺寸信息对所述语音特征信息和所述注意力特征信息进行特征扩展,得到至少一个特征扩展结果,所述每个特征扩展结果对应的特征扩展程度不同;将所述至少一个特征扩展结果输入到所述特征融合层中进行特征融合,得到所述第一语言特征信息。4.根据权利要求1所述的语言类别识别方法,其特征在于,所述动态扩展网络为按序排列的多个扩展网络,所述将所述语音特征信息输入到动态扩展网络中进行动态特征扩展,得到第一语言特征信息包括:在当前扩展网络为第一个扩展网络的情况下,将所述语音特征信息输入到所述第一个扩展网络中进行动态特征扩展,得到所述第一个扩展网络对应的语言特征信息,所述当前扩展网络为每一次执行特征扩展的扩展网络;在所述当前扩展网络为非第一个扩展网络的情况下,将所述当前扩展网络对应的上一语言特征信息,输入到所述当前扩展网络中进行动态特征扩展,得到所述当前扩展网络对应的语言特征信息;基于每一个扩展网络对应的语言特征信息,得到第二语言特征信息;所述基于所述第一语言特征信息,对所述待处理语音信息进行语言识别,得到所述待处理语音信息对应的目标语言类别包括:基于所述第二语言特征信息,对所述待处理语音信息进行语言识别,得到所述待处理语音信息对应的...

【专利技术属性】
技术研发人员:许云飞
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1