当前位置: 首页 > 专利查询>中国人民解放军网络空间部队信息工程大学专利>正文

基于强制解码的语言相似性评估方法、语音识别方法及相关设备技术

技术编号：43945846 阅读：0 留言：0更新日期：2025-01-07 21:35

本发明专利技术提供了基于强制解码的语言相似性评估方法、语音识别方法及相关设备。其中，基于强制解码的语言相似性评估方法包括：S101：选择多语言语音模型，并指定所述多语言语音模型的目标语言；所述多语言语音模型用于将输入的源语言语音解码为目标语言文本；S102：将源语言语音输入至所述多语言语音模型以将其强制解码为目标语言文本，并得到所述目标语言文本的归一化后验概率；S103：基于所述归一化后验概率计算源语言和目标语言之间的语言相似性评分。基于此方法还提供了基于语言相似性的语音识别方法及相关设备。通过将源语言语音强制解码为目标语言文本，隐式的计算跨语言内在表征的相似性，并基于相似性评分进行语音识别进而提升识别性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别，尤其涉及基于强制解码的语言相似性评估方法、语音识别方法及相关设备。

技术介绍

1、在语音识别领域，尽管不同语言在发音结构及表现形式上有所不同，但其高维特征具备相似的分布模式，即不同语言的相似语义具有相近的高维特征。多语言联合训练可以充分借助不同语言之间的内在关系，使多语言深度信息相互促进，互为增强，辅助目标语言语音识别性能提升。研究表明，提升模型对各语言的鉴别能力更有助于多语言语音识别性能的提升，而如何在模型多语言联合训练时引入有效的语言相关知识则是提升其语言鉴别能力的关键。

2、当前，语言信息引入的方法可分为基于先验知识的方法、基于数据驱动的方法以及基于预训练模型的方法。综合来看，基于先验知识的方法需要领域专家的经验和专业知识，虽然有效但成本昂贵，不能适应如今的智能化趋势。基于数据驱动的方法依赖于训练数据，只有具备足够数据量时映射网络才会展示出较好的性能，得到可信的相似性结果，这种数据依赖性导致其适用性不强。基于预训练模型的方法是近几年来的主流方法，但当前研究仅针对语音的语言种类这一被人类规定的显式信息评判语言相似性，而未能探索语言间的隐式信息对相似性评估的作用。因此，在采用现有的语言相似性方法来进行后续的语音识别时，语音识别结果准确率有待提高。

技术实现思路

1、为了解决现有评估语言相似性技术中存在没有探索语言间的隐式信息对相似性评估的问题，以及基于现有的语言相似性方法进行语音识别存在识别结果准确率较低的问题，本专利技术提供一种基于强制解码的

2、第一方面，本专利技术提供的一种基于强制解码的语言相似性评估方法，包括：

3、s101：选择多语言语音模型，并指定所述多语言语音模型的目标语言；所述多语言语音模型用于将输入的源语言语音解码为目标语言文本；

4、s102：将源语言语音输入至所述多语言语音模型以将其强制解码为目标语言文本，并得到所述目标语言文本的归一化后验概率；

5、s103：基于所述归一化后验概率计算源语言和目标语言之间的语言相似性评分。

6、进一步地，所述语言相似性评分的计算公式如下：

7、

8、其中，α表示语言相似性评分，jst表示解码的目标语言文本的词量，p(·)表示归一化后验概率，表示源语言s的第n条语音解码为目标语言t的文本中的第j个词。

9、第二方面，本专利技术提供的一种基于语言相似性的语音识别方法，包括：

10、s201：构建多语言语音识别数据集；

11、s202：在所述多语言语音识别数据集中，指定目标语言，并将其余语言均作为候选的源语言，采用如权利要求1或2所述的语言相似性评估方法，得到各个候选的源语言与目标语言之间的语言相似性评分；

12、s203：选取语言相似性评分较高的源语言数据与目标语言数据进行混合作为训练数据集，基于所述训练数据集对给定的多语言语音模型进行多语联合微调，得到语音识别模型；

13、s204：将待识别目标语言语音输入所述语音识别模型，得到语音识别结果。

14、进一步地，所述多语言语音识别数据集包括语音数据和语言文本数据；其中，所述语言文本数据主要是由每条语音数据所对应的语言文本构成的。

15、进一步地，所述多语言语音模型采用mms模型。

16、第三方面，本专利技术提供的一种基于语言相似性的语言识别系统，包括：

17、数据集构建模块，用于获取多语言语音数据，并构建多语言语音数据集；其中所述多语言语音数据集包含语音数据和文本数据，每条语言数据都有与之对应的文本数据；

18、语言相似性评估模块，用于在所述多语言语音识别数据集中，指定目标语言并将其余语言均作为候选的源语言，采用语言相似性评估方法得到各个候选的源语言与目标语言之间的语言相似性评分；

19、模型训练模块，用于对语言相似性评分进行排序并选取分数高的源语言数据和目标语言数据混合，对给定的多语言语音模型进行多语联合微调，得到语音识别模型；

20、语音识别模块，用于将待识别目标语言语音输入所述语音识别模型，得到语音识别文本。

21、第四方面，本专利技术提供的一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上所述的方法。

22、第五方面，本专利技术提供的一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行如上所述的方法。

23、本专利技术的有益效果：

24、本专利技术提供的一种基于语言相似性的语音识别方法，通过将源语言语音强制解码为目标语言文本，并将其归一化后验作为语言相似性判定依据，隐式的计算跨语言内在表征的相似性，能有效的评估语言之间的相似性，并将其应用于多语言语音识别，进而提升目标语言的语音识别性能。

本文档来自技高网...

【技术保护点】

1.一种基于强制解码的语言相似性评估方法，其特征在于，包括：

2.根据权利要求1所述的基于强制解码的语言相似性评估方法，其特征在于，所述语言相似性评分的计算公式如下：

3.一种基于语言相似性的语音识别方法，其特征在于，包括：

4.根据权利要求3所述的基于语言相似性的语音识别方法，其特征在于，所述多语言语音识别数据集包括语音数据和语言文本数据；其中，所述语言文本数据主要是由每条语音数据所对应的语言文本构成的。

5.根据权利要求3所述的基于语言相似性的语音识别方法，其特征在于，所述多语言语音模型采用MMS模型。

6.一种基于语言相似性的语音识别系统，其特征在于，包括：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行如权利要求1-5任一项的所述的方法。

【技术特征摘要】

1.一种基于强制解码的语言相似性评估方法，其特征在于，包括：

2.根据权利要求1所述的基于强制解码的语言相似性评估方法，其特征在于，所述语言相似性评分的计算公式如下：

3.一种基于语言相似性的语音识别方法，其特征在于，包括：

5.根据权利要求3...

【专利技术属性】
技术研发人员：屈丹，刘云鹏，高子涵，郝朝龙，杨绪魁，牛铜，
申请(专利权)人：中国人民解放军网络空间部队信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人