口音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：44694721 阅读：6 留言：0更新日期：2025-03-19 20:43

本申请实施例提供了一种口音识别方法、装置、电子设备及存储介质，该方法包括：获取待测语音；将待测语音输入至语音识别模型，对待测语音进行分帧处理和特征提取处理，得到多个第一语音特征，对第一语音特征进行处理，确定文本概率分布；根据识别概率确定目标字符，剔除所有目标字符中的空白字符，剔除空白字符对应的第一语音特征，根据各个目标字符对应的文本出现时间，将目标字符与待测语音进行对齐处理，得到语音文本对齐信息；将语音文本对齐信息和第一语音特征输入至口音识别模型，确定待测语音的目标口音种类；本申请实施例能够减少口音识别过程的冗杂度，提升口音识别模型的准确性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及但不限于语音识别，尤其涉及一种口音识别方法、装置、电子设备及存储介质。

技术介绍

1、语音识别技术是一种利用计算机算法对不同口音进行识别的技术。这种方法通过收集和分析大量的语音样本，训练模型以识别不同的口音。语音识别技术中的口音识别问题可以通过调整模型和参数设置来提高识别的准确性。这种方法需要专业的技术和大量的数据支持，是现代语音识别领域的一个重要研究方向。

2、现有技术中，口音识别模型通常需要将待测语音进行文本识别，得到待测语音对应的识别文本，基于识别文本查询标准口音词典，从而得到口音分类；然而，在对待测语音进行文本识别的过程中，由于待测语音中通常存在静默或环境噪声的片段，这些片段无益于口音识别模型对待测语音的口音识别，还会增加计算过程的冗杂度。

技术实现思路

1、以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本申请实施例提供了一种口音识别方法、装置、电子设备及存储介质，能够减少口音识别过程的冗杂度，提升口音识别模型的准确性和鲁棒性。

3、为实现上述目的，本申请实施例的第一方面提出了1.一种口音识别方法，其特征在于，包括：获取待测语音；将所述待测语音输入至语音识别模型，对所述待测语音进行分帧处理和特征提取处理，得到多个第一语音特征，对所述第一语音特征进行处理，确定文本概率分布，其中，所述文本概率分布包括多个识别字符的识别概率，以及各个所述识别字符对应的文本出现时间；根据所述识别概率确定目标字符，剔除所

4、在一实施例中，所述语音识别模型包括第一编码模块、线性映射模块和激活模块，所述将所述待测语音输入至语音识别模型，对所述待测语音进行分帧处理和特征提取处理，得到第一语音特征，对所述第一语音特征进行处理，确定文本概率分布，包括：将所述待测语音输入至语音识别模型，对所述待测语音进行分帧处理，得到多个语音帧；通过所述第一编码模块对各个所述语音帧进行特征提取处理，得到第一语音特征；通过所述线性映射模块对各个所述第一语音特征进行识别，得到识别字符；通过所述激活模块对各个所述识别字符进行激活处理，得到文本概率分布。

5、在一实施例中，所述根据各个所述目标字符对应的所述文本出现时间，将所述目标字符与所述待测语音进行对齐处理，得到语音文本对齐信息之前，还包括：当所述目标字符对应的所述文本出现时间连续，且所述目标字符相同时，根据各个所述目标字符对应的所述识别概率，确定最大概率字符；将与所述最大概率字符相同且连续的其他目标字符剔除，将被剔除的目标字符对应的第一语音特征剔除。

6、在一实施例中，所述将所述语音文本对齐信息和所述第一语音特征输入至口音识别模型，确定所述待测语音的目标口音种类，包括：调用口音识别模型，对所述第一语音特征进行变换，得到目标口音特征；根据所述目标口音特征确定所述待测语音的目标口音种类。

7、在一实施例中，所述口音识别模型包括第二编码模块、量化模块和注意力模块，所述调用口音识别模型，对所述第一语音特征进行变换，得到目标口音特征，包括：通过所述第二编码模块对所述第一语音特征再次进行卷积处理，得到第二语音特征；通过所述量化模块对所述第二语音特征进行离散处理，得到多个第三语音特征；通过所述注意力模块对每个所述第三语音特征进行调整，得到多个第四语音特征；根据所述第四语音特征确定目标口音特征。

8、在一实施例中，所述根据所述第四语音特征确定目标口音特征，包括：基于所述第四语音特征确定初始口音特征；基于所述初始口音特征确定均值口音特征和方差口音特征，根据所述均值口音特征和所述方差口音特征确定目标口音特征。

9、在一实施例中，所述根据所述目标口音特征确定所述待测语音的目标口音种类，包括：获取所述语音文本对齐信息的标准口音特征；将所述目标口音特征与所述语音文本对齐信息进行对齐，基于对齐后的所述标准口音特征和所述目标口音特征确定所述待测语音的目标口音种类。

10、为实现上述目的，本申请第二方面提出一种口音识别装置，包括：获取模块，用于获取待测语音；语音识别模块，用于将所述待测语音输入至语音识别模型，对所述待测语音进行分帧处理和特征提取处理，得到多个第一语音特征，对所述第一语音特征进行处理，确定文本概率分布，其中，所述文本概率分布包括多个识别字符的识别概率，以及各个所述识别字符对应的文本出现时间；处理模块，用于根据所述识别概率确定目标字符，剔除所有所述目标字符中的空白字符，剔除所述空白字符对应的第一语音特征，根据各个所述目标字符对应的所述文本出现时间，将所述目标字符与所述待测语音进行对齐处理，得到语音文本对齐信息；口音识别模块，用于将所述语音文本对齐信息和所述第一语音特征输入至口音识别模型，确定所述待测语音的目标口音种类。

11、为实现上述目的，本申请第三方面还提出一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的口音识别方法。

12、为实现上述目的，本申请第四方面还提出一种存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的口音识别方法。

13、本申请实施例至少包括以下有益效果：通过将待测语音输入至语音识别模型，对所述待测语音进行分帧处理和特征提取处理，得到多个第一语音特征，再通过语音识别模型对第一语音特征进行识别，得到语音文本对齐信息，在此过程中，由于需要基于每个第一语音特征进行字符识别，在待测语音中，通常存在持续静默或充斥环境噪声的语音帧，这些语音帧中往往不包括人声，因此，这些语音帧将被识别为空白字符，空白字符和空白字符对应的第一语音特征中并没有利于进行口音识别的特征数据，因此，通过在语音文本对齐信息中剔除空白字符，并剔除空白字符对应的第一语音特征，从而能够得到没有冗余语音数据的第一语音特征，在每个第一语音特征中均包括有人声，即减少口音识别模型处理过程的冗杂度，使得口音识别模型能够专注与待测语音中的人声数据进行口音识别，从而能够减少口音识别模型的计算量，减少环境噪声等冗余声音对口音识别的干扰，提升口音识别模型的准确性和鲁棒性。

14、本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

本文档来自技高网...

【技术保护点】

1.一种口音识别方法，其特征在于，包括：

2.根据权利要求1所述的口音识别方法，其特征在于，所述语音识别模型包括第一编码模块、线性映射模块和激活模块，所述将所述待测语音输入至语音识别模型，对所述待测语音进行分帧处理和特征提取处理，得到第一语音特征，对所述第一语音特征进行处理，确定文本概率分布，包括：

3.根据权利要求1所述的口音识别方法，其特征在于，所述根据各个所述目标字符对应的所述文本出现时间，将所述目标字符与所述待测语音进行对齐处理，得到语音文本对齐信息之前，还包括：

4.根据权利要求1所述的口音识别方法，其特征在于，所述将所述语音文本对齐信息和所述第一语音特征输入至口音识别模型，确定所述待测语音的目标口音种类，包括：

5.根据权利要求4所述的口音识别方法，其特征在于，所述口音识别模型包括第二编码模块、量化模块和注意力模块，所述调用口音识别模型，对所述第一语音特征进行变换，得到目标口音特征，包括：

6.根据权利要求5所述的口音识别方法，其特征在于，所述根据所述第四语音特征确定目标口音特征，包括：

7.根据

8.一种口音识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的口音识别方法。

10.一种存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的口音识别方法。

...

【技术特征摘要】

1.一种口音识别方法，其特征在于，包括：

5.根据权利要求4所述的口音识别方法，其特征在于，所述口音识别...

【专利技术属性】
技术研发人员：孔睿迅，孙杰英，邢军，李岳洪，张明珠，叶琳，姚乐，
申请(专利权)人：广东中创智家科学研究有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人