一种跨模态多特征融合的音频语音识别方法技术

技术编号:38908025 阅读:14 留言:0更新日期:2023-09-25 09:26
本发明专利技术公开了一种跨模态多特征融合的音频语音识别方法,涉及语音识别技术领域,该跨模态多特征融合的音频语音识别方法能够支持多种小语种的识别且识别率较高,无需在有公网的环境下调用API,能够做到离线部署,在进行语音识别时,能够自动对周围音频语音进行探测,并对探测到的语音进行识别,而且对于模糊的语音能够进行再次识别,提高语音识别质量和语音采集效率,能够对识别的语音进行降噪处理,使得语音音质显著提高,而且能够对音频语速进行调节,便于对音频的后续处理,通过设置语音离线识别单元能够利用多个语种离线识别模块针对缅甸语,越南语,尼泊尔语,柬埔寨语等小语种进行识别,使得本发明专利技术具有较强的实用性。使得本发明专利技术具有较强的实用性。使得本发明专利技术具有较强的实用性。

【技术实现步骤摘要】
一种跨模态多特征融合的音频语音识别方法


[0001]本专利技术涉及语音识别
,具体为一种跨模态多特征融合的音频语音识别方法。

技术介绍

[0002]众所周知,主流语音识别框架还是由3个部分组成:声学模型、语言模型和解码器,有些框架也包括前端处理和后处理。但是目前国内主流的语音识别模型对小语种不支持或识别率很低,或者即使支持但是必须在有公网的环境下调用API,不能做到离线部署的情况,为此,本专利技术提出了一种跨模态多特征融合的音频语音识别方法以解决上述问题。

技术实现思路

[0003]针对现有技术的不足,本专利技术提供了一种跨模态多特征融合的音频语音识别方法,解决了目前国内主流的语音识别模型对小语种不支持或识别率很低,或者即使支持但是必须在有公网的环境下调用API,不能做到离线部署的问题。
[0004]为实现以上目的,本专利技术通过以下技术方案予以实现:一种跨模态多特征融合的音频语音识别方法,具体包括以下步骤:
[0005]步骤一、音频语音识别时,信号采集单元中的语音探测模块对周围的音频语音信号进行探测,并将探测到的音频语音信号利用语音识别模块进行识别,语音获取模块则将识别到的音频语音信号采集,模糊语音处理模块对于获取到的模糊音频语音信号再次传输到语音识别模块中识别,最后则利用无线传输模块将采集的音频语音信号传输到下一处理单元。
[0006]步骤二、信号处理单元接收到无线传输模块传递的音频语音信号后,利用降噪处理模块对音频语音信号中的噪音进行降噪处理,语音二次识别模块对降噪后的语音再次识别,音色标记模块则对音频语音信号中具有不同音色特征的信号进行标记,语速调整模块对具有不同语速的音频语音信号调整至标准语速,利用无线发送模块将处理后的音频语音信号发送至下一处理单元。
[0007]步骤三、特征提取单元提取音频语音信号中的特征后,分别利用声学模型合成单元和语言模型合成单元建立计算机便于处理的声学模型和语言模型,经过编码器编码成编码文件后发送给处理器,处理器控制文本转换单元将该音频语音文件转换成文本形式,并通过文本转换单元输出,输出文件则由储存器保存。
[0008]步骤四、离线状态下,处理器利用语音离线识别单元采集的音频语音信号进行识别,并将识别到的音频语音信号发送到信号处理单元中,然后依次按照步骤二和步骤三的处理方式处理。
[0009]本专利技术还提供了一种跨模态多特征融合的音频语音识别系统,包括处理器、文本转换单元、文本转换单元、储存器、语音离线识别单元、编码器、信号采集单元、信号处理单元、特征提取单元、声学模型合成单元和语言模型合成单元,所述处理器的输出端和文本转
换单元的输入端相连接,所述文本转换单元的输出端和文本转换单元的输入端相连接,所述文本转换单元的输出端和储存器的输入端相连接,所述储存器与处理器实现双向连接,所述语音离线识别单元和信号采集单元的输出端均和信号处理单元的输入端相连接,所述信号处理单元的输出端和特征提取单元的输入端相连接,所述特征提取单元的输出端分别和声学模型合成单元、语言模型合成单元的输入端相连接,所述声学模型合成单元和语言模型合成单元的输出端均和编码器的输入端相连接,所述编码器的输出端和处理器的输入端相连接。
[0010]进一步的,所述信号采集单元包括语音探测模块、语音识别模块、语音获取模块、模糊语音处理模块和无线传输模块,所述语音探测模块的输出端和语音识别模块的输入端相连接。
[0011]进一步的,所述语音识别模块的输出端和语音获取模块的输入端相连接,所述语音获取模块的输出端和模糊语音处理模块的输入端相连接。
[0012]进一步的,所述模糊语音处理模块的输出端分别和语音识别模块、无线传输模块的输入端相连接。
[0013]进一步的,所述信号处理单元包括降噪处理模块、语音二次识别模块、音色标记模块、语速调整模块和无线发送模块,所述降噪处理模块的输出端和语音二次识别模块的输入端相连接。
[0014]进一步的,所述语音二次识别模块的输出端和音色标记模块的输入端相连接,所述音色标记模块的输出端和语速调整模块的输入端相连接,所述语速调整模块的输出端和无线发送模块的输入端相连接。
[0015]进一步的,所述语音离线识别单元由N个语音离线识别模块组成。
[0016]有益效果
[0017]本专利技术提供了一种跨模态多特征融合的音频语音识别方法。与现有技术相比具备以下有益效果:
[0018]1、一种跨模态多特征融合的音频语音识别方法,通过处理器的输出端和文本转换单元的输入端相连接,文本转换单元的输出端和文本转换单元的输入端相连接,文本转换单元的输出端和储存器的输入端相连接,储存器与处理器实现双向连接,语音离线识别单元和信号采集单元的输出端均和信号处理单元的输入端相连接,信号处理单元的输出端和特征提取单元的输入端相连接,特征提取单元的输出端分别和声学模型合成单元、语言模型合成单元的输入端相连接,声学模型合成单元和语言模型合成单元的输出端均和编码器的输入端相连接,编码器的输出端和处理器的输入端相连接,该跨模态多特征融合的音频语音识别方法能够支持多种小语种的识别且识别率较高,无需在有公网的环境下调用API,能够做到离线部署。
[0019]2、一种跨模态多特征融合的音频语音识别方法,通过信号采集单元包括语音探测模块、语音识别模块、语音获取模块、模糊语音处理模块和无线传输模块,语音探测模块的输出端和语音识别模块的输入端相连接,语音识别模块的输出端和语音获取模块的输入端相连接,语音获取模块的输出端和模糊语音处理模块的输入端相连接,在进行语音识别时,能够自动对周围音频语音进行探测,并对探测到的语音进行识别,而且对于模糊的语音能够进行再次识别,提高语音识别质量和语音采集效率。
[0020]3、一种跨模态多特征融合的音频语音识别方法,通过信号处理单元包括降噪处理模块、语音二次识别模块、音色标记模块、语速调整模块和无线发送模块,降噪处理模块的输出端和语音二次识别模块的输入端相连接,语音二次识别模块的输出端和音色标记模块的输入端相连接,音色标记模块的输出端和语速调整模块的输入端相连接,语速调整模块的输出端和无线发送模块的输入端相连接,能够对识别的语音进行降噪处理,使得语音音质显著提高,而且能够对音频语速进行调节,便于对音频的后续处理。
[0021]4、一种跨模态多特征融合的音频语音识别方法,通过设置语音离线识别单元能够利用多个语种离线识别模块针对缅甸语,越南语,尼泊尔语,柬埔寨语等小语种进行识别,使得本专利技术具有较强的实用性。
附图说明
[0022]图1为本专利技术语音识别流程图;
[0023]图2为本专利技术结构原理框图;
[0024]图3为本专利技术信号采集单元结构原理框图;
[0025]图4为本专利技术信号处理单元结构原理框图;
[0026]图5为本专利技术语音离线识别单元结构原理框图。
[0027]图中:1、处理器;2、文本转换单元;4、文本转换单元;5、储存器;6、语音离线识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨模态多特征融合的音频语音识别方法,其特征在于:具体包括以下步骤:步骤一、音频语音识别时,信号采集单元(8)中的语音探测模块(81)对周围的音频语音信号进行探测,并将探测到的音频语音信号利用语音识别模块(82)进行识别,语音获取模块(83)则将识别到的音频语音信号采集,模糊语音处理模块(84)对于获取到的模糊音频语音信号再次传输到语音识别模块(82)中识别,最后则利用无线传输模块(85)将采集的音频语音信号传输到下一处理单元;步骤二、信号处理单元(9)接收到无线传输模块(85)传递的音频语音信号后,利用降噪处理模块(91)对音频语音信号中的噪音进行降噪处理,语音二次识别模块(92)对降噪后的语音再次识别,音色标记模块(93)则对音频语音信号中具有不同音色特征的信号进行标记,语速调整模块(94)对具有不同语速的音频语音信号调整至标准语速,利用无线发送模块(95)将处理后的音频语音信号发送至下一处理单元;步骤三、特征提取单元(10)提取音频语音信号中的特征后,分别利用声学模型合成单元(11)和语言模型合成单元(12)建立计算机便于处理的声学模型和语言模型,经过编码器(7)编码成编码文件后发送给处理器(1),处理器(1)控制文本转换单元(2)将该音频语音文件转换成文本形式,并通过文本转换单元(4)输出,输出文件则由储存器(5)保存;步骤四、离线状态下,处理器(1)利用语音离线识别单元(6)采集的音频语音信号进行识别,并将识别到的音频语音信号发送到信号处理单元(9)中,然后依次按照步骤二和步骤三的处理方式处理。2.一种应用于权利要求1所述的跨模态多特征融合的音频语音识别方法的识别系统,其特征在于:包括处理器(1)、文本转换单元(2)、文本转换单元(4)、储存器(5)、语音离线识别单元(6)、编码器(7)、信号采集单元(8)、信号处理单元(9)、特征提取单元(10)、声学模型合成单元(11)和语言模型合成单元(12),所述处理器(1)的输出端和文本转换单元(2)的输入端相连接,所述文本转换单元(2)的输出端和文本转换单元(4)的输入端相连接,所述文本转换单元(4)的输出端和储存器(5)的输入端相连接,所述储存器(5)与处理器(1)实现双向连接,所述语音离线...

【专利技术属性】
技术研发人员:伊海村
申请(专利权)人:北京维麦姆科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1