一种面向边缘设备的语音识别-合成联合的建模方法技术

技术编号：23401977 阅读：35 留言：0更新日期：2020-02-22 14:03

一种面向边缘设备的语音识别‑合成联合的建模方法，通过对实时性计算的研究，边缘计算策略的分布以及娱乐游戏“拷贝不走样”的启发，后端融合语音识别和语音合成技术的模型迭代方法。在这基于音频处理领域的语音增强功能构建实时高效处理模块，基于语音识别技术和语音合成技术构建针对中国方言的语音识别及合成迭代模型，充分利用语音技术的特性实现兼具识别、合成、高效的实时性方言处理模型，有效利用边缘环境更加丰富的处理能力，将语音识别和语音合成技术组合起来，设计一个功能更丰富，性能更加鲁棒的语音模型。

A joint modeling method of speech recognition and synthesis for edge devices

全部详细技术资料下载

【技术实现步骤摘要】
一种面向边缘设备的语音识别-合成联合的建模方法
本专利技术属于边缘计算、音频研究
，涉及边缘服务器、语音增强、语音识别、语音合成，神经网络，具体涉及一种面向边缘设备的语音识别-合成联合的建模方法。
技术介绍
工业4.0之后，人工智能、物联网（IoT）的飞速崛起，为人类衣食住行等方面的便利性提供了巨大的潜力，许许多多的智能产品应运而生。与此同时，近年来随着边缘计算的发展，边缘计算策略可以有效的实现大任务计算量的分配，解决实时性问题，提高模型的推算能力。因此，更加是为不断强化扩充智能产品的功能提供了无限的可能性。随着神经网络、深度学习的不断发展，带动了与之相关研究的重大突破。其中，最明显的就数语音领域和图像领域了。近年来，在NLP语音识别领域，语音处理技术，语音识别，语音合成等飞速发展，取得了瞩目的成功。但是仍然存在一些技术性的问题有待优化研究，例如：机器处理实时性、智能应用鲁棒性、对象的综合特性等都是需要不断优化研究的问题。通过利用“听写大会”微信小程序对一些中国方言数据进行测试，发现其中一些待测模型的识别效果不是很好。其中缘由，多是输入数据特性不好、模型本身性能欠缺、以及操作流程漏洞。因此，除过漏洞检测之外，对模型性能以及数据的处理是一个能够提高精度，解决这个问题的有效方法。所以，充分利用语音领域、移动计算技术等优化模型效果，利用模型特性扩充应用的功能显得尤为重要。
技术实现思路
为了克服上述现有技术的不足，本专利技术的目的是提供一种面向边缘设备的语音识别-合成联合的建模方法，在这基...

【技术保护点】
1.一种面向边缘设备的语音识别-合成联合的建模方法，其特征在于，包括以下步骤：/n1）采集数据集样本：/n采集各种各样的环境的音频数据，分a类安静环境下的干净音频，b类不同种类的噪音音频，b类不同种类的噪音音频参照noise噪声库；/n2）进行数据处理：/n做噪声融合处理，将噪声加入到干净的音频中，打包组装成干净的音频数据和对应的加噪音频数据；/n3）搭建边缘服务器：/n搭建稳定的边缘服务器设备，实现稳定的上传下载接口；算法处理语音增强模块，采用谱减法、小波硬阈值、gan网络模型结合语音识别引擎采用一个投票法取得最优值，以此作为音频前处理的优化手段，在该层设备上做音频前端处理进行去混响，降噪声，噪音分离等，利用小波，谱减，神经网络模型融合处理筛选对应噪声的最优模型，应用投票法处理音频挑选出处理对应音频质量较高的模型方法；/n搭建中文方言语音识别模型：/n采用基于cnn+rnn的基础模型架构，表现在利用cnn技术进行语音特征MFCC提取之后的二次特征处理，将音频语谱图作为输入特征，将提取的语谱图特征向量与MFCC特征向量进行归一化处理；搭建中文方言语音合成模型，基于wavenet的改进模...

【技术特征摘要】
1.一种面向边缘设备的语音识别-合成联合的建模方法，其特征在于，包括以下步骤：
1）采集数据集样本：
采集各种各样的环境的音频数据，分a类安静环境下的干净音频，b类不同种类的噪音音频，b类不同种类的噪音音频参照noise噪声库；
2）进行数据处理：
做噪声融合处理，将噪声加入到干净的音频中，打包组装成干净的音频数据和对应的加噪音频数据；
3）搭建边缘服务器：
搭建稳定的边缘服务器设备，实现稳定的上传下载接口；算法处理语音增强模块，采用谱减法、小波硬阈值、gan网络模型结合语音识别引擎采用一个投票法取得最优值，以此作为音频前处理的优化手段，在该层设备上做音频前端处理进行去混响，降噪声，噪音分离等，利用小波，谱减，神经网络模型融合处理筛选对应噪声的最优模型，应用投票法处理音频挑选出处理对应音频质量较高的模型方法；
搭建中文方言语音识别模型：
采用基于cnn+rnn的基础模型架构，表现在利用cnn技术进行语音特征MFCC提取之后的二次特征处理，将音频语谱图作为输入特征，将提取的语谱图特征向量与MFCC特征向量进行归一化处理；搭建中文方言语音合成模型，基于wavenet的改进模型，为多维度交叉融合提供接口；联合语音识别模型和语音合成模型部署在上层云端，接收边缘层的处理结果作为输入来源；
5）将步骤3）的数据在搭建好的边缘服务层设备进行首次处理，通过语音增强手段进行音频前处理，提高音频的机器可懂度，提取语音样本集的特征并将其通过4）所述的中文方言语音识别模型，得到正样本T1，其准确率acc1，负样本F1，其准确率acc2，将T1，F1分别输入到4）所述的中文方言语音合成模型，合成音频的输出结果与7）的输入对应有四种，分别是T11，T12，F21，F22；其中T11代表语音识别结果为正样本，语音合成结果为正样本；T12表示语音识别结果为正样本语音合成结果为负；F21表示语音识别结果为负，合成结果为正；F22表示语音识别和合成的结果均为负；
6）按照正确样本的比例评估对应特征的优势占比，将优势的特征表现集合筛选出来，作为阶段性模型特征，...

【专利技术属性】
技术研发人员：王海，秦晨光，张晓，刘艺，赵子鑫，高岭，任杰，郑杰，
申请(专利权)人：西北大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人