System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于深度学习、计算机视觉和语音增强,具体涉及一种基于音视频的多模态语音增强系统。
技术介绍
1、语音分离技术,又称声源分离技术或波束形成技术,主要基于声学信号处理,其目的是从复杂的音频信号中提取特定的语音信号。在数字化的学习环境中,在线学习平台为语言学习者提供了前所未有的灵活性和便利性。然而,随着参与在线课堂和学习活动的人数增加,如何有效地从嘈杂的音频环境中分离出单个学习者的语音,以确保语言能力的准确评估和教学效果的提升,成为一个亟待解决的挑战。比如在在线学习环境中,参与者可能来自世界各地,面临着不同的语言和噪声背景,增加了语音分离的难度;同时,说话者的位置变化和移动可能导致声音的传播路径变化,增加了分离技术的实现难度;并且,语音分离系统需要能够在不同的环境下保持良好的性能,并对未知说话者和噪音源具有一定的适应性。而语音分离技术的应用在多个领域中展现了其显著的实用性。在在线语言学习环境中,这项技术可以显著提高评分的准确度,通过清晰地分离出每位学习者的语音,确保评估结果的公正性。此外,它也能显著改善教学互动质量,使教师能够更清晰地听到学生的问题和回答,从而提升课堂沟通效果。在嘈杂的公共场所,如机场和交通工具内,语音分离技术能够提高远程会议的清晰度和有效性,为参与者提供更为顺畅的交流体验。与此同时,语音分离技术也对智能助听器的设计和应用产生了积极影响,通过过滤背景噪音,为听障人士提供更高质量的听力支持。
2、目前,语音增强技术的主要关注点是提升语音的质量和可懂度。语音质量通常是主观感知的结果,受听者个人期望的影
3、语音增强技术的传统方法通常通过去除背景噪音并保留语音信号来提高语音质量。现有已公开的涉及语音增强的系统及方法的专利有申请号为cn202011501035.5的《一种语音增强方法、装置及存储介质》和cn202410801433.0的《语音增强方法、模型训练方法、装置及相关设备》,这两种方法均基于音频能量谱来预测增强后的语音结果。然而,这些方法在处理不同说话者的声音分离时存在一定困难。
4、为了改善这一问题,近年来的研究者们开始利用各种外部线索进行音频分离。申请号cn202410268765.7的《一种联合语音增强方法及其模型搭建方法》通过处理音频特征和视觉特征来分离特定身份的语音。这种方法利用了音频和视觉信息的联合处理,以提高语音分离的准确性。该专利虽然在声源分离方面表现出色,但通常依赖于高质量的视觉信息和精准的同步流,这在实际应用中可能受到限制。我们的方法在音频处理的基础上,进一步强化了对复杂噪音环境和动态声源配置的适应能力,更注重在实际应用场景中面对的各种干扰和限制,提供更强的鲁棒性。申请号cn202110441281.4的《一种音视频语音增强处理方法及装置》结合视觉特征的动态线索,例如目标说话者的嘴唇动作,从多个语音信号中分离出目标说话者的声音。其重点在于通过视觉信息提升语音信号的分离效果。该专利主要依赖于视觉特征(如嘴唇动作)和静态/动态线索来进行语音分离,对环境的适应性和处理范围可能存在一定局限。
技术实现思路
1、本专利技术的目的在于提供一种基于音视频的多模态语音增强系统,通过计算机视觉技术分析目标说话者说话时的面部运动和声音信息,将目标说话者的语音从其他干扰声音及环境噪音中分离出来,开发一款简便易用的语音增强系统,提高目标说话者语音的清晰度、可懂度,为使用者提供更加高效的工具,以解决上述
技术介绍
中提出的问题。
2、为实现上述目的,本专利技术提供如下技术方案:一种基于音视频的多模态语音增强系统,该增强系统包括
3、数据采集模块,通过麦克风采集目标音频以及背景噪声和干扰音;利用摄像头同步采集环境视觉信息,包括说话者的面部表情和口型,对噪声和干扰音进行归一化处理,确保与目标音频的动态范围匹配;
4、数据分析模块,对采集到的音频进行预处理,包括噪声抑制和语音增强,应用深度学习模型提高语音的清晰度;分析摄像头捕获的视觉信息,辅助音频处理,以提高语音识别和增强的准确性;提取音频特征,进行数据融合处理,综合利用音频和视觉信息优化语音增强效果,并评估和优化处理结果;
5、交互界面,用于浏览对比采集到的初始音视频和经过语音增强后的音视频;支持将处理后的音频和视频数据导出为标准格式文件;
6、所述数据采集模块包括数据采集部分和数据预处理部分;
7、所述数据分析模块包括语音增强模型,具体参照图1,主要功能是对一个给定的含有噪声的语音信号中分离出与其他输入模式(视频、面部外观信息)相对应的目标语音信号,并过滤掉信号的其他部分(其他说话者或背景噪声),用于捕获说话者面部运动与声音序列的时序动态特征。
8、作为本专利技术中一种优选的技术方案,所述数据预处理部分对视频部分的处理过程如下:
9、s1、将长视频进行分段处理,去除首尾帧,避免干扰因素的影响;
10、s2、使用3d人脸模型技术对图片帧和标记点进行旋转、平移和缩放操作,确保不同图片帧中的面部标记点对齐到相似的位置;
11、s3、对图片帧进行标准化处理,将像素值从[0,1]范围转换到[-1,1]范围;
12、s4、通过中心裁剪操作,使头部位于图像中心,并将图像大小调整为224×224像素,再将部分视频帧中的唇部添加方块遮挡物,并将清晰帧与遮挡帧的量保持在3:1的比例;
13、作为本专利技术中一种优选的技术方案,所述数据预处理部分对音频部分的处理过程如下:
14、将采样的目标音频分别与audioset中的环境噪声音频信号、以及包含一个说话者的干扰音频信号按照噪声占20%,干扰音频占30%,目标音频占50%的比例进行混合,同时根据混合音频的最大振幅进行归一化处理,将混合后的音频信号保存为wav文件,作为包含噪声的混合音频。
15、作为本专利技术中一种优选的技术方案,所述语音增强模型分为时空特征提取模块和特征融合模块,其中
16、时空特征模块利用卷积块提取音频、视频以及面部外观的特征信息作为异构模态信息,而特征融合模块利用transformer模型将异构模态信息进行融合,利用多模态信息有效将目标说话者的声音从其他噪声中分离出来。
17、作为本专利技术中一种优选的技术方案,所述语音增强模本文档来自技高网...
【技术保护点】
1.一种基于音视频的多模态语音增强系统,其特征在于:该增强系统包括
2.根据权利要求1所述的一种基于音视频的多模态语音增强系统,其特征在于:所述数据预处理部分对视频部分的处理过程如下:
3.根据权利要求1所述的一种基于音视频的多模态语音增强系统,其特征在于:所述数据预处理部分对音频部分的处理过程如下:
4.根据权利要求1所述的一种基于音视频的多模态语音增强系统,其特征在于:所述语音增强模型分为时空特征提取模块和特征融合模块,其中
5.根据权利要求4所述的一种基于音视频的多模态语音增强系统,其特征在于:所述语音增强模块对音频处理后,一维卷积神经网络组成的U-Net的编码器部分,编码器和解码器网络各有L层,并且解码器的层按照相反的顺序编号,编码器网络将原始波形作为输入,并输出潜在表示;网络的每一层都包含一个线性整流激活函数层、卷积层和门控线性单元激活层。
6.根据权利要求4所述的一种基于音视频的多模态语音增强系统,其特征在于:所述语音增强模块对视频帧经过处理后,使用一个由三维卷积层和ResNet-18组成的特征提取网络,提取
7.根据权利要求1所述的一种基于音视频的多模态语音增强系统,其特征在于:所述数据采集模块中的麦克风采样率为44.1kHz,而摄像头为1080p分辨率、30fps,文件保存为.npy格式用于后续分析。
8.根据权利要求3所述的一种基于音视频的多模态语音增强系统,其特征在于:所述环境噪声音频信号类型包括音乐、笑声、哭声、发动机声、风声。
...【技术特征摘要】
1.一种基于音视频的多模态语音增强系统,其特征在于:该增强系统包括
2.根据权利要求1所述的一种基于音视频的多模态语音增强系统,其特征在于:所述数据预处理部分对视频部分的处理过程如下:
3.根据权利要求1所述的一种基于音视频的多模态语音增强系统,其特征在于:所述数据预处理部分对音频部分的处理过程如下:
4.根据权利要求1所述的一种基于音视频的多模态语音增强系统,其特征在于:所述语音增强模型分为时空特征提取模块和特征融合模块,其中
5.根据权利要求4所述的一种基于音视频的多模态语音增强系统,其特征在于:所述语音增强模块对音频处理后,一维卷积神经网络组成的u-net的编码器部分,编码器和解码器网络各有l层,并且解码器的层按照相反的顺序编号,编码器网络将原始波形作为输入,并输出潜在表示;网络的每一层都包含一个线性整流激活...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。