System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及音频信号处理,尤其涉及视听辅助降噪语音识别系统。
技术介绍
1、音频信号处理是一个涉及信号处理技术用以改善、分析和操作音频信号的领域,其关键在于提取有用信息、去除噪声干扰、增强音质或对音频进行编码和解码,在实际应用中,音频信号处理不仅关键于音乐制作、广播和电影行业,也在通信、医疗诊断(如听力检测和辅助设备),以及语音识别系统中扮演着重要角色,特别是在语音通信和智能设备中,有效的音频信号处理技术可以显著提高语音的可懂度和识别性能。
2、其中,视听辅助降噪语音识别系统是一种结合视听辅助功能和降噪技术的语音识别系统,其主要用途是帮助听力受损或视听障碍者通过降低背景噪声,提升语音清晰度,从而更好地理解和响应周围的声音环境,在多嘈杂的环境中,该系统能有效地分离语音与噪声,确保用户能接收到高质量的音频信号,从而提高生活质量和沟通效率。
3、现有技术在嘈杂环境下,语音识别准确率较低,尤其是在音频降噪和语音识别的集成处理上存在不足,传统技术未能有效地利用面部和嘴部关键点检测来辅助语音识别,未充分利用视频信息进行语音识别的增强,导致在动态和多变的噪声环境中,无法有效分辨背景噪声与关键语音信号,从而降低了语音识别系统的整体性能,缺乏有效的多模态处理,使得在实时语音识别和准确性方面受到影响。
技术实现思路
1、本专利技术的目的是解决现有技术中存在的缺点,而提出的视听辅助降噪语音识别系统。
2、为了实现上述目的,本专利技术采用了如下技术方案:视听辅助降噪语
3、面部关键点跟踪模块实时捕捉视频中的面部图像,利用运动跟踪技术,进行面部运动分析,识别嘴部活动,并确定面部关键点,生成面部动态特征;
4、音频同步标记模块基于所述面部动态特征,同步检测麦克风中的音频数据,识别与面部活动同步的音频段,通过时间戳对齐验证音频同步准确性,并标记目标音频段,得到音频标记数据;
5、音频降噪处理模块基于所述音频标记数据,利用支持向量机,分析背景噪声特征,应用快速傅里叶变换进行实时降噪,调整噪声抑制流程,并对标记音频进行降噪处理,消除背景噪声影响,得到降噪后的音频;
6、语音识别优化模块基于所述降噪后的音频,利用长短期忆网络处理语音信号,进行语音内容识别,优化语音的关联性和识别准确性,得到识别优化输出信息。
7、本专利技术改进有,所述嘴部活动的识别步骤具体为:
8、实时捕捉视频中的面部图像,录制连续视频帧,得到面部图像序列;
9、分析所述面部图像序列,进行色彩均衡和图像锐化处理,优化图像细节,生成优化后的面部图像;
10、基于所述优化后的面部图像,应用运动跟踪技术,对嘴部区域进行动态分析,采用公式:
11、
12、生成嘴部活动信息df,其中,dt代表目标图像区域的对比度,vt代表目标图像区域的运动速度,k1和k2是调整系数,用于调整对比度和运动速度对分析结果的影响。
13、本专利技术改进有,所述面部动态特征的获取步骤具体为:
14、利用所述运动跟踪技术,分析优化的面部特征图像,采用公式:
15、
16、确定面部的关键点运动,包括眼角和嘴角,得到面部动态特征fs,其中,wsi是第i个关键点的权重,dsi是第i个关键点的运动量,ksi是第i个关键点的调节系数,用于调整权重和运动量的影响,ns是面部关键点总数。
17、本专利技术改进有,所述识别与面部活动同步的音频段的步骤具体为:
18、基于所述面部动态特征,与麦克风捕获的音频数据进行初步同步,生成初步音频同步数据;
19、基于所述初步音频同步数据,采用公式:
20、
21、计算面部动态与音频数据的同步得分sc,得到音频段识别结果,其中,s(t)是时间t的面部动态特征的数值,m(t)是时间t的音频强度值,t是时间索引,tc是总监控的时间窗长度。
22、本专利技术改进有,所述音频标记数据的获取步骤具体为:
23、基于面部动态与音频数据的时间戳,进行对齐验证,确定同步性,并采用公式:
24、
25、计算每个音频段的同步置信得分su,生成标记的目标音频段,其中,δtu是视频与音频时间戳的差值,ku是调整同步敏感度的参数;
26、整合所述标记的目标音频段,包括音频段的时间信息、同步置信得分和关联的面部动态特征,得到音频标记数据。
27、本专利技术改进有,所述背景噪声特征的分析步骤具体为:
28、基于所述音频标记数据,利用支持向量机,分析标记的音频数据,识别背景噪声特征,得到频率成分与噪声关联性的初步数据;
29、基于所述频率成分与噪声关联性的初步数据,筛选最优关联性的背景噪声频率区域,采用公式:
30、
31、计算区域的能量总和xn,其中,a(f)是频率f处的音频幅度,low和high是根据svm分析确定的背景噪声关键频率区域的下限和上限;
32、根据频率区域的能量特性,评估背景噪声对通话质量的影响,得到背景噪声特征信息。
33、本专利技术改进有,所述降噪后的音频的获取步骤具体为:
34、应用所述快速傅里叶变换对标记的音频数据进行频域转换,通过分析目标频段的能量分布,识别并抑制背景噪声,生成频域分析数据;
35、基于所述频域分析数据,调整噪声抑制流程,采用公式:
36、
37、计算每个频点的信噪比和应用增益,得到调整后的噪声抑制数据,其中,g(f)是频率f的增益,snr(f)是信噪比,βv和αv是调整系数,用于调整增益响应;
38、基于所述调整后的噪声抑制数据,提取处理过的音频数据,最小化背景噪声并优化音频质量,得到降噪后的音频。
39、本专利技术改进有,所述识别优化输出信息的获取步骤具体为:
40、基于所述降噪后的音频,利用长短期记忆网络处理新输入的音频数据,采用公式:
41、
42、评估音频内容的关键信息,得到音频特征cy,其中,fyn是第n个音频特征,cyn是第n个特征的权重,用于调整特征的贡献度,ny代表音频特征总数;
43、对所述音频特征进行分析,评估和识别语音内容,结合上下文信息和语音识别结果,优化输出信息的关联性和准确性,得到识别优化输出信息。
44、与现有技术相比,本专利技术的优点和积极效果在于:
45、本专利技术中,通过面部和嘴部检测技术,有效识别讲话时段并获取较为纯净的语音数据,显著提升了嘈杂环境下的语音识别准确率,通过结合视频数据与音频数据的处理,系统能够准确确定讲话时段,从而确保语音数据的有效性,通过降噪处理技术,提供了更清晰的语音输入,进一步提高了语音识别的性能,这种多模态数据处理,不仅增强了系统对复杂环境下语音的捕捉能力,也优化了语音识别过程中的关联性和准确性本文档来自技高网...
【技术保护点】
1.视听辅助降噪语音识别系统,其特征在于,所述系统包括:
2.根据权利要求1所述的视听辅助降噪语音识别系统,其特征在于,所述嘴部活动的识别步骤具体为:
3.根据权利要求1所述的视听辅助降噪语音识别系统,其特征在于,所述面部动态特征的获取步骤具体为:
4.根据权利要求1所述的视听辅助降噪语音识别系统,其特征在于,所述识别与面部活动同步的音频段的步骤具体为:
5.根据权利要求1所述的视听辅助降噪语音识别系统,其特征在于,所述音频标记数据的获取步骤具体为:
6.根据权利要求1所述的视听辅助降噪语音识别系统,其特征在于,所述背景噪声特征的分析步骤具体为:
7.根据权利要求1所述的视听辅助降噪语音识别系统,其特征在于,所述降噪后的音频的获取步骤具体为:
8.根据权利要求1所述的视听辅助降噪语音识别系统,其特征在于,所述识别优化输出信息的获取步骤具体为:
【技术特征摘要】
1.视听辅助降噪语音识别系统,其特征在于,所述系统包括:
2.根据权利要求1所述的视听辅助降噪语音识别系统,其特征在于,所述嘴部活动的识别步骤具体为:
3.根据权利要求1所述的视听辅助降噪语音识别系统,其特征在于,所述面部动态特征的获取步骤具体为:
4.根据权利要求1所述的视听辅助降噪语音识别系统,其特征在于,所述识别与面部活动同步的音频段的步骤具体为:
5.根据权利...
【专利技术属性】
技术研发人员:陆文斌,刘洪宇,
申请(专利权)人:上海集之数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。