System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及耳机,具体涉及一种多模态自适应拾音方法、系统、耳机及存储介质。
技术介绍
1、耳机作为一种不可或缺的人机交互媒介,在日常生活和专业应用领域中广泛应用。然而,在对抗极端噪声或应对极端安静要求的环境的挑战上,当前的耳机技术仍有显著提升空间,尤其是在极为嘈杂的环境中表现尚欠佳,针对高噪声环境下的通讯难题,现存解决方案可分为三大路径:(1)依靠单个或双麦克风配置的气传导耳机进行主动降噪;(2)整合骨传导与气传导技术实现联合降噪;(3)通过融合骨传导与视觉图像识别技术以实现信号提取。在完全静默或微弱声音环境下的通信诉求上,也有几种主流解决方案,其中包括借助摄像头进行唇语识别以及利用耳道内生物电信号等生理信息解析。当前现有的耳机方案通常是分别针对高噪声或静默环境设计的,无法一体化解决从无声到高噪声全频谱的语言信号感知问题,尽管已出现集成骨传导、气传导及光学传感器三位一体的通信设备,但此类产品仍不具备自动适应不同环境的能力,即不能自动识别并适应从常规环境过渡到高噪声环境的变化,需要手动切换工作模式以应对不同条件下的声音采集需求。
技术实现思路
1、有鉴于此,本专利技术提供了一种多模态自适应拾音方法、系统、耳机及存储介质,以解决如何自动识别并适应从常规环境过渡到高噪声环境变化的问题。
2、第一方面,本专利技术提供了一种多模态自适应拾音方法,方法包括:
3、获取语音数据、噪声数据、骨传导数据及唇动图像数据并进行预处理,得到语音时频图、噪声时频图、骨传导时频图及唇
4、根据语音时频图、噪声时频图、骨传导时频图及唇动裁切图及环境场景识别模型,确定语音数据、骨传导数据及唇动图像数据的权重系数;
5、根据对应的权重系数对语音数据、骨传导数据及唇动图像数据进行加权处理,得到加权语音数据、加权骨传导数据、加权唇动图像数据;
6、将加权语音数据、加权骨传导数据、加权唇动图像数据输入预设多模态融合模型,得到融合输出数据。
7、本专利技术提供的多模态自适应拾音方法,通过自适应识别周围环境场景,并根据周围环境场景为不同通道数据分配权重系数,利用权重系数将多个通道数据进行融合得到最终的输出数据,能够在极度静谧至喧嚣高噪声等各类复杂环境条件下均能实现优异的音频捕捉效能,满足用户在不同场景下对高品质拾音的需求。
8、在一种可选的实施方式中,所述方法还包括:
9、将噪声时频图输入预设环境识别模型,得到当前环境的噪音值;
10、根据噪音值利用预设主动降噪模型,调整语音数据、噪声数据的通道参数,对融合输出数据进行主动降噪。
11、本专利技术提供的多模态自适应拾音方法,通过实时预测识别当前环境的噪音状况,动态调整主动降噪参数,实现在不同场景中适当改变主动降噪的程度,以达到最佳的噪声抑制效果。
12、在一种可选的实施方式中,环境场景识别模型包括:预设时域分布模型、预设频域分布模型、预设能量分布模型、预设概率分配模型,根据语音时频图、噪声时频图、骨传导时频图及唇动裁切图及环境场景识别模型,确定语音数据、骨传导数据及唇动图像数据的权重系数,包括:
13、利用预设时域分布模型对语音时频图、噪声时频图、骨传导时频图进行处理,得到语音时频图、噪声时频图、骨传导时频图的平均幅度拼接结果;
14、利用预设频域分布模型对语音时频图、噪声时频图、骨传导时频图进行处理,得到语音时频图、噪声时频图、骨传导时频图的频域拼接结果;
15、利用预设能量分布模型对语音时频图、噪声时频图、骨传导时频图进行处理,得到语音时频图、噪声时频图、骨传导时频图的能量拼接结果;
16、利用预设概率分配模型对语音时频图、噪声时频图、骨传导时频图及唇动裁切图进行处理,得到语音时频图、噪声时频图、骨传导时频图及唇动裁切图的概率拼接结果;
17、将平均幅度拼接结果、频率拼接结果、能量拼接结果、概率拼接结果输入预设场景识别模型,输出语音数据、骨传导数据及唇动图像数据的权重系数。
18、本专利技术提供的多模态自适应拾音方法,通过环境场景识别模型从多个角度分析声音及图像数据的特征以确定周围环境场景,并根据周围环境场景为不同通道数据分配权重系数,使最终得到的融合输出数据更加清楚准确。
19、在一种可选的实施方式中,预设场景识别模型的构建过程包括:
20、获取多个预设标准环境下的语音数据、噪声数据、骨传导数据及唇动图像数据;
21、测量语音数据、骨传导数据及唇动图像数据在不同权重系数下,得到的融合输出数据的准确度;
22、根据准确度确定语音数据、骨传导数据及唇动图像数据对应的最优权重系数;
23、根据预设标准环境下的语音数据、噪声数据、骨传导数据及唇动图像数据,利用环境场景识别模型得到平均幅度拼接结果、频率拼接结果、能量拼接结果、概率拼接结果;
24、将多个预设标准环境下语音数据、骨传导数据及唇动图像数据对应的最优权重系数、平均幅度拼接结果、频率拼接结果、能量拼接结果、概率拼接结果,作为训练样本输入预设识别公式,得到平均幅度拼接结果、频率拼接结果、能量拼接结果、概率拼接结果的对应系数;
25、将具有平均幅度拼接结果、频率拼接结果、能量拼接结果、概率拼接结果对应系数的预设识别公式作为预设场景识别模型。
26、本专利技术提供的多模态自适应拾音方法,通过选择多个标准环境,并实际测量标准环境下各通道数据的最优权重系数,利用多个标准环境下的各通道数据及对应的最优权重系数,得到预设场景识别模型,实际拾音时,有利于利用预设场景识别模型得到准确清晰的融合输出数据。
27、在一种可选的实施方式中,利用预设时域分布模型对语音时频图、噪声时频图、骨传导时频图进行处理,得到语音时频图、噪声时频图、骨传导时频图的平均幅度拼接结果,包括:
28、按照预设时间间隔对目标时频图进行截取,得到目标时频图的多个截取片段,目标时频图包括语音时频图、噪声时频图、骨传导时频图;
29、从多个截取片段中选择预设数量的连续截取片段,确定预设数量的连续截取片段的多个信号幅度;
30、计算多个信号幅度的平均值作为目标时频图的平均幅度;
31、将语音时频图、噪声时频图、骨传导时频图的平均幅度进行拼接,得到平均幅度拼接结果。
32、本专利技术提供的多模态自适应拾音方法,通过对目标时频图进行截取、分析拼接信号幅度,有利于准确获取当前环境场景的音频幅度信息,最终识别环境场景时更加准确。
33、在一种可选的实施方式中,利用预设频域分布模型对语音时频图、噪声时频图、骨传导时频图进行处理,得到语音时频图、噪声时频图、骨传导时频图的频域拼接结果,包括:
34、按照预设时间间隔对目标时频图进行截取,得到目标时频图的多个截取片段,目标时频图包括语音时频图、噪声时频图、骨传导时频图;
35、对截取片段本文档来自技高网...
【技术保护点】
1.一种多模态自适应拾音方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述环境场景识别模型包括:预设时域分布模型、预设频域分布模型、预设能量分布模型、预设概率分配模型,根据语音时频图、噪声时频图、骨传导时频图及唇动裁切图及环境场景识别模型,确定所述语音数据、骨传导数据及唇动图像数据的权重系数,包括:
4.根据权利要求3所述的方法,其特征在于,所述预设场景识别模型的构建过程包括:
5.根据权利要求3所述的方法,其特征在于,利用预设时域分布模型对所述语音时频图、噪声时频图、骨传导时频图进行处理,得到所述语音时频图、噪声时频图、骨传导时频图的平均幅度拼接结果,包括:
6.根据权利要求3所述的方法,其特征在于,利用预设频域分布模型对所述语音时频图、噪声时频图、骨传导时频图进行处理,得到所述语音时频图、噪声时频图、骨传导时频图的频域拼接结果,包括:
7.根据权利要求3所述的方法,其特征在于,利用预设能量分布模型对所述语音时频图、噪
8.根据权利要求3所述的方法,其特征在于,利用预设概率分配模型对所述语音时频图、噪声时频图、骨传导时频图及唇动裁切图进行处理,得到所述语音时频图、噪声时频图、骨传导时频图及唇动裁切图的概率拼接结果,包括:
9.根据权利要求1所述的方法,其特征在于,将所述加权语音数据、加权骨传导数据、加权唇动图像数据输入预设多模态融合模型,得到融合输出数据,包括:
10.一种多模态自适应拾音系统,其特征在于,所述系统包括:
11.一种耳机,其特征在于,所述耳机包括:气导麦克风组、骨导麦克风、图像传感器、耳罩、咪杆,其中,
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至9中任一项所述的方法。
13.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令用于使计算机执行权利要求1至9中任一项所述的方法。
...【技术特征摘要】
1.一种多模态自适应拾音方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述环境场景识别模型包括:预设时域分布模型、预设频域分布模型、预设能量分布模型、预设概率分配模型,根据语音时频图、噪声时频图、骨传导时频图及唇动裁切图及环境场景识别模型,确定所述语音数据、骨传导数据及唇动图像数据的权重系数,包括:
4.根据权利要求3所述的方法,其特征在于,所述预设场景识别模型的构建过程包括:
5.根据权利要求3所述的方法,其特征在于,利用预设时域分布模型对所述语音时频图、噪声时频图、骨传导时频图进行处理,得到所述语音时频图、噪声时频图、骨传导时频图的平均幅度拼接结果,包括:
6.根据权利要求3所述的方法,其特征在于,利用预设频域分布模型对所述语音时频图、噪声时频图、骨传导时频图进行处理,得到所述语音时频图、噪声时频图、骨传导时频图的频域拼接结果,包括:
7.根据权利要求3所述的方法,其特征在于,利用预设能量分布模...
【专利技术属性】
技术研发人员:史元春,张晓川,陶品,王晓懿,兴军亮,
申请(专利权)人:启元实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。