多模态语音端点检测方法及装置、车载终端、存储介质制造方法及图纸

技术编号:29675601 阅读:34 留言:0更新日期:2021-08-13 21:57
本发明专利技术提供一种多模态语音端点检测方法及装置、终端设备、存储介质,该方法包括:获取同一时间段内的视频流及语音信息;基于所述语音信息提取音频特征;基于所述视频流,进行唇动检测,提取视觉特征;将所述语音特征与所述视觉特征进行时序对齐;对时序对齐后的所述音频特征与所述视觉特征进行融合处理,得到语音端点检测结果。该方法利用获取的视觉特征与语音特征进行时序对齐,再将对齐后的音频特征与视觉特征进行融合处理,得到语音端点检测的结果,该方法实现在车载噪音场景下用户与车机对话的精准断句,减少音频误召回引起的全双工自然对话体验差的情况出现。

【技术实现步骤摘要】
多模态语音端点检测方法及装置、车载终端、存储介质
本申请涉及语音检测
,尤其涉及一种多模态语音端点检测方法及装置、车载终端、计算机可读存储介质。
技术介绍
VAD(VoiceActivityDetection,语音活动检测)又称语音端点检测,语音边界检测,目的是检测语音信号是否存在,作为车载语音识别技术的前序流程,在人车交互流程中尤为重要。目前主流的VAD技术都是基于音频信号进行分析,通常利用能量、频谱、谐波等特征,使用高斯混合模型、深度神经网络等模型来实现。在全双工语音交互流程中,用户一次唤醒90秒内任意对话。然而,在车载场景中,通常伴随着乘客闲聊、车外风声和车内有声设备播放等噪声场景,这些噪声对基于声学的VAD技术带来了极大的挑战,噪声音频被VAD误召回后,容易在云端NLU产生错误理解,从而降低了自然对话中的用户体验。
技术实现思路
有鉴于此,本申请的目的在于提供一种多模态语音端点检测方法、装置、终端设备、及计算机可读存储介质,该检测方法能够避免噪声音频的污染,提高用户体验。为解决上述技术问题,本申请采用以下技术方案:一方面,根据本专利技术实施例提供一种多模态语音端点检测方法,包括:获取同一时间段内的视频流及语音信息;基于所述语音信息提取音频特征;基于所述视频流,进行唇动检测,提取视觉特征;将所述语音特征与所述视觉特征进行时序对齐;对时序对齐后的所述音频特征与所述视觉特征进行融合处理,得到语音端点检测结果。优选地,获取同一时间段内的视频流及语音信息,包括:在由视频采集装置采集并提供的视频流与语音采集装置采集并提供的语音信息进行进程通信,以获取同一时间段内的所述视频流与语音信息。优选地,所述基于所述视频流,进行唇动检测,提取视觉特征,包括:将所述视频流以帧为单位分割为多帧图像;确定时间窗口,获取该时间窗口内的视觉特征,其中,所述时间窗口内包括多帧图像;通过滑窗处理确定所述视频流对应的视觉特征。优选地,获取该时间窗口内的视觉特征包括:对于时间窗口内的每帧所述图像,确定唇部区域;基于每帧图像的唇部区域,提取唇部特征;基于该时间窗口内的所有帧图像的所述唇部特征进行融合,得到该时间窗口内的所述视觉特征。优选地,对于时间窗口内的每帧所述图像,确定唇部区域包括:对于每帧所述图像,利用人脸检测算法确定人脸位置;基于所述人脸位置,利用人脸特征点定位算法获得人脸特征点位置;基于所述人脸特征点位置,在所述图像中确定所述唇部区域。优选地,在对于每帧所述图像的唇部区域提取唇部特征后,将所提取的唇部特征与此前一帧图像的唇部特征进行帧间时序融合处理,得到作为该帧图像的唇部特征的融合唇部特征,基于该时间窗口内的所有帧图像的融合唇部特征进行融合,得到该时间窗口内的所述视觉特征。优选地,所述帧间时序融合包括:从上一帧图像得到的唇部特征抽取预定比例,得到第一特征图;从当前帧图像提取的唇部特征抽取残余比例,得到第二特征图,其中所述残余比例与所述预定比例的总和合计为1;将所述第一特征图与所述第二特征图进行拼接,得到所述融合唇部特征。优选地,所述音频特征与所述视觉特征分别附带有时间戳,根据所述时间戳对所述音频特征与所述视觉特征进行所述时序对齐。优选地,对时序对齐后的所述音频特征与所述视觉特征进行融合处理,得到语音端点检测结果包括:将所述音频特征与所述视觉特征映射到同一特征空间中,得到融合的多模特征;对于融合后多模特征进行解码,得到所述语音端点检测结果。优选地,将所述音频特征与所述视觉特征映射到同一特征空间中,得到融合的多模特征包括:对所述视觉特征和音频特征进行二范数正则化及批量归一化处理,使用神经网路编码器将处理后的所述视觉特征和音频特征映射到同一特征空间中,得到融合后的多模特征。优选地,对于融合后多模特征进行解码,得到所述语音端点检测结果包括:使用神经网络解码器对所述多模特征进行解码,得到所述语音端点检测结果。第二方面,本专利技术实施例提供一种多模态语音端点检测装置,包括:获取模块,用于获取同一时间段内的视频流及语音信息;音频特征提取模块,用于基于所述语音信息提取音频特征;视频特征提取模块,用于基于所述视频流,进行唇动检测,提取视觉特征;同步模块,用于将所述语音特征与所述视觉特征进行时序对齐;特征融合模块,用于对时序对齐后的所述音频特征与所述视觉特征进行融合处理,得到语音端点检测结果。第三方面,本专利技术实施例还提供一种车载终端,包括:处理器;和存储器,在所述存储器中存储有计算机程序指令,其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行根据第一方面实施例的多模态语音端点检测方法。第四方面,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,所述计算机程序指令被处理器运行时,使得所述处理器执行根据第一方面实施例的多模态语音端点检测方法。本申请的上述技术方案至少具有如下有益效果之一:根据本申请实施例的多模态语音端点检测方法,利用获取的视觉特征与语音特征进行时序对齐,再将对齐后的音频特征与视觉特征进行融合处理,得到语音端点检测的结果,该方法不仅能够减少音频误召回引起的全双工自然对话体验差的情况出现,实现在车载噪音场景下用户与车机对话的精准断句,而且实现通过特征级融合,有效避免了结果后融合引入的精度降低的问题;另外,该方法在从视频流中提取视觉特征的过程中,通过输入唇部区域的图像序列,并利用帧间时序融合处理方法,可以直接输出这段时间段内驾驶员唇动的视觉特征以用于后续的多模态融合,不依赖唇部特征点定位方法,因此该方法链路短,适合车载低算力场景,提高语音端点的检测效率;此外,该方法对时间窗口内的数帧图像提取唇部特征,并将数帧的唇部特征进行融合,得到该时间窗口的视觉特征,并通过滑窗处理对整个视频流进行处理,得到整个视频流的视觉特征,该处理方法可以获得更加鲁棒和准确的视觉特征。附图说明图1为本申请实施例的多模态语音端点检测方法的整体流程示意图;图2为本申请实施例的多模态语音端点检测方法中基于视频流提取视觉特征的流程图;图3为获取时间窗口内的视觉特征的流程图;图4为本申请实施例的多模态语音端点检测方法中进行帧间时序融合的示意图;图5为本申请实施例的多模态语音端点检测方法中基于音频特征与视觉特征得到语音端点检测结果的流程示意图;图6为本申请实施例的多模态语音端点检测方法的逻辑示意图;图7为本申请实施例的多模态语音端点检测装置的模块图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,本文档来自技高网...

【技术保护点】
1.一种多模态语音端点检测方法,其特征在于,包括:/n获取同一时间段内的视频流及语音信息;/n基于所述语音信息提取音频特征;/n基于所述视频流,进行唇动检测,提取视觉特征;/n将所述语音特征与所述视觉特征进行时序对齐;/n对时序对齐后的所述音频特征与所述视觉特征进行融合处理,得到语音端点检测结果。/n

【技术特征摘要】
1.一种多模态语音端点检测方法,其特征在于,包括:
获取同一时间段内的视频流及语音信息;
基于所述语音信息提取音频特征;
基于所述视频流,进行唇动检测,提取视觉特征;
将所述语音特征与所述视觉特征进行时序对齐;
对时序对齐后的所述音频特征与所述视觉特征进行融合处理,得到语音端点检测结果。


2.根据权利要求1所述的方法,其特征在于,获取同一时间段内的视频流及语音信息包括:在由视频采集装置采集并提供的视频流与语音采集装置采集并提供的语音信息进行进程通信,以获取同一时间段内的所述视频流与语音信息。


3.根据权利要求2所述的方法,其特征在于,所述基于所述视频流,进行唇动检测,提取视觉特征,包括:
将所述视频流以帧为单位分割为多帧图像;
确定时间窗口,获取该时间窗口内的视觉特征,其中,所述时间窗口内包括多帧图像;
通过滑窗处理确定所述视频流对应的视觉特征。


4.根据权利要求3所述的方法,其特征在于,获取该时间窗口内的视觉特征包括:
对于时间窗口内的每帧所述图像,确定唇部区域;
基于每帧图像的唇部区域,提取唇部特征;
基于该时间窗口内的所有帧图像的所述唇部特征进行融合,得到该时间窗口内的所述视觉特征。


5.根据权利要求4所述的方法,其特征在于,对于时间窗口内的每帧所述图像,确定唇部区域包括:
对于每帧所述图像,利用人脸检测算法确定人脸位置;
基于所述人脸位置,利用人脸特征点定位算法获得人脸特征点位置;
基于所述人脸特征点位置,在所述图像中确定所述唇部区域。


6.根据权利要求4所述的方法,其特征在于,在对于每帧所述图像的唇部区域提取唇部特征后,将所提取的唇部特征与此前一帧图像的唇部特征进行帧间时序融合处理,得到作为该帧图像的唇部特征的融合唇部特征,基于该时间窗口内的所有帧图像的融合唇部特征进行融合,得到该时间窗口内的所述视觉特征。


7.根据权利要求6所述的方法,其特征在于,所述帧间时序融合包括:
从上一帧图像得到的唇部特征抽取预定比例,得到第一特征图;
从当前帧图像提取的唇部特征抽取残余比例,得到第二特...

【专利技术属性】
技术研发人员:管岱
申请(专利权)人:斑马网络技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1