多模态语音端点检测方法及装置、车载终端、存储介质制造方法及图纸

技术编号：29675601 阅读：34 留言：0更新日期：2021-08-13 21:57

本发明专利技术提供一种多模态语音端点检测方法及装置、终端设备、存储介质，该方法包括：获取同一时间段内的视频流及语音信息；基于所述语音信息提取音频特征；基于所述视频流，进行唇动检测，提取视觉特征；将所述语音特征与所述视觉特征进行时序对齐；对时序对齐后的所述音频特征与所述视觉特征进行融合处理，得到语音端点检测结果。该方法利用获取的视觉特征与语音特征进行时序对齐，再将对齐后的音频特征与视觉特征进行融合处理，得到语音端点检测的结果，该方法实现在车载噪音场景下用户与车机对话的精准断句，减少音频误召回引起的全双工自然对话体验差的情况出现。

全部详细技术资料下载

【技术实现步骤摘要】
多模态语音端点检测方法及装置、车载终端、存储介质
本申请涉及语音检测
，尤其涉及一种多模态语音端点检测方法及装置、车载终端、计算机可读存储介质。
技术介绍
VAD(VoiceActivityDetection,语音活动检测)又称语音端点检测,语音边界检测，目的是检测语音信号是否存在，作为车载语音识别技术的前序流程，在人车交互流程中尤为重要。目前主流的VAD技术都是基于音频信号进行分析，通常利用能量、频谱、谐波等特征，使用高斯混合模型、深度神经网络等模型来实现。在全双工语音交互流程中，用户一次唤醒90秒内任意对话。然而，在车载场景中，通常伴随着乘客闲聊、车外风声和车内有声设备播放等噪声场景，这些噪声对基于声学的VAD技术带来了极大的挑战，噪声音频被VAD误召回后，容易在云端NLU产生错误理解，从而降低了自然对话中的用户体验。
技术实现思路
有鉴于此，本申请的目的在于提供一种多模态语音端点检测方法、装置、终端设备、及计算机可读存储介质，该检测方法能够避免噪声音频的污染，提高用户体验。为解决上述技术问题，本申请采用以下技术方案：一方面，根据本专利技术实施例提供一种多模态语音端点检测方法，包括：获取同一时间段内的视频流及语音信息；基于所述语音信息提取音频特征；基于所述视频流，进行唇动检测，提取视觉特征；将所述语音特征与所述视觉特征进行时序对齐；对时序对齐后的所述音频特征与所述视觉特征进行融合处理，得到语音端点检测结果。优...

【技术保护点】
1.一种多模态语音端点检测方法，其特征在于，包括：/n获取同一时间段内的视频流及语音信息；/n基于所述语音信息提取音频特征；/n基于所述视频流，进行唇动检测，提取视觉特征；/n将所述语音特征与所述视觉特征进行时序对齐；/n对时序对齐后的所述音频特征与所述视觉特征进行融合处理，得到语音端点检测结果。/n

【技术特征摘要】
1.一种多模态语音端点检测方法，其特征在于，包括：
获取同一时间段内的视频流及语音信息；
基于所述语音信息提取音频特征；
基于所述视频流，进行唇动检测，提取视觉特征；
将所述语音特征与所述视觉特征进行时序对齐；
对时序对齐后的所述音频特征与所述视觉特征进行融合处理，得到语音端点检测结果。

2.根据权利要求1所述的方法，其特征在于，获取同一时间段内的视频流及语音信息包括：在由视频采集装置采集并提供的视频流与语音采集装置采集并提供的语音信息进行进程通信，以获取同一时间段内的所述视频流与语音信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述视频流，进行唇动检测，提取视觉特征，包括：
将所述视频流以帧为单位分割为多帧图像；
确定时间窗口，获取该时间窗口内的视觉特征，其中，所述时间窗口内包括多帧图像；
通过滑窗处理确定所述视频流对应的视觉特征。

4.根据权利要求3所述的方法，其特征在于，获取该时间窗口内的视觉特征包括：
对于时间窗口内的每帧所述图像，确定唇部区域；
基于每帧图像的唇部区域，提取唇部特征；
基于该时间窗口内的所有帧图像的所述唇部特征进行融合，得到该时间窗口内的所述视觉特征。

5.根据权利要求4所述的方法，其特征在于，对于时间窗口内的每帧所述图像，确定唇部区域包括：
对于每帧所述图像，利用人脸检测算法确定人脸位置；
基于所述人脸位置，利用人脸特征点定位算法获得人脸特征点位置；
基于所述人脸特征点位置，在所述图像中确定所述唇部区域。

6.根据权利要求4所述的方法，其特征在于，在对于每帧所述图像的唇部区域提取唇部特征后，将所提取的唇部特征与此前一帧图像的唇部特征进行帧间时序融合处理，得到作为该帧图像的唇部特征的融合唇部特征，基于该时间窗口内的所有帧图像的融合唇部特征进行融合，得到该时间窗口内的所述视觉特征。

7.根据权利要求6所述的方法，其特征在于，所述帧间时序融合包括：
从上一帧图像得到的唇部特征抽取预定比例，得到第一特征图；
从当前帧图像提取的唇部特征抽取残余比例，得到第二特...

【专利技术属性】
技术研发人员：管岱，
申请(专利权)人：斑马网络技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人