音视频唤醒方法、系统、设备及存储介质技术方案

技术编号：30047988 阅读：20 留言：0更新日期：2021-09-15 10:49

本发明专利技术公开了一种音视频唤醒方法、系统、设备及存储介质，引入视频模态来改善和提高唤醒系统性能，能够适应真实复杂场景下的唤醒任务，提高唤醒率，提升交互体验；而且，也针对音视频多模态唤醒数据量相对较少的特点，提出使用基于跨模态的师生模型，迁移并利用丰富的大数据量单模态声学数据训练得到的有效信息，改善因多模态音视频唤醒训练数据量较少带来的系统性能损失，提高唤醒率。提高唤醒率。提高唤醒率。

全部详细技术资料下载

【技术实现步骤摘要】
on Acoustics,Speech and Signal Processing(ICASSP).IEEE,Florence,Italy,May.4
‑
9,2014:4087
‑
4091.)中，通过对提取到的语音特征通过深度神经网络(Deep Neural Networks，DNN)进行训练，再使用后处理方法得到最终的置信度得分，并与预设阈值进行比较来判断是否为唤醒词。该方法的提出在基于深度学习的唤醒词识别领域具有很重要的意义，它的亮点在于采用帧结构的方式对语音进行训练，并利用后处理操作对平滑后的帧的后验概率进行判决。
[0011]目前，随着端到端和序列到序列训练的模型在语音识别中越来越流行，很多学者将其引入到唤醒词识别领域。文献(Zhang S,Liu W,Qin Y.Wake
‑
up
‑
word spotting using end
‑
to
‑
end deep neural network system[C].2016 23rd International Conference on Pattern Recognition(ICPR).IEEE,Cancun,Mexico,Dec.4
‑
6,2016:2878
‑
2883.)提出了一种基于端到端的LSTM轻量级唤醒词定位系统，该方法在定位的过程中引入了时序分类算法细化了唤醒词模型训练的步骤。针对语音唤醒在实用中遇到的问题，文献(Yu,M.,Ji,X.,G...

【技术保护点】

【技术特征摘要】
1.一种基于师生跨模态学习的音视频唤醒方法，其特征在于，包括：构造音频数据集、以及包含音频数据与视频数据的音视频多模态唤醒数据集；利用音频数据集以及音视频多模态唤醒数据集中的音频数据训练一个神经网络模型，将其作为教师语音唤醒模型；构建输入包含音频特征与视频特征的神经网络模型，将其作为学生音视频唤醒模型；将从音视频多模态唤醒数据集中提取的音频特征与视频特征拼接后输入至学生音视频唤醒模型，并将相应的音频特征同步输入至教师语音唤醒模型，将学生音视频唤醒模型与教师语音唤醒模型的输出结果之间的损失、以及利用学生音视频唤醒模型输出结果计算出的损失作为联合训练阶段的总损失，固定教师语音唤醒模型的网络参数，优化所述学生音视频唤醒模型的网络参数；使用优化后的学生音视频唤醒模型进行解码测试，输出是否唤醒的判别结果。2.根据权利要求1所述的一种基于师生跨模态学习的音视频唤醒方法，其特征在于，所述利用音频数据集以及音视频多模态唤醒数据集中的音频数据训练一个神经网络模型的步骤包括：将音频数据集中的音频数据的音频特征输入至神经网络模型进行模型训练，训练完毕后，再将音视频多模态唤醒数据集中的音频数据的音频特征输入至神经网络模型进行模型训练；训练过程中，神经网络模型的输出经过池化层输出一个后验概率，将此后验概率与预设的阈值进行比较，判断是否唤醒；并使用交叉熵作为损失函数计算梯度和更新网络参数。3.根据权利要求2所述的一种基于师生跨模态学习的音视频唤醒方法，其特征在于，训练时音频数据采用流式输入方式，即设定固定长度的窗口，提取窗口内的音频特征作为神经网络模型的输入，输出窗口内音频特征对应的是否唤醒的判决结果。4.根据权利要求1所述的一种基于师生跨模态学习的音视频唤醒方法，其特征在于，所述将从音视频多模态唤醒数据集中提取的音频特征与视频特征拼接后输入至学生音视频唤醒模型包括：对于视频数据的每一帧进行唇部特征提取，作为视频特征；对于音频数据进行音频特征提取；对视频特征与音频特征进行时间同步与拼接，再经全连接层降维后输入至学生音视频唤醒模型。5.根据权利要求4所述的一种基于师生跨模态学习的音视频唤醒方法，其特征在于，对视频特征与音频特征进行时间同步的方式为：对...

【专利技术属性】
技术研发人员：周恒顺，杜俊，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人