本发明专利技术公开了一种音视频唤醒方法、系统、设备及存储介质,引入视频模态来改善和提高唤醒系统性能,能够适应真实复杂场景下的唤醒任务,提高唤醒率,提升交互体验;而且,也针对音视频多模态唤醒数据量相对较少的特点,提出使用基于跨模态的师生模型,迁移并利用丰富的大数据量单模态声学数据训练得到的有效信息,改善因多模态音视频唤醒训练数据量较少带来的系统性能损失,提高唤醒率。提高唤醒率。提高唤醒率。
【技术实现步骤摘要】
on Acoustics,Speech and Signal Processing(ICASSP).IEEE,Florence,Italy,May.4
‑
9,2014:4087
‑
4091.)中,通过对提取到的语音特征通过深度神经网络(Deep Neural Networks,DNN)进行训练,再使用后处理方法得到最终的置信度得分,并与预设阈值进行比较来判断是否为唤醒词。该方法的提出在基于深度学习的唤醒词识别领域具有很重要的意义,它的亮点在于采用帧结构的方式对语音进行训练,并利用后处理操作对平滑后的帧的后验概率进行判决。
[0011]目前,随着端到端和序列到序列训练的模型在语音识别中越来越流行,很多学者将其引入到唤醒词识别领域。文献(Zhang S,Liu W,Qin Y.Wake
‑
up
‑
word spotting using end
‑
to
‑
end deep neural network system[C].2016 23rd International Conference on Pattern Recognition(ICPR).IEEE,Cancun,Mexico,Dec.4
‑
6,2016:2878
‑
2883.)提出了一种基于端到端的LSTM轻量级唤醒词定位系统,该方法在定位的过程中引入了时序分类算法细化了唤醒词模型训练的步骤。针对语音唤醒在实用中遇到的问题,文献(Yu,M.,Ji,X.,Gao,Y.,Chen,L.,Chen,J.,Zheng,J.,Su,D.,Yu,D.(2018)Text
‑
Dependent Speech Enhancement for Small
‑
Footprint Robust Keyword Detection.Proc.Interspeech 2018,2613
‑
2617,2018.)和(E.Ceolini,J.Anumula,S.Braun and S.Liu,"Event
‑
driven Pipeline for Low
‑
latency Low
‑
compute Keyword Spotting and Speaker Verification System,"ICASSP 2019
‑
2019 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Brighton,UK,2019,pp.7953
‑
7957,2019.)分别结合语音增强和说话人验证任务针对语音唤醒的噪声鲁棒性和个性化唤醒系统开展了研究。这些基于端到端的唤醒词识别方法需要很大的语料库,训练时也需要很长的时间。
[0012]综合来说,现有的基于HMM
‑
GMM的语音唤醒和基于深度学习的语音唤醒方案,在真实复杂环境中语音唤醒系统性能会急剧下降,尤其在嘈杂的噪声和远场环境下唤醒率仍然较低。
技术实现思路
[0013]本专利技术的目的是提供一种音视频唤醒方法、系统、设备及存储介质,综合了音频单模态的外部丰富声学数据优势和视频模态在高噪声等复杂环境中的辅助优势,有助于改善和提升复杂场景下的唤醒性能。
[0014]本专利技术的目的是通过以下技术方案实现的:
[0015]一种基于师生跨模态学习的音视频唤醒方法,包括:
[0016]构造音频数据集、以及包含音频数据与视频数据的音视频多模态唤醒数据集;
[0017]利用音频数据集以及音视频多模态唤醒数据集中的音频数据训练一个神经网络模型,将其作为教师语音唤醒模型;
[0018]构建输入包含音频特征与视频特征的神经网络模型,将其作为学生音视频唤醒模型;
[0019]将从音视频多模态唤醒数据集中提取的音频特征与视频特征拼接后输入至学生音视频唤醒模型,并将相应的音频特征同步输入至教师语音唤醒模型,将学生音视频唤醒模型与教师语音唤醒模型的输出结果之间的损失、以及利用学生音视频唤醒模型输出结果
计算出的损失作为联合训练阶段的总损失,固定教师语音唤醒模型的网络参数,优化所述学生音视频唤醒模型的网络参数;
[0020]使用优化后的学生音视频唤醒模型进行解码测试,输出是否唤醒的判别结果。
[0021]一种基于师生跨模态学习的音视频唤醒系统,用于实现前述的方法,该系统包括:
[0022]数据集构造模块,用于构造音频数据集、以及包含音频数据与视频数据的音视频多模态唤醒数据集;
[0023]教师语音唤醒模型训练模块,用于利用音频数据集以及音视频多模态唤醒数据集中的音频数据训练一个神经网络模型,将其作为教师语音唤醒模型;
[0024]学生音视频唤醒模块,用于构建输入包含音频特征与视频特征的神经网络模型,将其作为学生音视频唤醒模型;
[0025]联合训练模块,用于将从音视频多模态唤醒数据集中提取的音频特征与视频特征拼接后输入至学生音视频唤醒模型,并将相应的音频特征同步输入至教师语音唤醒模型,将学生音视频唤醒模型与教师语音唤醒模型的输出结果之间的损失、以及利用学生音视频唤醒模型输出结果计算出的损失作为联合训练阶段的总损失,固定教师语音唤醒模型的网络参数,优化所述学生音视频唤醒模型的网络参数;
[0026]解码测试模块,用于使用优化后的学生音视频唤醒模型进行解码测试,输出是否唤醒的判别结果。
[0027]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
[0028]其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0029]一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
[0030]由上述本专利技术提供的技术方案可以看出,引入视频模态来改善和提高唤醒系统性能,能够适应真实复杂场景下的唤醒任务,提高唤醒率,提升交互体验;而且,也针对音视频多模态唤醒数据量相对较少的特点,提出使用基于跨模态的师生模型,迁移并利用丰富的大数据量单模态声学数据训练得到的有效信息,改善因多模态音视频唤醒训练数据量较少带来的系统性能损失,提高唤醒率。
附图说明
[0031]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0032]图1为本专利技术实施例提供的一种基于师生跨模态学习的音视频唤醒方法的流程图;
[0033]图2为本专利技术实施例提供的KWS
‑
Net结构示意图;
[0034]图本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于师生跨模态学习的音视频唤醒方法,其特征在于,包括:构造音频数据集、以及包含音频数据与视频数据的音视频多模态唤醒数据集;利用音频数据集以及音视频多模态唤醒数据集中的音频数据训练一个神经网络模型,将其作为教师语音唤醒模型;构建输入包含音频特征与视频特征的神经网络模型,将其作为学生音视频唤醒模型;将从音视频多模态唤醒数据集中提取的音频特征与视频特征拼接后输入至学生音视频唤醒模型,并将相应的音频特征同步输入至教师语音唤醒模型,将学生音视频唤醒模型与教师语音唤醒模型的输出结果之间的损失、以及利用学生音视频唤醒模型输出结果计算出的损失作为联合训练阶段的总损失,固定教师语音唤醒模型的网络参数,优化所述学生音视频唤醒模型的网络参数;使用优化后的学生音视频唤醒模型进行解码测试,输出是否唤醒的判别结果。2.根据权利要求1所述的一种基于师生跨模态学习的音视频唤醒方法,其特征在于,所述利用音频数据集以及音视频多模态唤醒数据集中的音频数据训练一个神经网络模型的步骤包括:将音频数据集中的音频数据的音频特征输入至神经网络模型进行模型训练,训练完毕后,再将音视频多模态唤醒数据集中的音频数据的音频特征输入至神经网络模型进行模型训练;训练过程中,神经网络模型的输出经过池化层输出一个后验概率,将此后验概率与预设的阈值进行比较,判断是否唤醒;并使用交叉熵作为损失函数计算梯度和更新网络参数。3.根据权利要求2所述的一种基于师生跨模态学习的音视频唤醒方法,其特征在于,训练时音频数据采用流式输入方式,即设定固定长度的窗口,提取窗口内的音频特征作为神经网络模型的输入,输出窗口内音频特征对应的是否唤醒的判决结果。4.根据权利要求1所述的一种基于师生跨模态学习的音视频唤醒方法,其特征在于,所述将从音视频多模态唤醒数据集中提取的音频特征与视频特征拼接后输入至学生音视频唤醒模型包括:对于视频数据的每一帧进行唇部特征提取,作为视频特征;对于音频数据进行音频特征提取;对视频特征与音频特征进行时间同步与拼接,再经全连接层降维后输入至学生音视频唤醒模型。5.根据权利要求4所述的一种基于师生跨模态学习的音视频唤醒方法,其特征在于,对视频特征与音频特征进行时间同步的方式为:对...
【专利技术属性】
技术研发人员:周恒顺,杜俊,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。