【技术实现步骤摘要】
本专利技术涉及的是一种计算机辅助控制领域的技术,具体是一种基于长短时记忆网络(LSTM)和连接时序分类模型(CTC)的可定制语音唤醒方法及系统。
技术介绍
近年来,随着信息技术的发展,包括语音在内多媒体信息技术越来越成为研究的关注热点。语言唤醒技术是语音识别中的一个重要领域,并被广泛应用于语音命令控制系统中。一个可定制的语音唤醒(Voice Wake‐up)系统的任务是从一段连续的语音中自动发现并定位一些事先指定的命令词(唤醒词)。可定制的特性体现在唤醒词检测模型不依赖于用户指定的唤醒词,从而实现无需修改模型即可方便更改用户唤醒词。相反,非可定制的唤醒技术与指定的唤醒词有关,唤醒词固定,无法轻易变更唤醒词。语音唤醒与连续语音识别关系密切,但语音唤醒技术并不要求将完整的语音句子全部识别出来,而是仅关心用户指定的关键信息。因此,唤醒技术降低了对识别系统的要求。与传统的文本态文档比较,语音数据作为一种对声音的编码形式,使得语音信息成为一种对于计算机来说更加难以直接检索和提取有效信息的数据形态。此外由于多种潜在的因素(如背景噪声、说话人口音等),也使得开发出一套有效的语音唤醒系统变得更加复杂和困难。主要的语音唤醒技术包括早期的动态时间规整法,如今的基于隐马尔科夫模型的方法,以及基于深度学习的方法。
技术实现思路
本专利技术针对现有技术中唤醒词无法定制且依赖预设语言模型的不足,提出一种可定制语音唤醒方法及系统,利用CTC模型输出后验概率稀疏的特点进行高效搜索,从而完成对唤醒词置信度计算的技术。本专利技术一方面可以得到较高的唤醒性能(准确率、召回率),高准确率,低误唤醒 ...
【技术保护点】
一种可定制语音唤醒方法,其特征在于,包括以下步骤:步骤1)使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模;步骤2)对模型进行训练:将事先收集并标注好的音频数据首先要经过传统的信号处理方法做预处理并提取可供模型训练的声学特征,模型将特征数据作为输入,将标注的音素信息作为输出,在海量数据下通过深度学习的方法完成模型各参数量的训练,得到可使用的长短时记忆网络和连接时序分类模型;步骤3)采用训练后模型进行测试:对测试语音做同样的预处理和特征提取,并输入模型,模型将输出每一帧所有建模单元,即音素可能出现的后验概率;步骤4)唤醒词搜索:通过在生成的Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据。
【技术特征摘要】
1.一种可定制语音唤醒方法,其特征在于,包括以下步骤:步骤1)使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模;步骤2)对模型进行训练:将事先收集并标注好的音频数据首先要经过传统的信号处理方法做预处理并提取可供模型训练的声学特征,模型将特征数据作为输入,将标注的音素信息作为输出,在海量数据下通过深度学习的方法完成模型各参数量的训练,得到可使用的长短时记忆网络和连接时序分类模型;步骤3)采用训练后模型进行测试:对测试语音做同样的预处理...
【专利技术属性】
技术研发人员:俞凯,钱彦旻,庄毅萌,陈哲怀,常烜恺,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。