语音交互方法、装置及设备制造方法及图纸

技术编号：33326016 阅读：12 留言：0更新日期：2022-05-08 09:04

公开了一种语音交互方法、装置及设备。对采集的音频数据进行语音活动检测；判断检测到的语音数据的时长是否大于第一阈值；若语音数据的时长小于或等于第一阈值，则不将语音数据交由语音识别系统进行语音识别。若基于语音活动检测得到的语音数据的时长小于第一阈值，则可以认为该语音数据为设备输出语音的回声数据(如残余回声)，因此通过不将语音数据交由语音识别系统进行语音识别，可以避免因对设备输出语音的回声进行语音识别而对正常的语音交互产生干扰，提升语音交互服务质量。提升语音交互服务质量。提升语音交互服务质量。

全部详细技术资料下载

【技术实现步骤摘要】
语音交互方法、装置及设备

[0001]本公开涉及语音交互领域，特别是一种语音交互方法、装置及设备。

技术介绍

[0002]随着智能化硬件越来越普及，语音交互技术在生活中应用也越来越广泛，如智能电视、空调、音箱、车载语音交互设备、语音购票机等。
[0003]语音交互属于人机交互的范畴，是人机交互发展到目前的一种较为前沿的交互方式。语音交互就是用户通过自然语言给机器下指令，以达成自己的目的的过程。
[0004]在语音交互过程中，机器通常会通过语音播报的形式与用户进行交互，以提升交互体验。机器播报的语音的回声会对正常的语音识别产生干扰，因此需要规避对机器播报的语音的识别。
[0005]以语音唤醒场景为例，响应于用户的语音唤醒指令，设备通常会发出提示语音，以提醒用户设备已唤醒。如果不对提示语音进行回声消除处理，设备发出的提示语音会被设备接收并输入到语音识别系统进行语音识别，而对提示语音进行识别是无意义的，且会对正常的语音交互产生干扰。而在使用回声消除算法对提示语音进行回声消除处理时，由于提示语音属于突发的短语音，导致无法完全消除干净，会有部分残余，残余进入语音识别系统也会对语音交互产生干扰，如会导致语音识别结果变差。
[0006]因此，如何降低设备输出的语音的回声对语音交互的影响，对提升语音交互服务质量尤为关键。

技术实现思路

[0007]本公开要解决的一个技术问题是提供一种能够降低提示语音的回声对语音交互的影响的语音交互方案。
[0008]根据本公开的第一个方面，提供...

【技术保护点】

【技术特征摘要】
1.一种语音交互设备，包括：拾音模块，用于采集音频数据；语音活动检测模块，用于对所述拾音模块采集的音频数据进行语音活动检测；判断模块，用于判断所述语音活动检测模块检测到的语音数据的时长是否大于第一阈值；数据处理模块，用于若所述时长小于或等于所述第一阈值，则不将所述语音数据交由语音识别系统进行语音识别。2.根据权利要求1所述的语音交互设备，还包括：语音唤醒检测模块，用于对所述拾音模块采集到的音频数据进行语音唤醒检测；第一输出模块，用于响应于所述语音唤醒检测模块检测到唤醒词，输出提示语音，其中，所述语音活动检测模块具体用于对所述拾音模块在语音唤醒后采集的音频数据进行语音活动检测。3.根据权利要求2所述的语音交互设备，还包括：回声消除模块，用于对所述拾音模块在语音唤醒后采集的音频数据进行回声消除以过滤所述音频数据中的提示语音，其中，所述语音活动检测模块具体用于对所述回声消除模块过滤后的音频数据进行语音活动检测。4.根据权利要求2所述的语音交互设备，其中，所述第一输出模块，具体用于响应于所述语音唤醒检测模块检测到唤醒词，且所述语音活动检测模块对所述拾音模块在语音唤醒后采集的音频数据进行语音活动检测未检测到语音数据的时长超过第三阈值，输出所述提示语音，所述数据处理模块，还用于将所述语音活动检测模块在语音唤醒之后且所述第一输出模块输出所述提示语音之前检测到的语音数据交由语音识别系统进行语音识别。5.根据权利要求1所述的语音交互设备，还包括：第二输出模块，用于当满足语音输出条件时输出语音，所述语音活动检测模块，具体用对所述拾音模块在所述第二输出模块开始输出语音的时刻之后采集的音频数据进行语音活动检测。6.根据权利要求1所述的语音交互设备，还包括：第三输出模块，用于输出针对语音输入的回复的语音，所述语音活动检测模块，具体用于对所述拾音模块在所述第三输出模块开始输出语音的时刻之后采集的音频数据进行语音活动检测。7.根据权利要求2至6中任一项所述的语音交互设备，其中，所述第一阈值是基于如下参数设置的：语音交互设备输出的语音的时长；和/或对语音交互设备输出的语音进行回声消除处理的质量指标。8.根据权利要求1所述的语音交互设备，其中，所述数据处理模块，还用于若所述时长大于第一阈值，则将所述语音数据交由语音识别系统进行语音识别。9.一种语音交互设备，包括：拾音模块、处理器以及输出模块，所述拾音模块采集音频数据，
所述处理器对所述拾音模块采集到的音频数据进行语音唤醒检测，响应于检测到唤醒词，所述输出模块输出提示语音，所述处理器还对所述拾音模块在语音唤醒后采集的音频数据进行语音活动检测，并在检测到语音数据的情况下，判断所述语音数据是否提示语音，根据所述语音数据是否提示语音的判定结果确定是否将所述语音数据交由语音识别系统进行语音识别。10.一种智能设备，包括：拾音模块，用于采集音频数据；处理器，用于对所述拾音模块采集的音频数据进行语音活动检测，判断检测到的语音数据的时长是否大于第一阈值，若所述时长小于或等于所述第一阈值，则不将所述语音数据交由语音识别系统进行语音识别。11.一种车载设备，包括：拾音模块，用于采集音频数据；处理器，用于对所述拾音模块采集的音频数据进行语音活动检测，判断检测到的语音数据的时长是否大于第一阈值，若所述时长小于或等于所述第一阈值，则不将所述语音数据交由语音识别系统进行语音识别。12.一种语音芯片，包括：处理模块，用于对采集的音频数据进行语音活动检测，判断检测到的语音数据的时长是否大于第一阈值，若所述时长小于或等于所述第一阈值，则不将所述语音数据交...

【专利技术属性】
技术研发人员：马骁，田彪，杨智慧，纳跃跃，余磊，袁斌，左玲云，付强，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人