语音交互方法、装置及设备制造方法及图纸

技术编号:33326016 阅读:12 留言:0更新日期:2022-05-08 09:04
公开了一种语音交互方法、装置及设备。对采集的音频数据进行语音活动检测;判断检测到的语音数据的时长是否大于第一阈值;若语音数据的时长小于或等于第一阈值,则不将语音数据交由语音识别系统进行语音识别。若基于语音活动检测得到的语音数据的时长小于第一阈值,则可以认为该语音数据为设备输出语音的回声数据(如残余回声),因此通过不将语音数据交由语音识别系统进行语音识别,可以避免因对设备输出语音的回声进行语音识别而对正常的语音交互产生干扰,提升语音交互服务质量。提升语音交互服务质量。提升语音交互服务质量。

【技术实现步骤摘要】
语音交互方法、装置及设备


[0001]本公开涉及语音交互领域,特别是一种语音交互方法、装置及设备。

技术介绍

[0002]随着智能化硬件越来越普及,语音交互技术在生活中应用也越来越广泛,如智能电视、空调、音箱、车载语音交互设备、语音购票机等。
[0003]语音交互属于人机交互的范畴,是人机交互发展到目前的一种较为前沿的交互方式。语音交互就是用户通过自然语言给机器下指令,以达成自己的目的的过程。
[0004]在语音交互过程中,机器通常会通过语音播报的形式与用户进行交互,以提升交互体验。机器播报的语音的回声会对正常的语音识别产生干扰,因此需要规避对机器播报的语音的识别。
[0005]以语音唤醒场景为例,响应于用户的语音唤醒指令,设备通常会发出提示语音,以提醒用户设备已唤醒。如果不对提示语音进行回声消除处理,设备发出的提示语音会被设备接收并输入到语音识别系统进行语音识别,而对提示语音进行识别是无意义的,且会对正常的语音交互产生干扰。而在使用回声消除算法对提示语音进行回声消除处理时,由于提示语音属于突发的短语音,导致无法完全消除干净,会有部分残余,残余进入语音识别系统也会对语音交互产生干扰,如会导致语音识别结果变差。
[0006]因此,如何降低设备输出的语音的回声对语音交互的影响,对提升语音交互服务质量尤为关键。

技术实现思路

[0007]本公开要解决的一个技术问题是提供一种能够降低提示语音的回声对语音交互的影响的语音交互方案。
[0008]根据本公开的第一个方面,提供了一种语音交互设备,包括:拾音模块,用于采集音频数据;语音活动检测模块,用于对拾音模块采集的音频数据进行语音活动检测;判断模块,用于判断语音活动检测模块检测到的语音数据的时长是否大于第一阈值;数据处理模块,用于若时长小于或等于第一阈值,则不将语音数据交由语音识别系统进行语音识别。
[0009]根据本公开的第二个方面,提供了一种语音交互设备,包括:拾音模块、处理器以及输出模块,拾音模块采集音频数据,处理器对拾音模块采集到的音频数据进行语音唤醒检测,响应于检测到唤醒词,输出模块输出提示语音,处理器还对拾音模块在语音唤醒后采集的音频数据进行语音活动检测,并在检测到语音数据的情况下,判断语音数据是否提示语音,根据语音数据是否提示语音的判定结果确定是否将语音数据交由语音识别系统进行语音识别。
[0010]根据本公开的第三个方面,提供了一种智能设备,包括:拾音模块,用于采集音频数据;处理器,用于对拾音模块采集的音频数据进行语音活动检测,判断检测到的语音数据的时长是否大于第一阈值,若时长小于或等于第一阈值,则不将语音数据交由语音识别系
统进行语音识别。
[0011]根据本公开的第四个方面,提供了一种车载设备,包括:拾音模块,用于采集音频数据;处理器,用于对拾音模块采集的音频数据进行语音活动检测,判断检测到的语音数据的时长是否大于第一阈值,若时长小于或等于第一阈值,则不将语音数据交由语音识别系统进行语音识别。
[0012]根据本公开的第五个方面,提供了一种语音芯片,包括:处理模块,用于对采集的音频数据进行语音活动检测,判断检测到的语音数据的时长是否大于第一阈值,若时长小于或等于第一阈值,则不将语音数据交由语音识别系统进行语音识别。
[0013]根据本公开的第六个方面,提供了一种语音交互方法,包括:对采集的音频数据进行语音活动检测;判断检测到的语音数据的时长是否大于第一阈值;若语音数据的时长小于或等于第一阈值,则不将语音数据交由语音识别系统进行语音识别。
[0014]根据本公开的第七个方面,提供了一种语音交互方法,包括:获取语音数据;判断语音数据是否设备输出语音;根据语音数据是否设备输出语音的判定结果,确定是否将语音数据交由语音识别系统进行语音识别。
[0015]根据本公开的第八个方面,提供了一种语音交互装置,包括:语音活动检测模块,用于对采集的音频数据进行语音活动检测;判断模块,用于判断检测到的语音数据的时长是否大于第一阈值;处理模块,用于若语音数据的时长小于或等于第一阈值,则不将语音数据交由语音识别系统进行语音识别。
[0016]根据本公开的第九个方面,提供了一种语音交互装置,包括:获取模块,用于获取语音数据;判断模块,用于判断语音数据是否设备输出语音;处理模块,用于根据语音数据是否设备输出语音的判定结果,确定是否将语音数据交由语音识别系统进行语音识别。
[0017]根据本公开的第十个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第六方面或第七方面所述的方法。
[0018]根据本公开的第十一个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第六方面或第七方面所述的方法。
[0019]由此,本公开将对采集到的音频数据进行语音活动检测得到的语音数据的时长与第一阈值进行比较,若该时长小于第一阈值,则认为对应的语音数据为设备输出语音的回声数据(如残余回声),不将该语音数据交由语音识别系统进行语音识别,如此可以避免因对设备输出语音的回声进行语音识别而对正常的语音交互产生干扰,提升语音交互服务质量。
附图说明
[0020]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0021]图1示出了根据本公开一个实施例的语音交互方法的示意性流程图。
[0022]图2、图3示出了本公开在语音唤醒场景下的示意图。
[0023]图4示出了根据本公开一个实施例的语音交互设备的结构示意图。
[0024]图5示出了根据本公开另一个实施例的语音交互设备的结构示意图。
[0025]图6示出了根据本公开一个实施例的智能设备的结构示意图。
[0026]图7示出了根据本公开一个实施例的车载设备的结构示意图。
[0027]图8示出了根据本公开一个实施例的语音交互装置的结构示意图。
[0028]图9示出了根据本公开另一个实施例的语音交互装置的结构示意图。
[0029]图10示出了根据本公开一个实施例的计算设备的结构示意图。
具体实施方式
[0030]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0031]为了降低设备输出语音(如语音唤醒后设备输出的提示语音、设备响应于特定触发条件输出的语音、设备与用户进行对话过程中输出的语音等等)的回声对语音交互的影响,本公开提出,可以判断获取的语音数据是否设备输出语音(如语音唤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音交互设备,包括:拾音模块,用于采集音频数据;语音活动检测模块,用于对所述拾音模块采集的音频数据进行语音活动检测;判断模块,用于判断所述语音活动检测模块检测到的语音数据的时长是否大于第一阈值;数据处理模块,用于若所述时长小于或等于所述第一阈值,则不将所述语音数据交由语音识别系统进行语音识别。2.根据权利要求1所述的语音交互设备,还包括:语音唤醒检测模块,用于对所述拾音模块采集到的音频数据进行语音唤醒检测;第一输出模块,用于响应于所述语音唤醒检测模块检测到唤醒词,输出提示语音,其中,所述语音活动检测模块具体用于对所述拾音模块在语音唤醒后采集的音频数据进行语音活动检测。3.根据权利要求2所述的语音交互设备,还包括:回声消除模块,用于对所述拾音模块在语音唤醒后采集的音频数据进行回声消除以过滤所述音频数据中的提示语音,其中,所述语音活动检测模块具体用于对所述回声消除模块过滤后的音频数据进行语音活动检测。4.根据权利要求2所述的语音交互设备,其中,所述第一输出模块,具体用于响应于所述语音唤醒检测模块检测到唤醒词,且所述语音活动检测模块对所述拾音模块在语音唤醒后采集的音频数据进行语音活动检测未检测到语音数据的时长超过第三阈值,输出所述提示语音,所述数据处理模块,还用于将所述语音活动检测模块在语音唤醒之后且所述第一输出模块输出所述提示语音之前检测到的语音数据交由语音识别系统进行语音识别。5.根据权利要求1所述的语音交互设备,还包括:第二输出模块,用于当满足语音输出条件时输出语音,所述语音活动检测模块,具体用对所述拾音模块在所述第二输出模块开始输出语音的时刻之后采集的音频数据进行语音活动检测。6.根据权利要求1所述的语音交互设备,还包括:第三输出模块,用于输出针对语音输入的回复的语音,所述语音活动检测模块,具体用于对所述拾音模块在所述第三输出模块开始输出语音的时刻之后采集的音频数据进行语音活动检测。7.根据权利要求2至6中任一项所述的语音交互设备,其中,所述第一阈值是基于如下参数设置的:语音交互设备输出的语音的时长;和/或对语音交互设备输出的语音进行回声消除处理的质量指标。8.根据权利要求1所述的语音交互设备,其中,所述数据处理模块,还用于若所述时长大于第一阈值,则将所述语音数据交由语音识别系统进行语音识别。9.一种语音交互设备,包括:拾音模块、处理器以及输出模块,所述拾音模块采集音频数据,
所述处理器对所述拾音模块采集到的音频数据进行语音唤醒检测,响应于检测到唤醒词,所述输出模块输出提示语音,所述处理器还对所述拾音模块在语音唤醒后采集的音频数据进行语音活动检测,并在检测到语音数据的情况下,判断所述语音数据是否提示语音,根据所述语音数据是否提示语音的判定结果确定是否将所述语音数据交由语音识别系统进行语音识别。10.一种智能设备,包括:拾音模块,用于采集音频数据;处理器,用于对所述拾音模块采集的音频数据进行语音活动检测,判断检测到的语音数据的时长是否大于第一阈值,若所述时长小于或等于所述第一阈值,则不将所述语音数据交由语音识别系统进行语音识别。11.一种车载设备,包括:拾音模块,用于采集音频数据;处理器,用于对所述拾音模块采集的音频数据进行语音活动检测,判断检测到的语音数据的时长是否大于第一阈值,若所述时长小于或等于所述第一阈值,则不将所述语音数据交由语音识别系统进行语音识别。12.一种语音芯片,包括:处理模块,用于对采集的音频数据进行语音活动检测,判断检测到的语音数据的时长是否大于第一阈值,若所述时长小于或等于所述第一阈值,则不将所述语音数据交...

【专利技术属性】
技术研发人员:马骁田彪杨智慧纳跃跃余磊袁斌左玲云付强
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1