直播机器人唤醒方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23988020 阅读:30 留言:0更新日期:2020-04-29 14:32
本公开关于一种直播机器人唤醒方法、装置、电子设备及存储介质,所述方法包括:获取通过麦克风采集的第一音频信号,所述第一音频信号中包括通过扬声器播放的第二音频信号扩散后产生的回声信号;根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值;以所述第二音频信号为参考信号,对所述第一音频信号进行回声消除处理,得到消除回声信号后的目标音频信号;根据所述识别阈值和所述目标音频信号对所述直播机器人进行唤醒。本公开根据第一音频信号和第二音频信号确定对直播机器人的识别阈值,并根据目标音频信号和识别阈值对直播机器人进行唤醒,对直播机器人不使用固定的识别阈值,可以提高直播机器人的唤醒准确率和识别率。

Wake up method, device, electronic equipment and storage medium of live robot

【技术实现步骤摘要】
直播机器人唤醒方法、装置、电子设备及存储介质
本公开涉及终端
,尤其涉及一种直播机器人唤醒方法、装置、电子设备及存储介质。
技术介绍
直播是可以同一时间透过网络系统在不同的交流平台观看影片,是一种新兴的网络社交方式,网络直播平台也成为了一种崭新的社交媒体。在直播进行中直播机器人可以提供语音助手功能以帮助主播方便的使用直播系统,例如播放音乐、讲故事、讲笑话和机器人聊天等功能,主播只需要通过麦克风说出唤醒词即可唤醒直播机器人,避免了直播过程中操作手机,提高直播效率和改善用户体验。然而,在直播进行中播放音乐或者用户连麦(通话)的过程中,经常会出现扬声器播放的声音经过多种路径传播后被麦克风拾取,并传回到系统形成回声现象。如果不对回声进行处理,将会影响通话质量和用户体验,严重时还会形成震荡,产生啸叫。为了避免回声带来的不利影响,通常采用AEC(AcousticEchoCancellation,回声消除)将扬声器播放出来的声音从麦克风采集的声音中消除,使得麦克风采集的声音只有用户说话的声音。目前语音助手大多出现在智能音箱产品中,由于大多数智能音箱产品使用定制的硬件方案,所以AEC的效果比较理想,回声残留较少,语音损伤也较少,但在手机上很难做这一点,这是因为与其他语音助手类产品相比,手机的种类比较多,声学结构千差万别,直播中又有播放音乐/与用户连麦(通话)核多人语音聊天等各种使用场景,因此麦克风采集的声音中包含有扬声器播放的声音存在的情况,由于扬声器播放的声音可能包括唤醒词,如果AEC的NLP(Non-linearProcess,非线性处理)处理量级较轻,麦克风播放的声音经过AEC处理会残留较多,如果播放的声音包含唤醒词,就会误唤醒直播机器人,如果NLP处理量级较重,又会导致语音损伤较多,无法识别唤醒词以唤醒直播机器人,导致存在唤醒准确率和识别率低的问题。
技术实现思路
本公开提供一种直播机器人唤醒方法、装置、电子设备及存储介质,以至少解决相关技术中直播机器人的唤醒准确率和识别率低的问题。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种直播机器人唤醒方法,所述方法包括:获取通过麦克风采集的第一音频信号,所述第一音频信号中包括通过扬声器播放的第二音频信号扩散后产生的回声信号;根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值;以所述第二音频信号为参考信号,对所述第一音频信号进行回声消除处理,得到消除回声信号后的目标音频信号;根据所述识别阈值和所述目标音频信号对所述直播机器人进行唤醒。可选地,所述根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值包括:计算所述第一音频信号和所述第二音频信号之间的相似度;根据所述相似度确定对所述直播机器人的识别阈值。可选地,所述根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值包括:根据所述第一音频信号计算第一音频能量,以及,根据所述第二音频信号计算第二音频能量;根据所述第一音频能量和所述第二音频能量确定对所述直播机器人的识别阈值。可选地,所述根据所述第一音频能量和所述第二音频能量确定对所述直播机器人的识别阈值包括:当所述第一音频能量没有落入预设能量区间,且所述第二音频信号能量落入预设能量区间时,确定识别阈值为预设识别阈值;当所述第一音频能量和所述第二音频信号能量均没有落入所述预设能量区间时,计算所述第一音频信号和所述第二音频信号之间的相似度,并根据所述相似度确定对所述直播机器人的识别阈值;当所述第一音频能量和所述第二音频信号能量均落入预设能量区间时,不对所述直播机器人进行唤醒。可选地,所述计算所述第一音频信号和所述第二音频信号之间的相似度包括:将所述第一音频信号和所述第二音频信号输入互相关函数进行卷积运算得到输出数据;对所输出数据进行归一化处理,得到所述第一音频信号和所述第二音频信号之间的相似度。可选地,所述根据所述相似度确定对所述直播机器人的识别阈值包括:当所述相似度落入第一预设相似度区间时,确定不对所述直播机器人进行唤醒;当所述相似度落入第二预设相似度区间时,确定对所述直播机器人的识别阈值为第二预设识别阈值;当所述相似度落入第三预设相似度区间时,确定对所述直播机器人的识别阈值为第三预设识别阈值;其中,所述第二预设识别阈值小于所述第三预设识别阈值。根据本公开实施例的第二方面,提供一种直播机器人唤醒装置,所述装置包括:音频信号获取模块,被配置为执行获取通过麦克风采集的第一音频信号,所述第一音频信号中包括通过扬声器播放的第二音频信号扩散后产生的回声信号;识别阈值确定模块,被配置为执行根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值;目标音频信号获得模块,被配置为执行以所述第二音频信号为参考信号,对所述第一音频信号进行回声消除处理,得到消除回声信号后的目标音频信号;直播机器人唤醒模块,被配置为执行根据所述识别阈值和所述目标音频信号对所述直播机器人进行唤醒。可选地,所述识别阈值确定模块,被配置为执行计算所述第一音频信号和所述第二音频信号之间的相似度;根据所述相似度确定对所述直播机器人的识别阈值。可选地,所述识别阈值确定模块,被配置为执行根据所述第一音频信号计算第一音频能量,以及,根据所述第二音频信号计算第二音频能量;根据所述第一音频能量和所述第二音频能量确定对所述直播机器人的识别阈值。可选地,所述识别阈值确定模块,被配置为执行当所述第一音频能量没有落入预设能量区间,且所述第二音频信号能量落入预设能量区间时,确定识别阈值为预设识别阈值;当所述第一音频能量和所述第二音频信号能量均没有落入所述预设能量区间时,计算所述第一音频信号和所述第二音频信号之间的相似度,并根据所述相似度确定对所述直播机器人的识别阈值;当所述第一音频能量和所述第二音频信号能量均落入预设能量区间时,不对所述直播机器人进行唤醒。可选地,所述识别阈值确定模块,被配置为执行将所述第一音频信号和所述第二音频信号输入互相关函数进行卷积运算得到输出数据;对所输出数据进行归一化处理,得到所述第一音频信号和所述第二音频信号之间的相似度。可选地,所述识别阈值确定模块,被配置为执行确定所述相似度所属的预设相似度区间;将所述预设相似度区间对应的预设识别阈值确定为所述直播机器人的识别阈值;其中,所述预设相似度区间包括第一预设相似度区间,第二预设相似度区间和第三预设相似度区间,所述第一预设相似度区间对应的预设识别阈值不唤醒所述直播机器人,所述第二预设相似度区间对应的预设识别阈值小于所述第三预设相似度区间对应的预设识别阈值。根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面的实施方式中的方法。据本公开实施本文档来自技高网
...

【技术保护点】
1.一种直播机器人唤醒方法,其特征在于,所述方法包括:/n获取通过麦克风采集的第一音频信号,所述第一音频信号中包括通过扬声器播放的第二音频信号扩散后产生的回声信号;/n根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值;/n以所述第二音频信号为参考信号,对所述第一音频信号进行回声消除处理,得到消除回声信号后的目标音频信号;/n根据所述识别阈值和所述目标音频信号对所述直播机器人进行唤醒。/n

【技术特征摘要】
1.一种直播机器人唤醒方法,其特征在于,所述方法包括:
获取通过麦克风采集的第一音频信号,所述第一音频信号中包括通过扬声器播放的第二音频信号扩散后产生的回声信号;
根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值;
以所述第二音频信号为参考信号,对所述第一音频信号进行回声消除处理,得到消除回声信号后的目标音频信号;
根据所述识别阈值和所述目标音频信号对所述直播机器人进行唤醒。


2.根据权利要求1所述直播机器人唤醒方法,其特征在于,所述根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值包括:
计算所述第一音频信号和所述第二音频信号之间的相似度;
根据所述相似度确定对所述直播机器人的识别阈值。


3.根据权利要求1所述直播机器人唤醒方法,其特征在于,所述根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值包括:
根据所述第一音频信号计算第一音频能量,以及,根据所述第二音频信号计算第二音频能量;
根据所述第一音频能量和所述第二音频能量确定对所述直播机器人的识别阈值。


4.根据权利要求3所述直播机器人唤醒方法,其特征在于,所述根据所述第一音频能量和所述第二音频能量确定对所述直播机器人的识别阈值包括:
当所述第一音频能量没有落入预设能量区间,且所述第二音频信号能量落入预设能量区间时,确定识别阈值为预设识别阈值;
当所述第一音频能量和所述第二音频信号能量均没有落入所述预设能量区间时,计算所述第一音频信号和所述第二音频信号之间的相似度,并根据所述相似度确定对所述直播机器人的识别阈值;
当所述第一音频能量和所述第二音频信号能量均落入预设能量区间时,不对所述直播机器人进行唤醒。


5.根据权利要求2或4所述直播机器人唤醒方法,其特征在于,所述计算所述第一音频信号和所述第二音频信号之间的相似度包括:
将所述第一音频信号和所述第二音频信号输入互相关函数...

【专利技术属性】
技术研发人员:陈翔宇张晨邢文浩
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1