一种搬运机器人的语音控制方法及系统技术方案

技术编号:37769798 阅读:11 留言:0更新日期:2023-06-06 13:33
本发明专利技术公开了一种搬运机器人的语音控制方法及系统,其中,所述方法包括:基于设置在搬运机器人上的麦克风设备进行控制语音采集处理,获得控制语音信息;对所述控制语音信息进行语音增强处理,获得增强控制语音信息;对所述增强控制语音信息进行语音识别处理,获得语音识别结果;基于所述语音识别结果生成所述搬运机器人的控制指令,并将所述控制指令发送至语音控制模块中;所述语音控制模块基于接收到的控制指令对所述搬运机器人进行控制处理。在本发明专利技术实施例中,解决了在设计移动机器人语音控制系统时过滤噪声能力弱的问题,特别是应对散漫噪声。散漫噪声。散漫噪声。

【技术实现步骤摘要】
一种搬运机器人的语音控制方法及系统


[0001]本专利技术涉及机器人语音控制
,尤其涉及一种搬运机器人的语音控制方法及系统。

技术介绍

[0002]移动机器人语音控制系统分为硬件部分和软件部分,其中移动机器人语音控制系统硬件部分分为主控端、麦克风阵列、扩展模块、激光雷达以及驱动模块。移动机器人语音控制系统软件部分分为四个部分:语音采集模块设计,语音识别模块设计、语音控制模块设计以及语音增强模块设计。语音控制系统采用前端的麦克风阵列完成对语音的采集;在语音识别方面,随着语音识别率和稳定性的提升,多种和智能语音相关的软件开发工具包(SDK)逐渐走向成熟,达到了产品化水平。个人开发者只需选择合适且稳定的语言识别SDK,无需重新训练语言模型;在语音控制程序设计方面,是先通过语音识别将识别的文本以信息的形式发布,后将重要动作参数进行设定。当接受到指令语音后,控制程序生成与之对应的命令词,根据命令词执行语音控制策略;
[0003]目前,面向移动机器人语音增强算法主要采用的方法包括:基于数字信号处理的方法和基于机器学习的方法。数字信号单通道增强的典型方法有维纳滤波、谱减法和基于统计模型的方法,多通道增强方法有固定波束形成和自适应波束形成两种。机器学习的方法有基于HMM模型、基于非负矩阵分解、基于浅层和深层神经网络等。为了满足移动机器人语音控制系统所需的稳定、可靠、低噪声需求,本专利技术采用建立在改进GSC算法上的语音增强技术。
[0004]GSC(Generalized Sidelobe Canceller)同时结合了数字信号处理的多通道增强技术和麦克风阵列技术,是一种灵活性高、鲁棒性好并且运算复杂度相对较低,实现了快速性、准确性和稳定性的统一,在不复杂的声学环境中部署和应用。本专利技术对GSC技术上做了一定的优化和改进,能够适应严苛的噪声环境,有效的降低了算法的计算量和硬件压力,提高了GSC算法的空间滤波性能,实现移动机器人语音增强技术。
[0005]专利技术专利申请2021100353802公布了公开一种智能机器人语音交互系统及交互方法。此语音交互系统主要包括语音唤醒、语音识别、语义理解和语言合成四个板块。各模块通过ROS分布式架构进行通信和控制并协同合作,同时实现离线和在线的语音交互,并且通过此系统可以完成语音控制机器人的移动、在线天气查询、讲笑话、人机聊天以及通过此方法拓展的其他功能。优点是方便、灵活、可靠、实用性强,解决了现有的机器人交互功能单一,在网络质量不好或者无网络情况下使用范围受限等问题。
[0006]维纳滤波算法是一种线性滤波器,不能过滤所有噪声且噪声为非平稳随机过程,效率会大大降低。GSC广义旁瓣抵消器算法对散漫噪声的抑制能力不强,当干扰声源没有固定方向时,该算法在对声源方位进行估计时会产生较大误差,从而致使语音增强效果和降噪性能明显降低。

技术实现思路

[0007]本专利技术的目的在于克服现有技术的不足,本专利技术提供了一种搬运机器人的语音控制方法及系统,解决了在设计移动机器人语音控制系统时过滤噪声能力弱的问题,特别是应对散漫噪声。
[0008]为了解决上述技术问题,本专利技术实施例提供了一种搬运机器人的语音控制方法,所述方法包括:
[0009]基于设置在搬运机器人上的麦克风设备进行控制语音采集处理,获得控制语音信息;
[0010]对所述控制语音信息进行语音增强处理,获得增强控制语音信息;
[0011]对所述增强控制语音信息进行语音识别处理,获得语音识别结果;
[0012]基于所述语音识别结果生成所述搬运机器人的控制指令,并将所述控制指令发送至语音控制模块中;
[0013]所述语音控制模块基于接收到的控制指令对所述搬运机器人进行控制处理。
[0014]可选的,所述麦克风设备为Seeed Respeaker线性四麦克风阵列;并将所述Seeed Respeaker线性四麦克风阵列中的多个麦克风单元按照线性排列的方式设置在所述搬运机器人上;其中所述线性排列的排列距离为用于预设距离。
[0015]可选的,所述对所述控制语音信息进行语音增强处理,获得增强控制语音信息,包括:
[0016]基于广义旁瓣抵消算法对所述控制语音信息进行语音增强处理,获得增强控制语音信息。
[0017]可选的,所述基于广义旁瓣抵消算法对所述控制语音信息进行语音增强处理,包括:
[0018]对所述控制语音信息进行端点检测及分帧处理,获得语音分帧结果;
[0019]基于所述语音分帧结果进行所述控制语音信息入射角设定,获得设定入射角;
[0020]计算所述设定入射角的延迟时间,获得所述延迟时间后的控制语音信息,并输入广义旁瓣抵消器中进行短时能量值计算处理,获得短时能量值;
[0021]在重复预设次数的短时能量值计算处理后,选取同组中短时能量值最大的所对应的设定入射角进行精确化处理,获得精确化处理后的入射角;
[0022]基于所述广义旁瓣抵消算法利用精确化处理后的入射角对所述控制语音信息进行语音增强处理。
[0023]可选的,所述基于所述语音分帧结果进行所述控制语音信息入射角设定,包括:
[0024]所述麦克风设备为线性四麦克风阵列,在声源与所述麦克风设备之间达到预设距离后,所述控制语音信息在空间中将以平行声波的形式存在;
[0025]设所述平行声波的入射角为延时数据为δ,则有:
[0026][0027][0028]其中,c表示声音在空间中传播的速度,取值为340m/s,N为任意取值,且取值越大,
入射角越精准;
[0029]当麦克风设备中的麦克风数目为M时,以1号麦克风的位置为起点,对该通道的控制语音信息进行端点检测后截取语音段x
i
(n)对应第i个麦克风截取的控制语音信息,则有:
[0030][0031]经过延时补偿对齐后的控制语音信息为:
[0032][0033]将控制语音信息作为固定波束形成矩阵W
q
的输入,经过计算后获得输入结果如下:
[0034][0035]在自适应通道中,通过阻塞矩阵B,阻断特定方向的控制语音信号保留其他方向的控制语音信息,输出结果为:
[0036][0037]将输入到自适应矩阵中,输出抵消残留的其他方向噪声,将二者相减得到自适应抵消输出如下:
[0038][0039]此时,所述控制语音信息的短时能量计算如下:
[0040][0041]所述平行声波的入射角确定为:
[0042][0043]可选的,所述平行声波的入射角模型为空间中的声源发射出的声波与所述麦克风设备中的麦克风阵列存在一个夹角,所述夹角为入射角;通过入射角计算出延时矩阵的系数和输出的语音信息,并计算获得短时能量;所述入射角的取值在[0,π]之间。
[0044]可选的,所述对所述增强控制语音信息进行语音识别处理,获得语音识别结果,包括:
[0045]登录科大讯飞语音服务器系统,并对增强控制语音信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种搬运机器人的语音控制方法,其特征在于,所述方法包括:基于设置在搬运机器人上的麦克风设备进行控制语音采集处理,获得控制语音信息;对所述控制语音信息进行语音增强处理,获得增强控制语音信息;对所述增强控制语音信息进行语音识别处理,获得语音识别结果;基于所述语音识别结果生成所述搬运机器人的控制指令,并将所述控制指令发送至语音控制模块中;所述语音控制模块基于接收到的控制指令对所述搬运机器人进行控制处理。2.根据权利要求1所述的语音控制方法,其特征在于,所述麦克风设备为Seeed Respeaker线性四麦克风阵列;并将所述Seeed Respeaker线性四麦克风阵列中的多个麦克风单元按照线性排列的方式设置在所述搬运机器人上;其中所述线性排列的排列距离为预设距离。3.根据权利要求1所述的语音控制方法,其特征在于,所述对所述控制语音信息进行语音增强处理,获得增强控制语音信息,包括:基于广义旁瓣抵消算法对所述控制语音信息进行语音增强处理,获得增强控制语音信息。4.根据权利要求3所述的语音控制方法,其特征在于,所述基于广义旁瓣抵消算法对所述控制语音信息进行语音增强处理,包括:对所述控制语音信息进行端点检测及分帧处理,获得语音分帧结果;基于所述语音分帧结果进行所述控制语音信息入射角设定,获得设定入射角;计算所述设定入射角的延迟时间,获得所述延迟时间后的控制语音信息,并输入广义旁瓣抵消器中进行短时能量值计算处理,获得短时能量值;在重复预设次数的短时能量值计算处理后,选取同组中短时能量值最大的所对应的设定入射角进行精确化处理,获得精确化处理后的入射角;基于所述广义旁瓣抵消算法利用精确化处理后的入射角对所述控制语音信息进行语音增强处理。5.根据权利要求4所述的语音控制方法,其特征在于,所述基于所述语音分帧结果进行所述控制语音信息入射角设定,包括:所述麦克风设备为线性四麦克风阵列,在声源与所述麦克风设备之间达到预设距离后,所述控制语音信息在空间中将以平行声波的形式存在;设所述平行声波的入射角为延时数据为δ,则有:延时数据为δ,则有:其中,c表示声音在空间中传播的速度,取值为340m/s,N为任意取值,且取值越大,入射角越精准;当麦克风设备中的麦克风数目为M时,以1号麦克风的位置为起点,对该通道的控制语音信息进行端点检测后截取语音段x
i
(n)对应第i个麦克风截取的控制语音信息,则有:
经过延...

【专利技术属性】
技术研发人员:曹帅钱谦文桂林曹永军黄伟溪梁佳楠李文威
申请(专利权)人:佛山智优人科技有限公司华南智能机器人创新研究院广东省科学院智能制造研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1