System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大语言模型的语音交互智能机械臂制造技术_技高网

基于大语言模型的语音交互智能机械臂制造技术

技术编号:44291558 阅读:5 留言:0更新日期:2025-02-14 22:25
本发明专利技术公开了基于大语言模型的语音交互智能机械臂,涉及机械臂技术领域;包括:语音识别系统,语音识别系统主要完成语音指令的实时采集、预处理、降噪、特征提取和识别等;主控系统,主控系统主要用于对语音指令的接收并且向机械臂控制端发送相应的指令信息从而使机械臂完成对不同货物的抓取和分拣。同时机械臂工作时能够在主控系统界面上显示机械臂的运行状态以及位置信息;机械臂执行机构,机械臂执行机构的动作由机械臂NX100控制柜对其进行控制。本发明专利技术的设计方法在噪声环境下,通过结合大规模预训练语言模型与先进的语音识别技术,极大地提高了机械臂对语音指令的准确理解和响应能力。

【技术实现步骤摘要】

本专利技术涉及机械臂,尤其涉及基于大语言模型的语音交互智能机械臂


技术介绍

1、在复杂多变的工业及生活环境中,语音交互作为人机交互的重要方式,其准确性往往受到环境噪声的严重干扰,传统语音识别技术难以在嘈杂环境下保持高效稳定的性能。近年来,随着人工智能技术的飞速发展,特别是大规模预训练语言模型的兴起,为语音识别领域带来了革命性的突破。这类模型通过海量数据训练,具备强大的语言理解和生成能力,能够在高噪声环境下有效提取语音特征,精准识别并理解用户的语音指令。研究并应用基于大语言模型的语音识别技术于智能机械臂控制,不仅能够显著提升机械臂在复杂环境中的操作精度和响应速度,还能极大地拓宽语音交互技术的应用场景,推动智能制造、智能家居等领域的智能化进程,为提升生产效率、改善用户体验提供强有力的技术支持。

2、对于语音识别技术,尤其是在噪声环境下,传统的语音识别技术难以准确识别用户的语音指令,从而限制了机械臂的有效控制和操作。具体而言,传统的语音识别系统在噪声环境下,如存在背景噪声、音量变化或语音与噪声混合等情况下,面临着语音特征提取困难和模型难以准确区分语音与噪声的挑战,这导致了语音识别准确率的显著降低,进而影响了机械臂的指令接收和执行效果。同时,语音降噪算法存在以下问题:没有充分考虑到上下文信息的重要性,语音处理可能会导致语音信号的细节信息丢失;忽略了不同通道高维特征之间的相关性和潜在的多样化信息。对于现有用于语音识别的一些模型的训练不稳定,甚至会随着共享层数量的增加而导致训练崩溃,另外与原始模型相比,性能显著下降;模型虽然进行压缩,但是部分模型的参数量依旧很大,不适合在计算资源有限的环境使用。其次,智能机械臂在理解和执行复杂语音指令时仍存在局限性,特别是当指令涉及多个连续动作或特定情境下的操作时,机械臂往往无法准确解析并做出正确响应。


技术实现思路

1、本专利技术的目的是为了解决现有技术中存在的缺点,而提出的基于大语言模型的语音交互智能机械臂。

2、为了实现上述目的,本专利技术采用了如下技术方案:

3、基于大语言模型的语音交互智能机械臂,包括:

4、语音识别系统,语音识别系统主要完成语音指令的实时采集、预处理、降噪、特征提取和识别等;

5、主控系统,主控系统主要用于对语音指令的接收并且向机械臂控制端发送相应的指令信息从而使机械臂完成对不同货物的抓取和分拣。同时机械臂工作时能够在主控系统界面上显示机械臂的运行状态以及位置信息;

6、机械臂执行机构,机械臂执行机构的动作由机械臂nx100控制柜对其进行控制。运行过程中由pc机向控制柜发送控制指令,控制柜根据不同的指令信息分配机械臂交流伺服电机不同的脉冲,根据不同的脉冲信息机械臂就能够实现不同的动作。

7、优选的:所述智能机械臂的语音识别系统在进行语音识别时,首先利用高精度的麦克风对语音信号的采集,将获取到的语音信号进行预处理、特征提取、去噪以及相应的算法、dfsmn-ctc端到端的模型和轻量化的语言模型、语音识别算法等;具体包括:

8、预处理:采用预加重和加窗分帧。声音在传播过程中,能量会发生损耗,并且声波频率越高,能量损失越大。mfcc预加重处理弥补了声音传播过程中的能量损耗,补偿高频分量。由于说话人发出的声音是不均匀信号,所以需要分析语音信号中各个频率分布,在实际研究过程中主要对均匀平稳的信号进行分析,通过分帧操作,可以保证较短时间内信号是平稳的。加窗是为了让信号两端信号趋近于0,避免频谱重叠,减轻频谱泄露。

9、特征提取:在声学模型训练之前需要提取声学信号特征,本专利技术采用梅尔倒谱系数(mfcc)特征提取方法,能够较好地描述辅音。

10、降噪:基于降噪算法进行降噪处理;本专利技术设计方法对于前端语音降噪主要针对的是加性噪声。加性噪声是指在信号的采集或传输过程中,与信号独立存在的一种噪声形式,其特点是在时间和频率上不随信号变化而变化,例如电子噪声、风声、交通噪声等。

11、优选的:所述降噪算法具体为:

12、在语音信号输入语音识别系统之前对语音信号进行降噪处理,基于协调注意力的深度复数密集连接卷积递归网络的语音降噪算法ca-dcdccrn,对噪声语音信号进行前端处理;

13、对于dcdccrn网络设计由两部分组成密集连接网络和dcdccrn网络结构;密集连接dc网络由密集连接块组成,dc网络融合利用更多低层次的特征;网络在传播时,密集连接块的每一层都会接收该层前面所有层的梯度信号;对于l层网络,有l个层连接,dc连接网络有l(l-1)/2个层间连接,每一层都与其他所有层进行连接,获得它之前所有层的额外输入,并把本层的特征映射传播给其后所有层。

14、优选的:所述dcdccrn的网络结构,dcdccrn的复数编解码器由卷积块、复数批归一化模块和实数prelu模块组成;其中卷积块包含实数模块和复数模块两部分,实数模块采用实值进行计算,复数模块通过对复数乘法进行模拟,卷积块在没有先验知识的情况下利用幅度和相位的关系进行建模;

15、优选的:所述dcdccrn为对称式设计的卷积编码器一解码器结构,输入是噪声的语谱图,不同的是dcdccrn在输出部分不进行stft逆变换,保证输出的是去噪后的语谱图;利用dc和复数密集连接cdc块替换原编码器结构中的实部卷积模块和虚部卷积模块;通过将一个卷积层分解为几个具有较少通道的卷积层,并密集地连接这些层,每个层都会与前面所有层在channel维度上连接在一起,并作为下一层的输入,进而获取更深层的全部特征。

16、优选的:所述ca-dcdccrn网络由6个复编码器模块、复数lstm模块与6个复解码器模块组成;其中复编解码模块使用四层dc块和cdc块代替原编解码网络中的标准卷积,在每个编码块中加入ca模块,增强网络对重要特征的处理,抑制噪声干扰;ca-dcdccrn中的编码器从输入特征中提取高级特征并降低分辨率,解码器降低分辨率,并将特征重构为输入的原始大小,lstm层捕获语音特征长时相关性,维持整个框架的因果性。

17、优选的:所述ca-dcdccrn网络的训练目标是估计cirm,并通过信号近似进行优化,使用的损失函数是尺度不变的源噪声比si-snr,si-snr计算如下:

18、

19、

20、

21、式中:

22、s、为干净语音、估计语音的时域波形;

23、<·,·>为两个向量之间的点积;

24、||||2为欧式距离。

25、优选的:所述主控系统:

26、由电脑自带的麦克风来对语音指令进行实时的采集,经pc机识别后会根据识别结果的不同向机械臂发送不同的控制信息以使机械臂完成对不同类型货物的抓取和分拣。

27、优选的:所述主控系统:

28、①接收由机器听觉系统识别出的识别结果;

29、②根据接收到的识别结本文档来自技高网...

【技术保护点】

1.基于大语言模型的语音交互智能机械臂,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型的语音交互智能机械臂,其特征在于,所述智能机械臂的语音识别系统在进行语音识别时,具体包括:

3.根据权利要求2所述的基于大语言模型的语音交互智能机械臂,其特征在于,所述降噪算法具体为:

4.根据权利要求3所述的基于大语言模型的语音交互智能机械臂,其特征在于,所述DCDCCRN的网络结构,DCDCCRN的复数编解码器由卷积块、复数批归一化模块和实数PReLU模块组成;其中卷积块包含实数模块和复数模块两部分,实数模块采用实值进行计算,复数模块通过对复数乘法进行模拟,卷积块在没有先验知识的情况下利用幅度和相位的关系进行建模。

5.根据权利要求4所述的基于大语言模型的语音交互智能机械臂,其特征在于,所述DCDCCRN为对称式设计的卷积编码器一解码器结构,输入是噪声的语谱图,不同的是DCDCCRN在输出部分不进行STFT逆变换,保证输出的是去噪后的语谱图;利用DC和复数密集连接CDC块替换原编码器结构中的实部卷积模块和虚部卷积模块;通过将一个卷积层分解为几个具有较少通道的卷积层,并密集地连接这些层,每个层都会与前面所有层在Channel维度上连接在一起,并作为下一层的输入,进而获取更深层的全部特征。

6.根据权利要求5所述的基于大语言模型的语音交互智能机械臂,其特征在于,所述CA-DCDCCRN网络由6个复编码器模块、复数LSTM模块与6个复解码器模块组成;其中复编解码模块使用四层DC块和CDC块代替原编解码网络中的标准卷积,在每个编码块中加入CA模块,增强网络对重要特征的处理,抑制噪声干扰;CA-DCDCCRN中的编码器从输入特征中提取高级特征并降低分辨率,解码器降低分辨率,并将特征重构为输入的原始大小,LSTM层捕获语音特征长时相关性,维持整个框架的因果性。

7.根据权利要求6所述的基于大语言模型的语音交互智能机械臂,其特征在于,所述CA-DCDCCRN网络的训练目标是估计CIRM,并通过信号近似进行优化,使用的损失函数是尺度不变的源噪声比SI-SNR,SI-SNR计算如下:

8.根据权利要求1所述的基于大语言模型的语音交互智能机械臂,其特征在于,所述主控系统:

9.根据权利要求8所述的基于大语言模型的语音交互智能机械臂,其特征在于,所述主控系统:

10.根据权利要求1所述的基于大语言模型的语音交互智能机械臂,其特征在于,所述NX100控制柜在进行机械臂控制时:

...

【技术特征摘要】

1.基于大语言模型的语音交互智能机械臂,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型的语音交互智能机械臂,其特征在于,所述智能机械臂的语音识别系统在进行语音识别时,具体包括:

3.根据权利要求2所述的基于大语言模型的语音交互智能机械臂,其特征在于,所述降噪算法具体为:

4.根据权利要求3所述的基于大语言模型的语音交互智能机械臂,其特征在于,所述dcdccrn的网络结构,dcdccrn的复数编解码器由卷积块、复数批归一化模块和实数prelu模块组成;其中卷积块包含实数模块和复数模块两部分,实数模块采用实值进行计算,复数模块通过对复数乘法进行模拟,卷积块在没有先验知识的情况下利用幅度和相位的关系进行建模。

5.根据权利要求4所述的基于大语言模型的语音交互智能机械臂,其特征在于,所述dcdccrn为对称式设计的卷积编码器一解码器结构,输入是噪声的语谱图,不同的是dcdccrn在输出部分不进行stft逆变换,保证输出的是去噪后的语谱图;利用dc和复数密集连接cdc块替换原编码器结构中的实部卷积模块和虚部卷积模块;通过将一个卷积层分解为几个具有较少通道的卷积层,并密集地连接这些层,每个层都会与前面所有层在channel维度上连接在...

【专利技术属性】
技术研发人员:李梓毅郝梓程杜博孙嘉琪陈威名余磊闫智超庞俊杰郭文操柳宣含段雨辰费凡鞠明池胡奇
申请(专利权)人:长春理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1