一种多模态人机交互系统技术方案

技术编号：40789291 阅读：3 留言：0更新日期：2024-03-28 19:19

本发明专利技术涉及人机交互技术领域，具体为一种多模态人机交互系统，包括语音识别模块、手势识别模块和决策与优化模块，其中：语音识别模块用于收集语音数据并进行特征提取，利用长短时记忆网络模型对特征提取后的语音数据进行文本结果和置信度的预测，手势识别模块用于收集用户视频数据，利用卷积神经网络对用户视频数据进行文本结果和置信度的预测，决策与优化模块对语音识别模块和手势识别模块中的文本结果进行比对，根据文本结果是否一致和置信度的高低，确定最终结果，其中，置信度相等，决策与优化模块对语音识别模块和手势识别模块中的算法模型进行优化处理，优化完成再次进行结果比对，不停迭代，直到确定最终结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人机交互，具体为一种多模态人机交互系统。

技术介绍

1、传统的人机交互系统通常基于单一的输入方式，如语音或键盘输入，缺少多模态输入的优势。在传统系统中，语音识别或文本输入是主要的用户交互方式，通过将用户的语音转换成文本来解析用户的意图和需求，然而，这种系统存在一定的局限性和劣势。

2、首先，单一输入方式可能无法全面地捕捉用户的目标和意图。例如，在一些情境中，用户可能同时使用手势或肢体动作来表达自己的需求或意图，单纯依靠语音输入则无法感知到这些信息。这限制了系统对用户意图的准确理解。

3、其次，传统系统在处理输入的准确性和效率方面可能存在一些问题。语音识别算法可能受到背景噪声或语音口音的影响而产生错误的识别结果，从而导致系统误解用户的意图。此外，文本输入可能存在输入错误或不清楚的情况，需要用户进行更正或澄清，增加了用户和系统之间的交互成本。

4、另外，传统系统在结果的可靠性和准确性方面存在一定风险。由于单一输入方式的限制，系统很难确定正确的用户意图，容易导致误解和错误的反应。系统无法进行结果的多角度验证和确认，存在误差传递的风险，可能产生误导性的结果。

5、综上所述，传统的人机交互系统在单一输入方式、准确性和效率、结果可靠性等方面存在一定的劣势。

技术实现思路

1、本专利技术的目的在于提供一种多模态人机交互系统，以解决上述
技术介绍
中提出的问题。

2、为实现上述目的，本专利技术提供如下技术方案：一种多模态人机交互

3、所述语音识别模块用于收集语音数据并进行特征提取，利用长短时记忆网络模型对特征提取后的语音数据进行文本结果和置信度的预测，其中长短时记忆网络模型的建立包括历史语音数据进行的收集；所述手势识别模块用于收集用户视频数据，视频数据包含用户的手势和肢体动作，利用卷积神经网络模型对用户视频数据进行文本结果和置信度的预测，其中卷积神经网络模型的建立包括历史视频数据的收集；

4、所述决策与优化模块对语音识别模块和手势识别模块中的文本结果进行比对，文本结果比对一致，确定文本结果为最终结果；

5、文本结果比对不一致时，决策与优化模块对语音识别模块中的历史语音数据和手势识别模块中的历史视频数据进行数据增强，提高模型预测的置信度，并将语音识别模块和手势识别模块中的置信度进行比对，根据置信度高低选择对应的文本结果作为最终结果，其中，置信度相等，决策与优化模块对语音识别模块中的长短时记忆网络算法进行优化，运用参数剪枝的方法减少模型的大小和计算量，决策与优化模块对手势识别模块中的卷积神经网络进行优化，运用批量归一化提高模型的训练速度和准确性，优化完成再次进行结果比对，不停迭代，直到确定最终结果。

6、作为本技术方案的进一步改进，所述语音识别模块包括语音采集单元和语音分析单元，所述语音采集单元利用麦克风收集语音数据，并通过模数转换器将模拟信号转化为数字信号数据发送给语音分析单元；所述语音分析单元对语音数字数据进行数据预处理、特征提取并利用长短时记忆网络模型进行文本结果和置信度的预测，将预测结果发送给决策与优化模块。

7、作为本技术方案的进一步改进，所述手势识别模块包括图像获取单元和图像分析单元，所述图像获取单元利用摄像头收集视频流数据，视频流数据包含用户的手势和肢体动作，并对视频流数据中的图片帧进行图像处理，将处理好的图片数据发送给图像分析单元；所述图像分析单元利用卷积神经网络模型对图片数据进行文本结果和置信度的预测，将预测结果发送给决策与优化模块。

8、作为本技术方案的进一步改进，所述决策与优化模块包括决策单元和优化单元，所述决策单元接收语音分析单元和图像分析单元发送的文本结果和置信度，根据文本结果是否一致和置信度的高低，确定最终结果；所述优化单元对语音分析单元和图像分析单元中的算法模型进行优化处理。

9、作为本技术方案的进一步改进，所述语音分析单元对语音数据进行特征提取，具体包括：

10、将语音信号进行时域分析，将其划分为小的时间窗口，对每个时间窗口内的语音信号进行傅里叶变换，得到语音信号在频域上的频谱分布，在频谱上应用梅尔滤波器组来模拟人耳的感知特性，将连续频率范围划分为一系列梅尔带，每个梅尔带对应一个滤波器系数，用于测量该带内频率的能量，对于每个梅尔带内的能量，采用对数变换，得到梅尔频谱系数，通过进行离散余弦变换，提取主要频率成分，得到最终的梅尔频率倒谱系数作为语音特征。

11、作为本技术方案的进一步改进，所述图像分析单元利用卷积神经网络模型对图片数据进行文本结果和置信度的预测，具体包括：

12、使用带有手动标记的手势视频数据来训练卷积神经网络，通过对网络进行反向传播和梯度下降，网络参数逐渐调整以最大化正确分类手势的概率；

13、卷积神经网络的输入是经过预处理的图像帧，图像帧包括灰度图；

14、卷积层通过使用多个卷积核对输入图像进行卷积操作，提取图像中的局部特征，每个卷积核检测图像中的不同特征，包括边缘和纹理；

15、在卷积层之后，使用一个激活函数对卷积结果进行非线性映射，增强网络的非线性建模能力；

16、池化层用于降低特征图的维度，并提取出具有鲁棒性的特征，通过取每个池化窗口中的最大值来减少特征图的大小；

17、在卷积和池化层之后，通过全连接层进一步抽取和组合特征，全连接层将特征映射到特定类别的概率上；

18、输出层采用softmax激活函数，将网络的输出映射为每个类别的概率分布，对于手势识别任务，每个类别代表一个特定的手势动作。

19、作为本技术方案的进一步改进，所述决策单元接收语音分析单元和图像分析单元发送的文本结果和置信度，根据文本结果是否一致和置信度的高低，确定最终结果，具体包括：

20、文本结果比对一致，确定文本结果为最终结果；文本结果比对不一致，将语音分析单元和图像分析单元中的置信度进行比对，语音分析单元的置信度高于图像分析单元的置信度，决策单元选择语音分析单元的输出结果作为最终的决策；图像分析单元的置信度高于语音分析单元的置信度，决策单元选择图像分析单元的输出结果作为最终的决策。

21、作为本技术方案的进一步改进，所述优化单元对语音分析单元和图像分析单元中的算法模型进行优化处理，具体包括：

22、优化单元对语音分析单元中的长短时记忆网络算法模型进行优化处理，运用参数剪枝的方法来减少模型的大小和计算量，同时提高模型的推理速度，通过获得长短时记忆模型中的参数，设定一个阈值来评估模型中每个参数的重要性，并将重要性较低的参数剪枝掉，剪枝后的模型将拥有更少的参数，对剪枝后的模型进行重新训练，使其恢复性能，并确保其在测试数据上保持较高的准确性；

23、优化单元对语音分析单元运用批量归一化来提高模型的训练速度和准确性，通过在每一层的激活函数前，添加批量本文档来自技高网...

【技术保护点】

1.一种多模态人机交互系统，其特征在于：包括语音识别模块(100)、手势识别模块(200)和决策与优化模块(300)，其中：

2.根据权利要求1所述的多模态人机交互系统，其特征在于：所述语音识别模块(100)包括语音采集单元(101)和语音分析单元(102)，所述语音采集单元(101)利用麦克风收集语音数据，并通过模数转换器将模拟信号转化为数字信号数据发送给语音分析单元(102)；所述语音分析单元(102)对语音数字数据进行数据预处理、特征提取并利用长短时记忆网络模型进行文本结果和置信度的预测，将预测结果发送给决策与优化模块(300)。

3.根据权利要求2所述的多模态人机交互系统，其特征在于：所述手势识别模块(200)包括图像获取单元(201)和图像分析单元(202)，所述图像获取单元(201)利用摄像头收集视频流数据，视频流数据包含用户的手势和肢体动作，并对视频流数据中的图片帧进行图像处理，将处理好的图片数据发送给图像分析单元(202)；所述图像分析单元(202)利用卷积神经网络模型对图片数据进行文本结果和置信度的预测，将预测结果发送给决策与优化模块(300)。

4.根据权利要求3所述的多模态人机交互系统，其特征在于：所述决策与优化模块(300)包括决策单元(301)和优化单元(302)，所述决策单元(301)接收语音分析单元(102)和图像分析单元(202)发送的文本结果和置信度，根据文本结果是否一致和置信度的高低，确定最终结果；所述优化单元(302)对语音分析单元(102)和图像分析单元(202)中的算法模型进行优化处理。

5.根据权利要求2所述的多模态人机交互系统，其特征在于：所述语音分析单元(102)对语音数据进行特征提取，具体包括：

6.根据权利要求3所述的多模态人机交互系统，其特征在于：所述图像分析单元(202)利用卷积神经网络模型对图片数据进行文本结果和置信度的预测，具体包括：

7.根据权利要求4所述的多模态人机交互系统，其特征在于：所述决策单元(301)接收语音分析单元(102)和图像分析单元(202)发送的文本结果和置信度，根据文本结果是否一致和置信度的高低，确定最终结果，具体包括：

8.根据权利要求4所述的多模态人机交互系统，其特征在于：所述优化单元(302)对语音分析单元(102)和图像分析单元(202)中的算法模型进行优化处理，具体包括：

9.根据权利要求1所述的多模态人机交互系统，其特征在于：所述决策与优化模块(300)对语音识别模块(100)中的历史语音数据和手势识别模块(200)中的历史视频数据进行数据增强，提高模型预测的置信度，具体包括：

...

【技术特征摘要】

1.一种多模态人机交互系统，其特征在于：包括语音识别模块(100)、手势识别模块(200)和决策与优化模块(300)，其中：

4.根据权利要求3所述的多模态人机交互系统，其特征在于：所述决策与优化模块(300)包括决策单元(301)和优化单元(302)，所述决策单...

【专利技术属性】
技术研发人员：李满屯，
申请(专利权)人：佛山市宇辰机电科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人