一种融合手势与语音的多模态人机交互系统及方法技术方案

技术编号：43737353 阅读：0 留言：0更新日期：2024-12-20 12:59

本发明专利技术涉及一种融合手势与语音的多模态人机交互系统及方法，属于多模态人机交互领域。本发明专利技术的系统包括：交互感知层、交互解析层以及交互响应层；交互感知层，用于获取多模态交互信息，负责手势、语音模态信息采集设备的接入，以及交互信息原始信号的采集与处理；交互解析层用于定义各通道人机交互信息的含义，并解析多模态交互信息的含义与指令意图；交互响应层用于实现交互解析层获取的人机交互意图与应用系统的交互操作映射，包括指令‑操作转换模块。本发明专利技术备手势指令和语音指令的独立识别与融合识别功能，改善人机交互系统的鲁棒性，提供更自然、便捷的人机交互方式，满足智能人机交互发展需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多模态人机交互领域，具体涉及一种融合手势与语音的多模态人机交互系统及方法。

技术介绍

1、近年来，随着传感器技术、大数据技术、人工智能技术等新型技术的发展，人机交互正向着智能感知、高效便捷、以人为本的方向不断发展。传统的键盘、鼠标、触屏等接触式人机交互方式已无法满足智能人机交互的需求，亟需构建新型、高效、便捷、智能的人机交互方式，以实现人与系统的自然高效互动。

2、随着计算机视觉、语音识别、自然语言处理等智能理论与技术的不断发展，研究人员在人机交互系统中植入语音或手势等单模态、非接触式的智能交互方式，以此拓宽人机交互的信息来源与实现方式，提升人机交互系统的便捷性。然而，语音、手势等单一模态的交互输入方式易受噪声、颠簸、光照变化等环境因素影响，导致系统无法全面、准确地捕捉用户的交互指令，造成用户操作意图的理解偏差，致使系统错误响应，进而降低人机交互的准确性与可靠性。因此，单一模态的智能人机交互方式难以满足高效、准确的人机交互需求。

3、面向上述问题，多模态人机交互技术成为研究热点方向以及应用重点方向，通过对语音、手势等交互信息进行有效的结合，实现各通道信息互补，以此提高智能人机交互的准确性与可靠性，提升人机交互效率，实现更智能、自然、和谐、高效的人机交互方式。

技术实现思路

1、(一)要解决的技术问题

2、本专利技术要解决的技术问题是如何提供一种融合手势与语音的多模态人机交互系统及方法，以解决单一模态的智能人机交互方式难以满足高效、准确的人机交互需求的问题。

3、(二)技术方案

4、为了解决上述技术问题，本专利技术提出一种融合手势与语音的多模态人机交互系统，该系统包括：交互感知层、交互解析层以及交互响应层；

5、交互感知层，用于获取多模态交互信息，负责手势、语音模态信息采集设备的接入，以及交互信息原始信号的采集与处理，包括：手势信息获取模块、语音信息获取模块；

6、交互解析层是人机交互系统的核心，用于定义各通道人机交互信息的含义，并解析多模态交互信息的含义与指令意图，包括：交互指令定义模块、手势指令识别模块、语音指令识别模块、多模态指令融合模块；

7、交互响应层是人机交互系统的输出窗口，用于实现交互解析层获取的人机交互意图与应用系统的交互操作映射，包括指令-操作转换模块。

8、本专利技术还提供一种融合手势与语音的多模态人机交互方法，该方法包括如下步骤：

9、步骤s1、交互信息感知：通过交互感知层，经由相关传感器设备采集用户手势、语音交互信息；

10、步骤s2、单模态交互信息解析：交互感知层将采集到的交互信息传输至交互解析层的手势指令识别模块与语音指令识别模块；在交互解析层的交互指令定义模块定义具体的手势、语音的交互映射指令；按照交互指令定义模块，由手势指令识别模块采用手势识别方法识别用户手势信息的指令含义，由语音指令识别模块采用语音识别方法识别用户语音信息的指令含义；

11、步骤s3、多模态指令语义判断：使用多模态指令语义判断方法判断各模态通道的指令信息是否具备操作语义，当存在某一模态的指令信息不存在操作语义，直接输出具有操作意图语义的指令信息，并跳转至步骤s5，反之，进入步骤s4；

12、步骤s4、多模态信息融合解析：将手势指令与语音指令输入至多模态指令融合理解模型，由多模态指令融合理解模型综合手势交互信息与语音交互信息，对照交互指令定义模块的指令定义，评估并解析用户的操作意图；

13、步骤s5、指令-操作转换：将用户操作意图传输至交互响应层的指令-操作转换模块，由指令-操作转换模块根据用户操作意图及gis地图软件操作api自动生成操作指令；

14、步骤s6、应用系统响应：将指令-操作转换模块生成的操作指令传输至gis地图软件，由gis地图软件做出响应响应，实现人机交互操作闭环。

15、(三)有益效果

16、本专利技术提出一种融合手势与语音的多模态人机交互系统及方法，本专利技术的有益效果体现在：

17、(1)通过手势、语音等多通道、多模态人机交互方式充分拓宽人机交互信息输入能力，为用户提供更自然、便捷的人机交互方式，加快人机交互的操作效率；

18、(2)通过多模态交互信息融合的方式，避免单通道交互信息受环境影响时交互准确性下降的问题，改善人机交互方法的鲁棒性；

19、(3)多模态人机交互系统采用模块化设计方式，可以通过先进技术进行模块功能、性能升级，具有较强的可扩展性。

本文档来自技高网...

【技术保护点】

1.一种融合手势与语音的多模态人机交互系统，其特征在于，该系统包括：交互感知层、交互解析层以及交互响应层；

2.如权利要求1所述的融合手势与语音的多模态人机交互系统，其特征在于，

3.如权利要求2所述的融合手势与语音的多模态人机交互系统，其特征在于，所述摄像头经由交互感知层的手势信息获取模块接入多模态人机交互系统，为人机交互应用系统提供手势图像信息来源；所述气导麦克风经由交互感知层的语音信息获取模块接入多模态人机交互系统，为人机交互应用系统提供语音信息来源；所述交互响应层的指令-操作转换模块与GIS地图软件提供应用操作软件接口相连接，通过指令-操作转换模块将用户意图转换为相应操作指令，促使GIS地图软件做出相关操作响应。

4.一种基于权利要求1-3任一项所述的系统的融合手势与语音的多模态人机交互方法，其特征在于，该方法包括如下步骤：

5.如权利要求4所述的融合手势与语音的多模态人机交互系统，其特征在于，所述步骤S2中，手势指令识别模块采用的手势识别方法分为手势姿态估计与手势指令识别两部分，具体实现步骤如下：

6.如权利要

7.如权利要求4所述的融合手势与语音的多模态人机交互系统，其特征在于，所述步骤S2中语音指令识别模块采用ASRFrame中文语音识别框架构建语音识别系统，实现用户语音信息的识别；交互指令定义模块中定义语音信息输入中的指令关键字，包括：“向左”、“向右”、“向上”、“向下”、“平移”、“顺时针”、“逆时针”、“旋转”、“选中”、“标绘”、“标记”、“放大”以及“缩小”。

8.如权利要求4-7任一项所述的融合手势与语音的多模态人机交互系统，其特征在于，所述步骤S4中的多模态指令融合理解模型基于Transformer网络结构进行改进设计，包括：信息编码、位置编码、编码器、解码器4部分：

9.如权利要求8所述的融合手势与语音的多模态人机交互系统，其特征在于，多模态指令融合理解模型中的归一化采取层归一化方式实现。

10.如权利要求8所述的融合手势与语音的多模态人机交互系统，其特征在于，多模态指令融合理解模型使用交叉熵函数作为模型的损失函数进行模型训练。

...

【技术特征摘要】

1.一种融合手势与语音的多模态人机交互系统，其特征在于，该系统包括：交互感知层、交互解析层以及交互响应层；

2.如权利要求1所述的融合手势与语音的多模态人机交互系统，其特征在于，

3.如权利要求2所述的融合手势与语音的多模态人机交互系统，其特征在于，所述摄像头经由交互感知层的手势信息获取模块接入多模态人机交互系统，为人机交互应用系统提供手势图像信息来源；所述气导麦克风经由交互感知层的语音信息获取模块接入多模态人机交互系统，为人机交互应用系统提供语音信息来源；所述交互响应层的指令-操作转换模块与gis地图软件提供应用操作软件接口相连接，通过指令-操作转换模块将用户意图转换为相应操作指令，促使gis地图软件做出相关操作响应。

4.一种基于权利要求1-3任一项所述的系统的融合手势与语音的多模态人机交互方法，其特征在于，该方法包括如下步骤：

5.如权利要求4所述的融合手势与语音的多模态人机交互系统，其特征在于，所述步骤s2中，手势指令识别模块采用的手势识别方法分为手势姿态估计与手势指令识别两部分，具体实现步骤如下：

6.如权利要求6所述的融合手势与语音的多模态人机交互系统，其特征在于，交互指令定义模块中的手部动作-手势指...

【专利技术属性】
技术研发人员：程智鹏，刘宗宝，刘更，郭申，闵新宇，
申请(专利权)人：北京计算机技术及应用研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人