一种基于多模态输入的手势操控意图识别方法及系统技术方案

技术编号:30645563 阅读:22 留言:0更新日期:2021-11-04 00:51
本发明专利技术公开一种基于多模态输入的手势操控意图识别方法及系统,是基于车内乘员的手势信息,融合人脸特征、情绪特征、语音信息以及车内外环境信息等,准确识别用户手势操控意图,并将相关手势指令发送至车机,车机执行相关控制操作,从而提升用户座舱体验。从而提升用户座舱体验。从而提升用户座舱体验。

【技术实现步骤摘要】
一种基于多模态输入的手势操控意图识别方法及系统


[0001]本专利技术属于座舱交互
,具体涉及手势操控意图识别技术。

技术介绍

[0002]汽车是人们常用的交通工具,在保证安全性的同时,人们对在汽车使用过程中的便捷性、舒适性也提出了更高的要求。随着座舱内交互方式的不断发展和升级,从传统的物理按键,到触屏操控,到语音操控,到如今逐渐广泛应用的手势操控,交互方式愈发便捷、智能。手势识别在语音操控不便或尴尬的场景优势凸显,同时,自然且符合用户操控逻辑的手势应用更能体现座舱的无感交互体验。因此,能够合理准确的判断用户手势操控意图,为用户带来更便捷、更智能的操控体验,同时降低因手势误识带来的困扰显得尤为重要。
[0003]现有技术对于手势识别领域研究成果较为成熟,在智能家居、智能娱乐设备等场景应用广泛,虽然在汽车内,也得到较早应用,但由于车内手势复杂度较高、环境干扰较强(如光线变换、人为干扰、遮挡等)、关键区域不确定、以及用户操作手势不规范性等诸多问题导致手势误识别情况较多,因此也为用户带来困扰,对手势操控功能引来抱怨。因此,行业内在如何提高手势识别的准确率,降低手势的误识率上展开积极探索。
[0004]专利公开号为CN108229318A 的手势识别和手势识别网络的训练方法及装置、设备、介质中提出了一种手势识别及手势识别网络的训练方法,其手势识别方法通过识别图像中的手势框图像,再将手势框图像输入手势识别网络,再经由识别网络输出坐标信息、手势分类信息及背景信息,当背景信息为前景图像时,根据手势分类信息输出坐标信息,其实现了将手势识别网络输出的各信息结合处理,得到更精准的识别结果。该方法在不增加硬件成本的基础上,对识别网络输出信息做结合处理,由于输入信息本身的匮乏性、不准确性,导致性能优化效果不佳。
[0005]专利公开号为CN103514437A的一种三维手势识别装置及三维手势识别方法中在增加识别装置的基础上进行方法优化,其识别装置包括两个红外摄像头、图像采集单元、红外发光二极管、红外发光二极管驱动单元、运算单元和手势识别单元,该方案采用红外照明和红外摄像头,解决了可见光干扰,朝上的摄像头摄取图像减少了背景的干扰,进一步提高了手势识别的可靠性,但在汽车领域,零部件成本增加较为敏感,同时车内摄像头角度的局限性决定了该方法的应用并不适合。 因此,如果能在优化手势识别原本识别精度的同时,综合手势操控人员的面部信息、情绪特征、车身传感器特征、车内外环境信息等综合辅助判断,进一步提高用户手势操控意图识别,这样既不增加摄像头、传感器等硬件成本,无需额外的物理参数测定和计算,又能给用户更准确、友好的手势操控反馈,在减少了用户因手势识别误识情况产生抱怨的同时,为提高手势操控性能提供的新的思路和方法。

技术实现思路

[0006]本专利技术公开的一种基于多模态输入的手势操控意图识别方法及系统,目的是在不增加硬件成本的情况下,通过摄像头实时采集的手势信息,融合场景信息,提高识别准确
率。
[0007]本专利技术的技术方案如下:本专利技术公开的一种基于多模态输入的手势操控意图识别方法,获取原始训练数据集,原始训练数据集包括含手势信息的车内乘员图像信息以及车内外环境信息;对原始训练数据集进行单模态特征提取;融合各单模态特征,使手势信息与车内外环境信息场景对应并生成训练场景模板库;进行手势识别,当用户手势达到相似阈值且当识别到的场景与训练场景模板库匹配时,确认该手势对应场景及指令,车辆执行对应指令。
[0008]进一步地,包括以下步骤,步骤1)获取原始训练数据集,含车内摄像头获取的车内乘员图像信息;车内麦克风获取的车内乘员音频;车身传感器获取的车辆状态信息;车内外传感器获取的车内外环境信息;步骤2)对原始训练数据集进行单模态特征提取,特征包括:乘员面部情绪特征,手势信息,语义关键词,驾驶行为习惯,车内外环境特征;步骤3)对单模态特征进行特征融合,构建识别场景,逐一场景构建后形成训练场景模板库;步骤4)进行手势识别,当用户手势达到相似阈值且当识别到的场景与训练场景模板库匹配时,确认该手势对应场景及指令,车辆执行对应指令。
[0009]进一步地,车内乘员图像信息包括面部信息、手势信息和肢体动作信息。
[0010]进一步地,乘员面部情绪特征为眨眼频率、眼睛弧度、唇部特征和面部情绪;驾驶行为习惯为驾驶行为习惯和调控习惯;车内外环境特征为车内外温度天气和路况特征。
[0011]进一步地,构建识别场景为构建用户降窗场景,利用车内外环境特征中天气特征、车内温度特征,驾驶行为习惯中用户降窗习惯特征,车内乘员信息中手势信息构建用户降窗场景。
[0012]进一步地,步骤4)中,当用户手势达到降窗手势相似阈值且当识别到的场景匹配为用户降窗场景,确认该手势对应降窗场景,车辆执行降窗指令。
[0013]本专利技术进一步还提供一种基于多模态输入的手势操控意图识别系统,其包括如下功能单元:数据获取单元,用于获取原始训练数据集,原始训练数据集包括含手势信息的车内乘员图像信息以及车内外环境信息;特征提取单元,用于对原始训练数据集进行单模态特征提取;特征融合单元,用于融合各单模态特征,使手势信息与车内外环境信息场景对应并生成训练场景模板库;手势识别单元,进行手势识别,当用户手势达到相似阈值且当识别到的场景与训练场景模板库匹配时,确认该手势对应场景及指令,车辆执行对应指令。
[0014]专利技术有益技术效果为:不增加硬件成本的情况下,通过摄像头实时采集的手势信息、面部信息构建情绪特征、视线特征、语音信息提取语义关键词、车身传感信息、车内外环境数据等综合构建场景特征,当识别到的场景特征满足预置的场景特征分类,则判定用户该项手势功能操控意图成立,则手势识别指令下发至车端,车端相应控制器响应对应手势功能。后续通过手势数据不断丰富、场景特征数据的不断累积,手势识别算法模型的参数能
不断优化,识别准确率也逐步提高,准确识别用户手势操控意图,并将相关手势指令发送至车机,车机执行相关控制操作,从而提升用户座舱体验。
附图说明
[0015]图1 本专利技术训练场景模板库模型构建流程图;图2 本专利技术手势操控意图识别流程图。
具体实施方式
[0016]下面结合附图对本专利技术做详细说明。
[0017]参见图1及图2,本专利技术公开的一种基于多模态输入的手势操控意图识别方法,获取原始训练数据集,原始训练数据集包括含手势信息的车内乘员图像信息以及车内外环境信息;对原始训练数据集进行单模态特征提取;融合各单模态特征,使手势信息与车内外环境信息场景对应并生成训练场景模板库;进行手势识别,当用户手势达到相似阈值且当识别到的场景与训练场景模板库匹配时,确认该手势对应场景及指令作,车辆执行对应指令。
[0018]该方法具体包括以下步骤,步骤1)获取原始训练数据集,含车内摄像头获取的车内乘员图像信息,车内乘员图像信息包括面部信息、手势信息和肢体动作信息;车内麦克风获取的车内乘员音频;车身传感器获取的车辆状态信息;车内外传感本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态输入的手势操控意图识别方法,其特征在于:获取原始训练数据集,原始训练数据集包括含手势信息的车内乘员图像信息以及车内外环境信息;对原始训练数据集进行单模态特征提取;融合各单模态特征,使手势信息与车内外环境信息场景对应并生成训练场景模板库;进行手势识别,当用户手势达到相似阈值且当识别到的场景与训练场景模板库匹配时,确认该手势对应场景及指令,车辆执行对应指令。2.如权利要求1所述的一种基于多模态输入的手势操控意图识别方法,其特征在于:包括以下步骤,步骤1)获取原始训练数据集,含车内摄像头获取的车内乘员图像信息;车内麦克风获取的车内乘员音频;车身传感器获取的车辆状态信息;车内外传感器获取的车内外环境信息;步骤2)对原始训练数据集进行单模态特征提取,特征包括:乘员面部情绪特征,手势信息,语义关键词,驾驶行为习惯,车内外环境特征;步骤3)对单模态特征进行特征融合,构建识别场景,逐一场景构建后形成训练场景模板库;步骤4)进行手势识别,当用户手势达到相似阈值且当识别到的场景与训练场景模板库匹配时,确认该手势对应场景及指令,车辆执行对应指令。3.如权利要求2所述的一种基于多模态输入的手势操控意图识别方法,其特征在于:车内乘员图像信息包括面部信息、手势信息和肢体动作信息。4.如权利要求3所述的一种基于多模态输入的手势操控意图识别方法,其特征在于:乘员面部情绪特征为眨眼频率、眼睛弧度、唇部特征和面部情绪;驾驶行为习惯为驾驶行为习惯和调控习惯;车内外环境特征为车内外温度天气和路况特征。5.如权利要求4所述的一种基于多模态输入的手势操控意图识别方法,其特征在于:构建识别场景为构建用户降窗场景,利用车内外环境特征中天气特征、车内温...

【专利技术属性】
技术研发人员:石林吴锐谢乐成
申请(专利权)人:重庆长安汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1