本发明专利技术公开了一种基于视频图像的交互式智能输入方法,该方法使设备可以实现用户非接触式操作,通过采集用户双手的运动路径,速度及加速度等信息,实现实体键盘的输入功能,并将采集到的信息以字符流的格式输出,供上层软件调用实现定制化应用。该方法还可以根据用户双手运动范围的变化,实现虚拟键盘操作范围的动态调整。用户双手在图像采集设备工作区域内时,显示设备上会显示虚拟键盘及虚拟用户手指的相对位置,用户可以通过手指的敲击动作,实现显示设备上虚拟键盘的相应按键操作。考虑到兼容各种用户敲击键盘动作的习惯,设备提供虚拟键盘输入的监督功能,根据用户撤销及确认动作的频率来纠正各种非键盘输入动作带来的准确性偏差。此方法特征在于用户输入不需任何辅助定位区域及辅助定位物体,在图像采集设备工作区域内任意空间均可实现。因此本发明专利技术具有成本低、适用性广、智能交互的特点。本发明专利技术还提供了一种基于该方法的实现装置。
【技术实现步骤摘要】
本专利技术涉及非接触式智能输入领域,特别是一种基于视频图像的非接触式智能输入方法及装置
技术介绍
随着智能电视、智能手机等领域的快速发展,触摸屏已经深入到社会的每一个角落。卓越的用户互动体验大大提升了消费领域的产品附加值和科技含量,提供了更多的差异化和智能化体验。目前主流的两种虚拟输入方法为软键盘和附加式键盘。其中智能手机(例如苹果公司的iPhone系列手机)多数采用触摸屏实现绘制虚拟全键盘的形状,作为用户输入的媒介。这种输入方法也在平板电脑等便携式设备中得到了应用和推广,但该技术需要触摸屏技术的支持,并且精度和灵敏度与用户的体验需求还有差距,而且频繁的接触式操作,会造成用户手指的不可恢复性损伤。附加式键盘采用附加的投影设备和传感器组合作为输入操作的媒介,实现虚拟输入功能。但该方法所带来的成本随之增加,并且投影光对用户的眼睛也有一定的影响,造成其应用难以推广。因此,软键盘和附加式键盘都没有实现低成本、非接触式智能输入,并且精度和响应时间也大大降低了用户体验。除上述两类虚拟输入方法外,还有基于摄像头和视频图像处理的虚拟输入方法,但是已有的基于视频处理的方法都对用户的使用方法施加了种种限制,有的方法需要有辅助定位物体,如具有键盘按键的模板或包含有键盘按键的印刷图像的纸张。有的方法不需要有辅助定位的物体,但仍需要有固定的支撑面,比如桌子等(见相关专利文献CN1439151A,US5767842),这种对辅助定位物体和工作面的需求不符合某些场合用户的使用习惯,比如对于电视用户,很多用户喜欢以舒服、随意的姿势靠在沙发或椅子上收看自己喜爱的节目内容,如果还需要桌子等平面来实现数据输入,将降低用户体验。
技术实现思路
本专利技术提供了一种基于视频图像的非接触式智能输入方法,可以实现用户远距离非接触式键盘输入,并能根据用户习惯,自动调整键盘输入有效范围,纠正用户输入操作中的非有效动作。解决了用户远距离非接触式输入的问题,提供更具人性化的用户体验,并且具有互动性高、成本低、适应性强的特点。本专利技术公开的基于视频图像的非接触式智能输入方法,其包括:步骤1、采集视频图像,并进行手的检测和手的建模;步骤2、根据所采集的视频图像识别用户双手的活动区域,以确定有效输入区域,并在有效输入区域内确定虚拟键盘的空间坐标;步骤3、根据所采集的视频图像以及手的模型识别手指的敲击动作;步骤4、根据所述敲击动作的位置以及虚拟键盘的空间坐标,确定用户的输入文本。本专利技术还公开了一种基于视频图像的非接触式智能输入系统,其包括:视频采集设备,其用于采集视频图像;视频分析设备,其用于根据采集到的视频图像进行手的检测和手的建模,并根据所采集的视频图像识别用户双手的活动区域,以确定有效输入区域,并在有效输入区域内确定虚拟键盘的空间坐标;根据所采集的视频图像以及手的模型识别手指的敲击动作;根据所述敲击动作的位置以及虚拟键盘的空间坐标,确定用户的输入文本;显示设备,其用于将所述用户的输入文本、虚拟键盘及所要显示的视频数据进行合成后进行显示。本专利技术的优点和积极效果是:基于视频图像的非接触式智能输入方法,不需要额外的辅助定位材料,扩展了系统的应用范围,降低了系统的实现成本。基于视频图像的非接触式智能输入方法,不依赖于激光在手周围形成虚拟键盘,避免了激光对人眼的刺激,提高了用户体验舒适度。基于视频图像的非接触式智能输入方法,对图像采集设备工作区域内进行手指识别并自动定位,抽取识别的手指动作视频流中相关特征信息(如运动矢量、速度及加速度等),可以快速精准的实现用户无键盘输入。基于视频图像的非接触式智能输入方法,通过画中画方式显示与用户手指活动范围相匹配的虚拟键盘,来指导用户的精准敲击动作,实现智能互动及用户使用习惯的机器学习。基于视频图像的非接触式智能输入方法,实时调整用户手指的有效活动区域,实现用户在移动或静止状态下均可以轻松自如的进行键盘输入。根据抽取的运动矢量信息,提前预估用户下一个可能的敲击动作,从而实现智能判断及智能输入。本专利技术解决了当前消费领域用户体验度不高,实现困难及成本高的问题。本专利技术能够充分利用所采集的视频图像信息,进行智能判断及提前决策,提高互动响应时间,解除用户的使用场地及辅助材料限制。基于无辅助设备的虚拟键盘输入,可以大幅提高消费领域多屏融合的用户体验度,从而实现用户在多工作状态下,远程非接触式键盘输入及与屏幕的远程互动。附图说明图1为本专利技术中基于视频图像的非接触式智能输入系统的结构示意图;图2为本专利技术中基于视频图像的非接触式智能输入方法的流程示意图;图3为本专利技术中基于视频图像的非接触式智能输入方法实现的合成图像示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。图1示出了本专利技术所提出的一种基于视频图像的非接触式智能输入系统的设计实例,其由显示设备、三维视频采集系统,及三维视频分析系统组成。三维视频采集系统包括两个摄像头。视频分析系统由CPU、ROM、DDR3 SDRAM、摄像头接口、HDMI接口和串口组成。所述视频采集系统和视频分析系统可以集成到显示设备中,或者使用显示设备(如电视)中已有硬件资源进行构建。两个摄像头同时采集两个角度的视频,将视频数据通过摄像头接口传入三维视频分析系统,三维视频分析系统根据两个角度的视频数据,完成手指动作的跟踪与定位,以及击键行为的识别,并产生键盘图像和手的示意图,和从HDMI接口输入的视频源图像进行合成处理,生成最终视频,输入到显示设备上显示。同时,按键信息字符流通过串口输出。视频分析系统实现以下功能:I)接受两个摄像头输入的视频数据;2)接受视频源的输入(播放器,或有线电视);3)根据摄像头的视频数据,进行视频分析;4)产生击键信息,输出按键字符流,供应用程序使用;5)产生键盘图像,根据识别出的手的位置,在键盘上叠加产生双手或单手图像,并根据输入法的结果产生文本输入框图像;6)对键盘图像,文本输入框图像和视频源输入的图像进行合成处理,并输出合成图像到显示设备上显示。其中,所述视频分析系统实现的视频分析步骤包括:步骤1、当系统进入键盘输入状态时,根据摄像头的视频数据,进行手的检测和手的建模,以及和现有数据库的配对;这时候,使用特定手势,有助于视频处理算法更容易检测到手并进行建模。如规定特定手势如下,当左右手同时平行于显示屏向右挥动时,则启动手的检测和建模。手的检测的方法是:首先,根据视频序列中几帧图像之间的差异,可以检测出每帧图像的运动区域,比较运动区域的色彩与标准肤色之间的差异,可进一步分割出每帧图像手的区域。手势识别可通过对每帧图像中手的区域的变化来获得运动特征,和已规定的手势的运动特征进行比对,来确定是否要进行手的建模。完成手势识别后,进行手的建模,包括确定手的各个关节的尺寸,特别是对敲击动作产生重要影响的手指关节的尺寸。这有利于提高后续跟踪算法的准确度。步骤2、根据手的位置识别有效输入区域,并生成三维坐标系。这时候,使用特定手势,有助于视频处理算法更容易检测到手并确定有效输入区域。如特定手势的规定如下,在完成手的建模后,当左右手同时平行于地面并静止时,代表要启动对键盘尺寸的确定。当左右手同时平行于地面并向中间或向外运动时,代表对本文档来自技高网...
【技术保护点】
一种基于视频图像的非接触式智能输入方法,其包括:步骤1、采集视频图像,并进行手的检测和手的建模;步骤2、根据所采集的视频图像识别用户双手的活动区域,以确定有效输入区域,并在有效输入区域内确定虚拟键盘的空间坐标;步骤3、根据所采集的视频图像以及手的模型识别手指的敲击动作;步骤4、根据所述敲击动作的位置以及虚拟键盘的空间坐标,确定用户的输入文本。
【技术特征摘要】
【专利技术属性】
技术研发人员:王东琳,杜学亮,郭若杉,林啸,蒿杰,倪素萍,张森,林忱,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。