本发明专利技术实施例提供了一种基于口型执行预设操作的方法及装置,涉及数据处理领域,用来在预设操作较少的情况下,根据唇动图像序列执行相应操作时,降低计算复杂度,一定程度上减少计算资源的浪费。所述方法包括:获取唇动图像序列;对唇动图像序列进行波形数据提取,获得口型波形数据;从波形数据库中查找出与口型波形数据相似度最大的标准波形数据,并确定为匹配波形数据;执行匹配波形数据对应的操作指令。
【技术实现步骤摘要】
【专利摘要】本专利技术实施例提供了一种基于口型执行预设操作的方法及装置,涉及数据处理领域,用来在预设操作较少的情况下,根据唇动图像序列执行相应操作时,降低计算复杂度,一定程度上减少计算资源的浪费。所述方法包括:获取唇动图像序列;对唇动图像序列进行波形数据提取,获得口型波形数据;从波形数据库中查找出与口型波形数据相似度最大的标准波形数据,并确定为匹配波形数据;执行匹配波形数据对应的操作指令。【专利说明】一种基于口型执行预设操作的方法及装置
本专利技术涉及数据处理领域,尤其涉及一种基于口型执行预设操作的方法及装置。
技术介绍
随着计算机技术以及数据处理技术的发展,语音识别技术应运而生。语音识别技术就是一种让机器把语音信号转变为相应的文字的方法,它已经应用到日常生活的方方面面,比如基于语音识别的车载导航系统、Siri (苹果智能语音助手)等。 语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。首先通过麦克风采集包含用户声音的音频信号,接着对该音频信号进行降噪处理和模数转换获得数字信号,然后提取数字信号中的特征参数,将数字信号中的特征参数与文字特征参数库中的信息进行匹配,查找出该音频信号对应的文字,最后根据文字代表的内容执行相应的操作。 语音识别技术应用到移动终端时,由于移动终端所处的环境复杂,获取的音频信号中可能包含大量的噪声信号,使得经过降噪处理和模数转换后的数字信号中仍然携带有噪声信号的特征,那么对数字信号进行特征提取后的特征参数并不能代表用户声音原本代表的信息的特征,最终根据该特征参数匹配出的文字与用户声音代表的文字不符,使得用户体验差;同时,为了保证获取的数字信号的特征参数能够代表用户声音的特征,用户声音的音量必须不小于能够提取出用户声音特征的音量,在公共场所容易泄露用户隐私,使得保密性差。 为了解决上述语音识别过程中的问题,现有技术进一步提供了口型识别技术。口型识别首先通过图像采设备获取唇动图像序列,并对唇动图像序列中的每一图像进行通过唇的色度滤波,得每一图像中增强的唇动图像,再利用可变模板实现口型轮廓的提取和跟踪,提取口型轮廓特征参数,接着采用隐马尔科夫(HMM)模型进行唇动图像序列识别,得到最终的唇动图像序列所代表的文字,最后根据文字代表的内容执行相应的操作。 在实现上述口型识别的过程中,专利技术人发现现有技术中至少存在如下问题:口型识别技术需要先将获取的唇动图像序列转化成对应的文字,然后根据文字与操作间的对应关系,执行文字对应的操作。由于要从很多文字中选出每一唇动图像序列匹配的文字,所以需要采用精确度高的隐马尔科夫(HMM)模型算法对唇动图像序列进行识别,但是在实际应用中,特定功能的设备需要执行的操作是有限的,所以与操作对应的文字是有限的,对匹配的精确度要求不高,但是上述口型识别的过程采用的隐马尔科夫(HMM)模型算法复杂程度高,若继续采用上述口型识别的方法,会浪费计算资源。
技术实现思路
本专利技术的实施例提供一种基于口型执行预设操作的方法及装置,用来在预设操作较少的情况下,根据唇动图像序列执行相应操作时,降低计算复杂度,一定程度上减少计算资源的浪费。 为达到上述目的,本专利技术的实施例采用如下技术方案: 第一方面,本专利技术实施例提供了一种基于口型执行预设操作的方法,包括: 获取唇动图像序列; 对所述唇动图像序列进行波形数据提取,获得口型波形数据; 从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据,并确定为匹配波形数据;所述波形数据库预先存储有至少一个标准波形数据,以及与所述至少一个标准波形数据中每一标准波形数据对应的操作指令; 执行所述匹配波形数据对应的操作指令。 第二方面,本专利技术实施例提供了一种装置,包括:获取单元、查找单元、确定单元和处理单元;所述获取单元包括:图像采集模块和波形数据提取模块; 所述图像采集模块,用于获取唇动图像序列; 所述波形数据提取模块,用于对所述图像采集模块获取的所述唇动图像序列进行波形数据提取,获得口型波形数据; 所述查找单元,用于从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据;所述波形数据库预先存储有至少一个标准波形数据,以及与所述至少一个标准波形数据中每一标准波形数据对应的操作指令; 所述确定单元,用于将与所述口型波形数据相似度最大的标准波形数据确定为匹配波形数据; 所述处理单元,用于执行所述匹配波形数据对应的操作指令。 本专利技术实施例提供了一种基于口型执行预设操作的方法及装置,获取唇动图像序列,对唇动图像序列进行波形数据提取,获得口型波形数据,从波形数据库中查找出与口型波形数据相似度最大的标准波形数据,并确定为匹配波形数据,执行匹配波形数据对应的操作指令,这样,通过设置波形数据与操作指令间的映射关系,在识别唇动图像序列对应的波形数据之后,直接执行波形数据对应的操作指令,而不用识别出唇动图像序列所代表的文字,这样简化了根据唇动图像序列执行预设操作指令的步骤,同时对于有特定功能的设备来说,能够执行的操作是有限的,所以对识别结果精度要求不高,本专利技术通过简单的计算波形数据相似度的方式,就能够从波形数据库中查找出与唇动图像序列对应的标准波形数据,降低了在获取与唇动图像序列对应的标准波形时的计算复杂度,一定程度上减少了计算资源的浪费。 【专利附图】【附图说明】 为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 图1为本专利技术实施例提供的一种基于口型执行预设操作的方法的流程示意图; 图2为本专利技术实施例确定第一直线与第二直线的示意图; 图3为本专利技术实施例提供的另一种基于口型执行预设操作的方法的流程示意图; 图4为本专利技术实施例提供的一种装置的功能示意图; 图5为本专利技术实施例提供的另一种装置的功能示意图; 图6为本专利技术实施例提供的另一种装置的功能示意图。 【具体实施方式】 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。 本专利技术实施例提供了一种基于口型执行预设操作的方法,如图1所示,包括: 101、获取唇动图像序列。 具体的,人在摄像头前变化口型,摄像头对人所做出的口型进行记录,得到一段包括口型变化的视屏信息,将该视频信息确定为唇动图像序列。 需要说明的是,为了保证获取的唇动图像序列能够记录一个完整的口型变化,所以唇动图像序列的时间长度必须不小于最短检测时间。在获取到的唇动图像序列的时间长度小于最短检测时间的情况下,说明获取到的唇动图像序列是无效的,此时可以通过语音提示或者文字提示的方式提醒用户“口型无效,需再次获取”;在获取到的唇动图像序列的时间长度不小于最短检测时间的情况下,说明获取到的唇动图像序列是有效的,此时继续执行步骤102-104本文档来自技高网...
【技术保护点】
一种基于口型执行预设操作的方法,其特征在于,包括:获取唇动图像序列;对所述唇动图像序列进行波形数据提取,获得口型波形数据;从波形数据库中查找出与所述口型波形数据相似度最大的标准波形数据,并确定为匹配波形数据;所述波形数据库预先存储有至少一个标准波形数据,以及与所述至少一个标准波形数据中每一标准波形数据对应的操作指令;执行所述匹配波形数据对应的操作指令。
【技术特征摘要】
【专利技术属性】
技术研发人员:张强,
申请(专利权)人:青岛海信移动通信技术股份有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。