当前位置: 首页 > 专利查询>天津大学专利>正文

唇部图像采集装置、唇语识别系统及在线唇语交互系统制造方法及图纸

技术编号:31700638 阅读:62 留言:0更新日期:2022-01-01 11:01
本发明专利技术公开了一种唇部图像采集装置,包括头戴式面罩、摄像头和信号传输系统;摄像头和信号传输系统嵌入在面罩内;面罩内设有使摄像头与佩戴者唇部之间存在间隙的支撑架;摄像头拍摄采集佩戴者唇部视频图像数据,并将采集的唇部视频图像数据通过信号传输系统向外部设备发送。本发明专利技术还公开了一种唇语识别系统及在线唇语交互系统。本发明专利技术的唇部图像采集装置利用嵌入式摄像头对唇部及附近区域进行摄像采集,相比目前普遍使用的远距离固定位置采集方式,这种面罩具有稳定性高,抗干扰能力强等优点。本发明专利技术的唇语识别系统,可解决现有的时序特征提取结构往往具有结构复杂易产生过拟合、位置信息学习效果较差等缺陷。位置信息学习效果较差等缺陷。位置信息学习效果较差等缺陷。

【技术实现步骤摘要】
唇部图像采集装置、唇语识别系统及在线唇语交互系统


[0001]本专利技术涉及一种涉及人机交互、深度学习、语音通信、自然语言等领域,特别涉及一种唇部图像采集装置、唇语识别系统及在线唇语交互系统。

技术介绍

[0002]目前,人与人、人与物之间的交流、交互几乎都是通过发声系统来完成的,而在一些特定场景下,人们无法直接通过空气等介质进行信息交互,因此如何让机器具备人体器官功能识别出人所想表达的意图成为了机器学习、计算机技术等领域的重要研究课题之一。近年来,这一领域采用的方法主要是利用图像和肌电等模态信号进行说话识别,虽然在部分场景下精准度不如音频信号,但是得益于其不发声、不易察觉的特点,缄默通信相关技术被广泛用于医疗康复、助残养老、特种作战等领域,其应用价值非常广阔。而缄默通信技术中最为重要的组成部分就是唇语识别技术,也叫唇读技术。唇语识别是一种利用人嘴唇动作的变化来判断说话人意图的方法,唇语识别技术从早期的手动提取特征并局限于小部分的文本集,逐渐发展成为一个拥有大规模数据集、广泛应用深度学习框架、多模态交叉融合识别的成熟系统。
[0003]一个成熟稳定的识别系统离不开大规模的数据,而对大规模数据的拟合则需要一个合理高效的模型,由于近年来深度学习在诸多任务中都展现出良好性能,因此如何在现有的深度学习模型框架下对部分结构进行了改进,从而让唇语识别技术可以有更高效的性能,是本专利技术要解决的技术问题。

技术实现思路

[0004]本专利技术为解决公知技术中存在的技术问题而提供一种唇部图像采集装置、唇语识别系统及在线唇语交互系统。
[0005]本专利技术为解决公知技术中存在的技术问题所采取的技术方案是:一种唇部图像采集装置,包括头戴式面罩、摄像头和信号传输系统;摄像头和信号传输系统嵌入在面罩内;面罩内设有使摄像头与佩戴者唇部之间存在间隙的支撑架;摄像头拍摄采集佩戴者唇部视频图像数据,并将采集的唇部视频图像数据通过信号传输系统向外部设备发送。
[0006]进一步地,面罩采用遮光材料制作。
[0007]进一步地,信号传输系统为无线信号传输系统。
[0008]进一步地,支撑架为弧形支撑架。
[0009]本专利技术还提供了一种唇语识别系统,该唇语识别系统包括上述的唇部图像采集装置。
[0010]进一步地,该唇语识别系统还包括采用python编程语言、多进程实现库及前端界面框架Tkinter搭建的数据处理系统;数据处理系统,其包括用于识别唇语的深度学习模型,其将唇部图像采集装置采集的唇部视频图像数据,通过深度学习模型进行唇语识别。
[0011]进一步地,深度学习模型包括前端网络和后端网络;前端网络包括残差网络;后端
网络包括依次连接的双向GRU和Transformer

Decoder;前端网络用于提取唇部图像数据的空域特征;后端网络输入前端网络提取的空域特征,进一步对空域特征进行时序特征的提取,最后通过全连接层输出唇语指令。
[0012]进一步地,Transformer

Decoder以单个汉字作为基本单元,统计每两个字之间同时出现的频率,在预测时把统计概率与分类概率进行加和,对预测结果进行修正。
[0013]进一步地,数据处理系统还包括图像预处理单元;图像预处理单元将摄像头拍摄采集的每秒50帧~60帧的彩色视频数据,每帧图像大小为360*640~640*720像素点,把图像裁剪为360X360尺寸大小,再将裁剪后的图像通过双线性插值法压缩为88X88尺寸,同时转换为灰度图像。
[0014]本专利技术还提供了一种在线唇语交互系统,该在线唇语交互系统分为客户端和服务端两部分,服务端包括上述的唇语识别系统;服务端采集佩戴面罩者的唇部视频图像数据并识别出其唇语指令;然后通过socket框架把唇语指令传输到客户端,客户端的接收者按照接收到的唇语指令完成相应动作。
[0015]本专利技术具有的优点和积极效果是:
[0016]本专利技术的一种唇部图像采集装置一方面提供了一种头戴式数据采集面罩设备,这种面罩设备利用嵌入式摄像头对唇部及附近区域进行摄像采集,相比目前普遍使用的远距离固定位置采集方式,这种面罩具有稳定性高,抗干扰能力强等优点。使用面罩时,说话人可以随意走动,灵活性也较高。面罩对于外部光源可以进行有效阻挡,从而排除周围环境可能造成的背景干扰;面罩采用头戴式,相比普通摄像头采集到的唇部信息更细致,也不会出现唇部区域缺失的情况。
[0017]本专利技术的一种唇语识别系统,鉴于现有的时序特征提取结构往往具有结构复杂易产生过拟合、位置信息学习效果较差等缺陷,本专利技术提出的基于BGRU和Transformer

Decoder模型可以有效解决上述问题而且识别性能有明显提升。
[0018]本专利技术的在线唇语交互系统可实现通过采集唇部视频图像并识别为唇语指令,从而实现服务端和客户端的交互。
附图说明
[0019]图1是本专利技术所提供的一种基于循环神经网络和Transformer

Decoder的唇语识别技术示意图。
[0020]图2是本专利技术所提供的唇语识别深度学习模型结构示意图。
[0021]图3是数据采集面罩示意图。
具体实施方式
[0022]为能进一步了解本专利技术的
技术实现思路
、特点及功效,兹列举以下实施例,并配合附图详细说明如下:
[0023]图中及文中英文单词及缩写的中文释义如下:
[0024]Python:一种提供了诸多简洁强大而高效数据结构的高级编程语言,常被用于数据分析和处理等。
[0025]Tkinter:一种基于python标准设计的UI界面框架接口,本专利技术主要用于生成数据
采集系统前端界面。
[0026]Transformer

Decoder:经典时序结构网络transformer的自回归解码器部分,可用于生成本专利技术中图像数据每个时间节点对应的文本结果。
[0027]GRU:循环门限结构单元,主要用于长短时信号的学习,本专利技术中被用作图像特征的编码器用于提取特征。
[0028]BGRU:双向循环门限结构单元,它是一种基于循环神经网络RNN改进而来的记忆循环神经网络。
[0029]ReLU:线性整流函数(Rectified Linear Unit,ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function)。
[0030]Socket框架:用于在两个基于TCP/IP协议的应用程序之间相互通信的框架。
[0031]FC:全连接层。
[0032]Softmax:一种回归模型,用于多类别分类。
[0033]Conv2D:二维卷积。
[0034]ResNet:残差网络。
[0035]ResNet18:残差18网络。
[0036]BGRU+Decoder:双向GRU网络和Transf本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种唇部图像采集装置,其特征在于,包括头戴式面罩、摄像头和信号传输系统;摄像头和信号传输系统嵌入在面罩内;面罩内设有使摄像头与佩戴者唇部之间存在间隙的支撑架;摄像头拍摄采集佩戴者唇部视频图像数据,并将采集的唇部视频图像数据通过信号传输系统向外部设备发送。2.根据权利要求1所述的唇部图像采集装置,其特征在于,面罩采用遮光材料制作。3.根据权利要求1所述的唇部图像采集装置,其特征在于,信号传输系统为无线信号传输系统。4.根据权利要求1所述的唇部图像采集装置,其特征在于,支撑架为弧形支撑架。5.一种唇语识别系统,其特征在于,该唇语识别系统包括权利要求1至4任一所述的唇部图像采集装置。6.根据权利要求5所述的唇语识别系统,其特征在于,该唇语识别系统还包括采用python编程语言、多进程实现库及前端界面框架Tkinter搭建的数据处理系统;数据处理系统,其包括用于识别唇语的深度学习模型,其将唇部图像采集装置采集的唇部视频图像数据,通过深度学习模型进行唇语识别。7.根据权利要求6所述的唇语识别系统,其特征在于,深度学习模型包括前端网络和后端网络;前端网络包括残差网络;后端网络包括依次连接的双向GRU和Transformer...

【专利技术属性】
技术研发人员:罗韬杨恒史再峰
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1