System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及唇语识别的,具体地,涉及中文唇语识别方法及系统。
技术介绍
1、唇语识别或唇读是人机交互(human-computer interaction,hci)中很引人注目的领域,它在自动语言识别(automat ic speech recognition,asr)系统中起着重要作用。人类语言感知是一个很自然的多模态过程。听力受损的人群会充分利用唇语的提示,即使正常人也可以利用视觉信息来增强对语言的理解,特别是在嘈杂环境中。利用视觉通道的信息会有效地提高现代自动语言识别系统的性能和鲁棒性。
2、在公告号为cn102004549b的专利文献中公开了一种自动唇语识别系统,包括:头戴式摄像头、人机交互模块、唇部轮廓定位模块、几何向量获取模块、运动向量获取模块、特征矩阵构造模块、变换矩阵t获取模块、转换特征矩阵获取模块、存储器a、存储器b、典型相关判别分析模块。头戴式摄像头用来录制汉字发音图像序列,通过人机交互模块传输至唇部轮廓定位模块,其使用卷积虚拟静电场snake模型从中检测及跟踪唇部轮廓;几何向量获取模块和运动向量获取模块从唇部轮廓中分别提取出几何和运动特征,并将它们联合起来作为典型相关判别分析模块的输入特征矩阵;典型相关判别分析模块计算特征矩阵间的相似度,处理后获取识别结果。
3、针对上述中的相关技术,专利技术人认为存在唇语识别模型无法有效利用视频中唇部区域的视觉信息的问题,以及级联架构中错误逐级积累的问题。因此,需要提出一种新的技术方案以改善上述技术问题。
技术实现思路
1、针对现有技术中的缺陷,本专利技术的目的是提供一种中文唇语识别方法及系统。根据本专利技术提供的一种中文唇语识别方法,所述方法包括如下步骤:
2、步骤s1:对讲话视频进行预处理,得到连续的嘴唇区域图像序列;
3、步骤s2:将嘴唇区域图像序列输入到唇部区域特征编码器中,得到唇部区域特征编码向量;
4、步骤s3:将唇部区域特征编码向量输入到视频特征编码器中,得到视频特征编码向量;
5、步骤s4:将视频特征编码向量输入到拼音中间表征解码器中,解码得到拼音中间表征序列,计算拼音中间表征序列预测损失;将视频特征编码向量输入到视位中间表征解码器中,解码得到视位中间表征序列,计算视位中间表征序列预测损失;
6、步骤s5:将拼音中间表征序列输入到拼音中间表征编码器中,编码得到拼音中间表征编码向量;将视位中间表征序列输入到视位中间表征编码器中,编码得到视位中间表征编码向量;
7、步骤s6:将视频特征编码向量、拼音中间表征编码向量、视位中间表征编码向量输入到中文讲话内容解码器中,解码得到中文汉语句子的讲话内容,计算中文讲话内容预测损失;
8、步骤s7:根据拼音中间表征序列预测损失、视位中间表征序列预测损失和中文讲话内容预测损失,按比例加权后对唇语识别模型进行优化。
9、优选地,所述步骤s1包括如下步骤:
10、步骤s1.1:将讲话视频以25fps的固定帧率分解为连续图像序列,采用dlib检测工具标注人脸上的68个关键点位坐标;
11、步骤s1.2:利用描绘嘴唇区域的内轮廓和外轮廓的20个点的坐标,计算得到这20个点坐标的均值,以这一均值为中心,裁剪出具有相同尺寸的嘴唇区域图像序列;
12、所述步骤s2包括如下步骤:
13、步骤s2.1:将嘴唇区域图像序列在时间维度上进行拼接,形成三维的嘴唇图像输入数据;
14、步骤s2.2:将所述嘴唇图像输入数据输入到唇部区域特征编码器中,为每一帧图像生成一个特征向量,该特征向量既包含这一帧中嘴唇区域的形状信息,也包含这一帧与周围若干帧之间唇部区域的运动变化信息,所有的特征向量构成唇部区域特征编码向量;所述唇部区域特征编码器由三个连续的卷积神经子网络组成,每一个卷积神经子网络由零填充层、三维卷积层、批处理归一化层、relu激活函数层、随机丢弃层和最大值池化层组成,在经过所述的三个卷积神经子网络的卷积运算后,将得到的特征图谱输入到卷积核为(1,1,1)、步长为(1,1,1)的三维卷积层进行通道数调整,再输入到时间分布式全局最大池化层,为每一帧图像生成具有固定长度的特征向量,所有的特征向量构成该步骤输出的唇部区域特征编码向量。
15、优选地,所述步骤s3将唇部区域特征编码向量输入到视频特征编码器中,得到视频特征编码向量;所述视频特征编码器采用基于transformer的编码器的架构,由位置编码层和三个具有相同结构的编码块组成,所述的编码块由多头自注意力层、第一残差连接与归一化层、前馈神经网络层和第二残差连接与归一化层顺序连接而成;
16、所述步骤s4包括如下步骤:
17、步骤s4.1:将步骤s3中得到的视频特征编码向量作为输入,在经过拼音中间表征解码器解码后,得到拼音中间表征序列的概率输出,解码为拼音中间表征序列;所述的拼音中间表征解码器采用基于transformer的解码器的架构,由三个具有相同结构的解码器块、全连接层和softmax层顺序连接而成,所述的解码器块由带有掩码的多头自注意力层、第一残差连接与归一化层、编码器-解码器多头自注意力层、第二残差连接与归一化层、前馈神经网络层和第三残差连接与归一化层顺序连接而成,视频特征编码向量输入到编码器-解码器多头自注意力层,用以计算自注意力;
18、步骤s4.2:根据步骤s4.1中预测得到的拼音中间表征序列的概率输出和拼音中间表征序列的标签,计算拼音中间表征序列预测损失,损失函数为序列形式的交叉熵损失函数:
19、
20、其中t代表拼音中间表征序列的长度,p(yp)代表拼音中间表征序列标签的概率,代表预测得到的拼音中间表征序列的概率输出;
21、步骤s4.3:将步骤s3中得到的视频特征编码向量作为输入,在经过视位中间表征解码器解码后,得到视位中间表征序列的概率输出,解码为视位中间表征序列;所述的视位中间表征解码器的结构与步骤s4.1中所述的拼音中间表征解码器的结构相同;
22、步骤s4.4:根据步骤s4.3中预测得到的视位中间表征序列的概率输出和视位中间表征序列的标签,计算视位中间表征序列预测损失,损失函数为序列形式的交叉熵损失函数:
23、
24、其中t代表视位中间表征序列的长度,p(yv)代表视位中间表征序列标签的概率,代表预测得到的视位中间表征序列的概率输出。
25、优选地,所述步骤s5包括如下步骤:
26、步骤s5.1:对步骤s4.1得到的拼音中间表征序列进行独热编码,输入到拼音中间表征编码器中,编码得到拼音中间表征编码向量;所述拼音中间表征编码器的架构与步骤s3.1中所述的视频特征编码器的架构相同;
27、步骤s5.2:对步骤s4.3得到的视位中间表征序列进行独热编码,输入到视位中间表征编码器中,编码得到视位中间表征编码向量;所述视位中间表征编码器的架构本文档来自技高网...
【技术保护点】
1.一种中文唇语识别方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的中文唇语识别方法,其特征在于,所述步骤S1包括如下步骤:
3.根据权利要求1所述的中文唇语识别方法,其特征在于,所述步骤S3将唇部区域特征编码向量输入到视频特征编码器中,得到视频特征编码向量;所述视频特征编码器采用基于Transformer的编码器的架构,由位置编码层和三个具有相同结构的编码块组成,所述的编码块由多头自注意力层、第一残差连接与归一化层、前馈神经网络层和第二残差连接与归一化层顺序连接而成;
4.根据权利要求1所述的中文唇语识别方法,其特征在于,所述步骤S5包括如下步骤:
5.根据权利要求1所述的中文唇语识别方法,其特征在于,所述步骤S7包括如下步骤:
6.一种中文唇语识别系统,其特征在于,所述系统包括如下模块:
7.根据权利要求6所述的中文唇语识别系统,其特征在于,所述模块M1包括如下模块:
8.根据权利要求6所述的中文唇语识别系统,其特征在于,所述模块M3将唇部区域特征编码向量输入到视频特征编码器
9.根据权利要求6所述的中文唇语识别系统,其特征在于,所述模块M5包括如下模块:
10.根据权利要求6所述的中文唇语识别系统,其特征在于,所述模块M7包括如下模块:
...【技术特征摘要】
1.一种中文唇语识别方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的中文唇语识别方法,其特征在于,所述步骤s1包括如下步骤:
3.根据权利要求1所述的中文唇语识别方法,其特征在于,所述步骤s3将唇部区域特征编码向量输入到视频特征编码器中,得到视频特征编码向量;所述视频特征编码器采用基于transformer的编码器的架构,由位置编码层和三个具有相同结构的编码块组成,所述的编码块由多头自注意力层、第一残差连接与归一化层、前馈神经网络层和第二残差连接与归一化层顺序连接而成;
4.根据权利要求1所述的中文唇语识别方法,其特征在于,所述步骤s5包括如下步骤:
5.根据权利要求1所述的中文唇语识别方法,其特征在于,所述步骤s7包括如下步骤:
...【专利技术属性】
技术研发人员:王士林,杨磊,何怡,王晗亦,陆千禧,张凯旋,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。