本发明专利技术提供一种中文唇读识别方法及装置,该方法包含:构建一拼音识别子模型,该拼音识别子模型接收连续视频帧的嘴唇图像作为输入,将该嘴唇图像转换为拼音序列;构建一汉字识别子模型,将所述汉字识别子模型与所述拼音识别子模型输出端连接,该汉字识别子模型接收所述拼音序列作为输入,将该拼音序列转换为汉字序列;将预训练好的所述拼音识别子模型、所述汉字识别子模型结合,构建一唇读模型并进行联合优化训练,所述唇读模型输出预测对应的中文句子。该方法克服了嘴唇图像到汉字序列直接翻译时存在的模糊性,显著提高中文唇读识别模型的准确率和鲁棒性。
【技术实现步骤摘要】
本专利技术属于唇读识别,具体涉及一种基于坐标注意力和自注意力机制的中文唇读识别方法及装置。
技术介绍
1、唇读识别技术,作为一种非语音信息获取技术,通过观察说话人的嘴型变化来解读言语。该技术在辅助听障人士社交互动和智能安防监控等领域具有广泛应用。随着人工智能技术的发展,特别是深度学习的应用,唇读识别的准确率已显著提高。然而,相对于英文唇读识别来说,由于中文唇读面临更为复杂的挑战,包括丰富的同音字、多音字和相似口型对应不同汉字等,中文唇读识别准确率要比英文唇读要低的多。以目前公开的两个最大的词级别的唇读数据集lrw和cas-vsr-w1k为例,在数据集lrw的实验结果准确率最高可达94.1%,而在数据集cas-vsr-w1k的实验结果准确率尚未超过55.6%。
2、那么,如果想进一步提高中文唇读识别准确率,亟待解决以下三个问题:首先要利用深度学习模型从每一帧嘴唇图像精确地捕捉到复杂的时间和空间特征,然后再利用序列处理模型有效处理跨帧的时间依赖性,最后针对中文语言特点构建一个比现有识别率高且鲁棒性能高的唇读模型。
技术实现思路
1、针对现有技术的不足,本专利技术提出一种中文唇读识别方法及装置,该方法特别考虑了中文的发音规则和语法特征,搭建拼音识别子模型将嘴唇图像转换为拼音序列,搭建汉字识别子模型将该拼音序列转换为汉字序列,并结合上述两模型搭建端到端的唇读模型,进行完整中文句子的精准预测。
2、为了实现上述目的,本专利技术一方面提供一种中文唇读识别方法,包含:p>3、构建一拼音识别子模型,该拼音识别子模型接收连续视频帧的嘴唇图像作为输入,将该嘴唇图像转换为拼音序列;
4、构建一汉字识别子模型,将所述汉字识别子模型与所述拼音识别子模型输出端连接,该汉字识别子模型接收所述拼音序列作为输入,将该拼音序列转换为汉字序列;
5、将预训练好的所述拼音识别子模型、所述汉字识别子模型结合,构建一唇读模型并进行联合优化训练,所述唇读模型输出预测对应的中文句子。
6、在一些实施例中,所述拼音识别子模型包含:
7、3d-cnn模块,用于以连续视频帧的嘴唇图像为输入,提取得到嘴唇特征向量。该3d-cnn模块解决了多帧嘴唇图像之间的关联信息,以连续的多帧作为输入,增加了时间维度的信息,能够提取到更具表达性的特征。
8、ca-resnet模块,与该3d-cnn模块输出端连接,用于以嘴唇特征向量为输入,定位唇部区域,并捕获唇部运动的空间信息和方向感知,提取关键唇形特征。该ca-resnet模块通过在resnet模块(如resnet-18)引入坐标注意力ca,能够更加精准地定位唇部区域,并捕获唇部运动的细微变化,从而来提取关键的唇形特征。通过捕获唇部运动的空间信息和方向感知,来提高唇读识别的准确性。
9、双层lstm模块,与该ca-resnet模块输出端连接,用于以关键唇形特征为输入,对提取的关键唇形特征进行编码和解码,将嘴唇图像依次有序转换成拼音序列。使用双层lstm网络对3d-cnn模块与ca-resnet模块构成的浅层网络提取的唇形特征进行编码和解码,保证特征的完整性和丰富性。
10、在一些实施例中,所述拼音识别子模型采用ctc损失函数对所述双层lstm模块输出的拼音序列进行的自动对齐和误差计算,调整更新并优化模型参数。
11、在一些实施例中,所述汉字识别子模型包含:
12、编码器模块(encoder),由两层gru单元和第一自注意力机制单元组成;
13、解码器模块(decoder),由两层gru单元和第二自注意力机制单元组成。
14、该汉字识别子模型利用两层gru单元同时处理正向和反向的序列信息,捕捉序列数据中的长期依赖关系,提高预测的准确度。同时,encoder与decoder分别利用一个独立的第一自注意力机制单元att
e和第二自注意力机制单元att
d来增强模型训练。
15、在一些实施例中,在该编码器模块的训练过程中,编码器模块将拼音序列
c=c
1
,
c
2
,…,c
i转换到嵌入空间;
16、通过加权连接计算得到输出向量序列
o=o
1
,o
2
,…o
i,该输出向量序列的每个输出向量
o
i用于参数化下一个可能输入的预测分布
pr(c
i+1|
o
i);
17、以最大限度地提高训练序列的总对数概率值为目标。
18、在一些实施例中,在该解码器模块的训练过程中,以汉字序列为输入,由两层gru单元和第二自注意力机制单元,通过注意力向量、输出向量、状态向量混合生成上下文汉字向量,该上下文汉字向量包含了生成下一个时间步输出的所需信息;
19、通过全连接层和softmax计算汉字输出概率分布。
20、在一些实施例中,上下文汉字向量表示为:
21、
22、该汉字输出概率分布表示为:其中,在每一时间步
k中,以汉字序列的第t个分量为输入,
t
k、
g
k、
r
k分别为输出向量、状态向量、上下文向量,
e
k为输出值,表示注意力向量,
e
k为输出值。
23、在一些实施例中,在构建端到端唇读模型过程中,将预训练好的所述拼音识别子模型、所述汉字识别子模型结合之前,先移除所述拼音识别子模型中的ctc损失函数。然后,将所述拼音识别子模型、所述汉字识别子模型结合在一起构成端到端的唇读模型并进行联合优化训练。且在将所述拼音识别子模型、所述汉字识别子模型结合时,将所述拼音识别子模型后端的该双层lstm模块的输出特征向量作为所述汉字识别子模型的编码器模块的输入。
24、本专利技术另一方面还提供了一种中文唇读识别装置,采取上述的中文唇读识别方法,所述装置至少包含:
25、拼音识别子模型构建模块,用于该拼音识别本文档来自技高网
...
【技术保护点】
1.一种中文唇读识别方法,其特征在于,包含:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求2所述的方法,其特征在于,
4.根据权利要求1所述的方法,其特征在于,
5.根据权利要求4所述的方法,其特征在于,
6.根据权利要求4所述的方法,其特征在于,
7.根据权利要求6所述的方法,其特征在于,其中:
8.根据权利要求3所述的方法,其特征在于,将预训练好的所述拼音识别子模型、所述汉字识别子模型结合之前,先移除所述拼音识别子模型中的CTC损失函数。
9.根据权利要求8所述的方法,其特征在于,
10.一种中文唇读识别装置,其特征在于,采取权利要求1-9任一项所述的中文唇读识别方法,所述装置至少包含:
【技术特征摘要】
1.一种中文唇读识别方法,其特征在于,包含:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求2所述的方法,其特征在于,
4.根据权利要求1所述的方法,其特征在于,
5.根据权利要求4所述的方法,其特征在于,
6.根据权利要求4所述的方法,其特征在于,
7.根据权利要求6所述的...
【专利技术属性】
技术研发人员:胡倩,刘媛,曼苏尔汗,曹凤,张艳萍,王博,
申请(专利权)人:齐鲁理工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。