一种基于多层级注意力扩散模型的手语骨骼点序列生成方法技术

技术编号：42699771 阅读：0 留言：0更新日期：2024-09-13 11:55

一种基于多层级注意力扩散模型的手语骨骼点序列生成方法，包括：获取手语图片中人的上半身和手部关键点和相对应的Gloss数据，将获取的高维度手语关键点数据映射到低维度空间中，将原始的手语序列帧数据转换为更紧凑、更具有表征性的隐空间表征Latent。同时，将Gloss数据由文本序列处理为向量形式，输入深度学习模型Gloss‑Based Latent Space Predictor(GLSP)，预测得到手语关键点的隐空间表征Latent。将所述生成的隐空间表征Latent输入正向扩散模型，采用分区域冻结网络的训练方式，通过逐渐添加高斯噪声的方式来对原始数据进行破坏，随后在反向扩散阶段，通过学习逆转扩散过程，进而从噪声数据中恢复原始输入数据，利用生成模型去预测原始手语骨骼点分布；生成手语骨骼点序列具有连贯性强、语义准确的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种人机交互方法，具体地说是一种基于多层级注意力扩散模型的手语骨骼点序列生成方法。

技术介绍

1、手语作为一种视觉手势语言，通过手势和肢体运动传递信息，是听力障碍者与外界交流的方式。手语实时通信已成为当前计算机视觉与自然语言处理领域的一个重要课题。精确的手语视频生成可显著提升听障人士和聋人的交流质量，帮助残障人士更好的融入当今社会。手语骨骼点序列视频生成的目标是将口语句子翻译成人类能够理解的个性化的手语骨骼点序列视频。

2、目前，手语骨骼点序列视频生成主要分为基于动画合成以及基于深度学习两种。基于动画合成方法生成手语视频具有操作便捷和效率高的优势，但其依赖于大规模手语动画数据库的构建，且动画视频缺乏动作执行的逼真细节，合成动画的可理解性仍然受到人工设计的外观和动作的影响。因此，越来越多的研究开始探索更加灵活自然的手语生成方案。

3、手语生成的研究是将手语词汇转化为手势动作的过程，这相比于手语识别领域更具有挑战性。目前最受关注且应用最广的是基于transformer的研究，zelinka等人[zelinka j,kanis j.neural sign language synthesis:words are our glosses[c]//proceedings of the ieee/cvf winter conference onapplicationsofcomputervision.2020:3395-3403]在文本序列与手语序列之间构建了一个较为简单的transformer架构，为

4、随着扩散模型的不断发展，其已在手语生成领域中取得一定成果。如xie等人[xiep,zhang q,taiying p,et al.g2p-ddm:generating sign pose sequence from glosssequence with discrete diffusion model[c]//proceedings oftheaaai conferenceonartificial intelligence.2024,38(6):6234-6242]首次采用变分自动编码器(vae)对手语序列进行隐空间先验知识建模，随后利用扩散模型来模拟文本序列与隐空间特征之间的映射关系。这一方法有效缓解了映射网络构建中的困难，从而能够生成更高质量、更自然的手语姿态序列。另一方面，fang等人[sen fang,chunyu sui,xuedong zhang,and yapengtian.2023.signdiff:learn-ing diffusion models for american sign languageproduction.arxiv preprint arxiv:2308.16082(2023)]采用transformer模型进行手语序列的预测，随后利用扩散模型学习真实人类图片的特征，进而实现了对手语序列的风格迁移。

5、然而上述方法在处理手语序列过程中过于关注手语序列中的时序信息，忽略了手势的位置、动作等局部信息，导致手语动作准确度低、语义信息不明显等问题。

技术实现思路

1、为了克服上述现有技术存在的问题，本专利技术的目的在于提供一种基于多层级注意力扩散模型的手语骨骼点序列生成方法，利用glsp预测的手语隐空间表征作为条件来指导haunet-diffusion生成手语视频，缓解了手语动作准确性低和生成结果中语义信息模糊的问题；利用hierarchicalattentive unet(haunet)增强特征的空间感知信息，获得更丰富的手语骨骼点位置信息，减少了信息丢失等问题；glsp由区域特征提取器rfe和全局感知器gp组成，缓解了以往手语视频生成中对gloss全局语义信息理解不足的问题，进而获得了语义信息更丰富的手语隐藏空间表征；本专利技术解决了现有生成方法所生成视频手语动作准确度低、语义信息不明显等问题。

2、为了实现上述目的，本专利技术采用的技术方案如下：

3、一种基于多层级注意力扩散模型的手语骨骼点序列生成方法，具体包括以下步骤：

4、步骤1、获取一组供参考的手语图像以及相应的gloss文本数据；

5、步骤2、提取步骤1中供参考的手语图像中的目标手语姿态的二维骨骼序列，截取上身关节点以及左右手的关节点；

6、同时将二维图像中提取的手部关键点映射到三维空间中，以在缺失的关键点位置生成合理的三维坐标，通过观察三维数据的分布，对异常和错误关节处的骨骼信息进行数据清洗后，得到三维手语关键点序列，用于生成手语视频；

7、s＝(s1,s2,...,sn)∈rn*k(1)

8、其中，s、n、k分别表示手语序列、序列长度、手语骨骼点数量。

9、步骤3、将步骤2获取的三维手语关键点数据映射到低维度空间中，提取关键信息，将原始的手语序列帧数据转换为latent空间表征；

10、步骤4、将步骤1中离散的gloss文本数据转换为密集的低维向量表示：

11、步骤4、将步骤1中离散的gloss文本数据转换为密集的低维向量表示：

12、通过一个gloss-basedlatentspacepredictor(基于gloss的隐空间预测器：glsp)模型来预测手语关键点的latent空间表示，以获取更为全面的gloss特征信息；在基于gloss的隐空间预测器glsp中，利用一个glosssemanticenhancer(gloss语义增强器模块：gse)，用于加强gloss语义信息的理解与处理；在gse中，包括regionalfeatureextractor(区域特征提取器：rfe)和global perceptron(全局感知器：gp)；先通过regionalfeatureextractor(区域特征提取本文档来自技高网...

【技术保护点】

1.一种基于多层级注意力扩散模型的手语骨骼点序列生成方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的手语骨骼点序列生成方法，其特征在于，步骤3所述将三维的手语关键点数据映射到低维度空间，采用多层感知机(MLP)作为手语序列帧编码器，将原始的手语序列帧数据转换为隐空间表征Latent。

3.根据权利要求2所述的手语骨骼点序列生成方法，其特征在于，所述Latent空间表征包含手语序列帧中的时空结构信息，并将其作为条件信息，指导后续HAUnet-Diffusion模型进行手语序列生成。

4.根据权利要求1所述的手语骨骼点序列生成方法,其特征在于，步骤4中，将步骤1中离散的Gloss文本数据TG转换为密集的低维向量表示Tv，具体表示如下：

5.根据权利要求1所述的手语骨骼点序列生成方法,其特征在于，步骤5中将生成的隐空间表征Latent输入扩散模型，采用分区域冻结网络的训练方式，通过逐渐添加高斯噪声来对原始数据进行破坏。

6.根据权利要求5所述的手语骨骼点序列生成方法,其特征在于，所述将生成的隐空间表征Latent

7.根据权利要求1所述的手语骨骼点序列生成方法,其特征在于，步骤5所述反向去噪中，通过学习逆转扩散过程，进而从噪声数据中恢复原始输入数据，利用生成网络预测原始手语骨骼点分布及视频图像：

8.根据权利要求1所述的手语骨骼点序列生成方法,其特征在于，步骤5所述的扩散模型中，包括HAUnet-Diffusion网络和Dimension Reduction Module(数据降维模块：DimRed)；

9.根据权利要求8所述的手语骨骼点序列生成方法,其特征在于，采用分区域冻结网络的方式，将训练好的HAUnet-Diffusion网络分为手语编码与Diffusion加噪两部分，通过分别冻结这两部分来训练生成手语骨骼点序列；将手语编码部分冻结，开放Diffusion加噪部分协同到GLSP模块中。

...

【技术特征摘要】

1.一种基于多层级注意力扩散模型的手语骨骼点序列生成方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的手语骨骼点序列生成方法，其特征在于，步骤3所述将三维的手语关键点数据映射到低维度空间，采用多层感知机(mlp)作为手语序列帧编码器，将原始的手语序列帧数据转换为隐空间表征latent。

3.根据权利要求2所述的手语骨骼点序列生成方法，其特征在于，所述latent空间表征包含手语序列帧中的时空结构信息，并将其作为条件信息，指导后续haunet-diffusion模型进行手语序列生成。

4.根据权利要求1所述的手语骨骼点序列生成方法,其特征在于，步骤4中，将步骤1中离散的gloss文本数据tg转换为密集的低维向量表示tv，具体表示如下：

5.根据权利要求1所述的手语骨骼点序列生成方法,其特征在于，步骤5中将生成的隐空间表征latent输入扩散模型，采用分区域冻结网络的训练方式，通过逐渐添加高斯噪声来对原始数据进行破坏。

6.根据权利要求5所述的手语骨骼点序列生成方法,其特征在于，所述将生成的隐空间表征latent输入扩散模型后，对手语关键点数据逐渐添加高斯噪声进行破坏，至在噪声图中看不到原...

【专利技术属性】
技术研发人员：苗启广，冯冠文，刘安，李宇楠，冯清扬，马健歆，李超能，潘治文，石程，刘如意，王泉，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人