特定场景手语视频的翻译模型训练方法、翻译方法及系统技术方案

技术编号:27217200 阅读:29 留言:0更新日期:2021-02-04 11:35
本发明专利技术公开了一种特定场景手语视频的翻译模型训练方法、翻译方法及系统,属于视频自然语言生成领域。本发明专利技术训练时,首先通过构建的actor

【技术实现步骤摘要】
特定场景手语视频的翻译模型训练方法、翻译方法及系统


[0001]本专利技术属于视频自然语言生成领域,应用于手语视频识别,具体涉及一种特定场景手语视频的翻译模型训练方法、翻译方法及系统。

技术介绍

[0002]我国拥有约达到7200万的语言与听力障碍群体,这个群体使用手语这一工具来进行沟通交流,但手语并未在全社会得到广泛普及,当语言与听力障碍群体进行社会活动时存在诸多不便,目前的公共环境设施、产品设计等往往忽略了这一群体的特殊需求。特别是在一些公共场所诸如车站、机场、民政服务场所,对于不会手语的正常人来说,理解手语的意思是非常困难的。这种情况阻碍了人与人之间的沟通与交流,导致语言与听力障碍人群难以融入到社会中,因此使用计算机视觉技术自动识别手语一直是业界的研究热点。
[0003]近几年,随着5G和人工智能的发展,深度神经网络得到了广泛的应用,这使得计算机视觉技术实时理解手语视频有了新的解决方案。例如申请号为202010176300.0的中国专利公开了一种基于计算机视觉的手语翻译系统,该专利中其利用openpose模型对每个手语视频的数据进行处理,并获取所述关键点在视频画面中的坐标,并逐帧将画面的点坐标输出。申请号为202010243856.7的中国专利公开了一种基于BP神经网络的手语翻译方法,结合神经网络及传感技术实现了手语自动实时翻译识别,其利用树莓派3B通过可穿戴数据手套采集手势电压信号,再将每次收到的手势电压信号通过BP神经网络框架模型转换为手语词语。再如申请号为202010103960.6的中国专利公开了一种基于多层次语义解析的手语翻译系统及方法,其搭建并训练基于循环神经网络的序列转换模型,用于对所述手语动作块特征所构成的序列进行转换,得到一连串解码的单词序列,并使用联结主义时序分类模型对所述单词序列进行翻译,从而输出完整的手语自然语句。
[0004]虽然深度学习、深度强化学习等技术极大提升了视频图像序列的编码和特征提取的效率,但是手语是由一系列连贯的手势动作组成的,语言与听力障碍人士进行手语表达往往以句子为单位,表达完一个完整的长句之后才会出现停顿,因此识别手语需要对连续动态的视频图像序列进行建模,现有技术实际上是通过单帧静态图像简单地对手语视频进行词汇分类,无法对动态连续的手语进行识别,导致翻译的结果不够准确,因此有必要探索新的方法来提高手语视频翻译的准确性。

技术实现思路

[0005]技术问题:本专利技术针对现有对手语视频翻译时,翻译准确性差的问题,提供一种特定场景手语视频的翻译模型训练方法,收集特定场景的数据集,通过对手语视频翻译模型进行有效训练,得到翻译准确性高的手语视频翻译模型,并基于所训练出的手语视频翻译模型,提供一种特定场景手语视频的翻译方法及系统,从而有效地提高了手语视频翻译的准确性。
[0006]技术方案:本专利技术的特定场景手语视频的翻译模型训练方法中手语视频翻译模型
包括过滤网络和深度序列自编码网络,首先通过构建的actor-double-critic深度强化学习训练架构对过滤网络进行训练,再利用训练好的过滤网络筛选出手语视频的关键帧序列集,最后基于深度学习对深度序列自编码网络进行训练;
[0007]训练时,训练过滤网络的方法为:
[0008]步骤1:视频的第一帧默认被选择,将视频的后续帧序列按照每间隔p帧为一组,每一组叫作空间帧子集,所有分组形成动作空间帧集合,依次输入空间帧子集作为动作空间,过滤网络依次在每组空间帧子集里选择一帧;
[0009]步骤2:将第一组空间帧子集进行灰度二值化,平展成一维向量进行拼接,将拼接后的向量作为e-状态S
e
;将已经选择的帧输入二维卷积神经网络,生成帧序列特征向量,将帧序列特征向量作为i-状态Si;
[0010]步骤3:将e-状态S
e
和i-状态S
i
输入过滤网络,过滤网络从动作空间输出动作a,基于动作a选择关键帧,关键帧加入已经选择的帧序列中;
[0011]步骤4:将下一组空间帧子集进行灰度二值化,平展成一维向量进行拼接,将拼接后的向量作为新的e-状态S
e

,同时得到e-奖励R
e
;将已经选择的帧序列输入二维卷积神经网络,生成帧序列特征向量,将帧序列特征向量作为新的i-状态S
i

,同时得到i-奖励R
i

[0012]步骤5:将e-状态S
e
、新的e-状态S
e

、e-奖励R
e
输入external critic网络,得到价值函数Q
e
(S
e
)和Q
e
(S
e

),计算external critic网络的TD误差δ
e
和损失函数loss
e
,并利用损失函数loss
e
作为external critic网络参数的梯度更新;
[0013]步骤6:将i-状态S
i
、新的i-状态S
i

、i-奖励R
i
输入internal critic网络,得到价值函数Q
i
(S
i
)和Q
i
(S
i

),计算internal critic网络的TD误差δ
i
和损失函数loss
i
,并利用损失函数loss
i
作为internal critic网络参数的梯度更新;
[0014]步骤7:计算TD误差δ
e
和δ
i
之和δ,作为过滤网络的损失函数,并根据该损失函数值更新过滤网络的网络参数;
[0015]步骤8:利用新的e-状态S
e

和新的i-状态S
i

分别作为下一次迭代的e-状态S
e
和i-状态S
i
,重复迭代到收敛,得到训练好的过滤网络。
[0016]进一步地,步骤4中,计算e-奖励R
e
的方法为:
[0017]定义视觉独特性指标VU,所述视觉独特性指标包括变化性指标VU1和差异性指标VU2,所述变化性指标VU1用于表示从动作空间帧子集中选出来的帧在整个动作空间帧子集中视觉变化程度;所述差异性指标VU2用于表示选择的关键帧之间的差异性程度,利用如下公式计算e-奖励R
e

[0018][0019]式中,VU
1aug
表示若干次随机试验得到的VU1的动作平均值,VU
2avg
表示若干次随机试验得到的VU2的动作平均值。
[0020]进一步地,计算变化性指标VU1的方法为:
[0021](1)输入的动作空间帧子集,依次将每帧进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特定场景手语视频的翻译模型训练方法,其特征在于,手语视频翻译模型包括过滤网络和深度序列自编码网络,首先通过构建的actor-double-critic深度强化学习训练架构对过滤网络进行训练,再利用训练好的过滤网络筛选出手语视频的关键帧序列集,最后基于深度学习对深度序列自编码网络进行训练;训练时,训练过滤网络的方法为:步骤1:视频的第一帧默认被选择,将视频的后续帧序列按照每间隔p帧为一组,每一组叫作空间帧子集,所有分组形成动作空间帧集合,依次输入空间帧子集作为动作空间,过滤网络依次在每组空间帧子集里选择一帧;步骤2:将第一组空间帧子集进行灰度二值化,平展成一维向量进行拼接,将拼接后的向量作为e-状态S
e
;将已经选择的帧输入二维卷积神经网络,生成帧序列特征向量,将帧序列特征向量作为i-状态S
i
;步骤3:将e-状态S
e
和i-状态S
i
输入过滤网络,过滤网络从动作空间输出动作a,基于动作a选择关键帧,关键帧加入已经选择的帧序列中;步骤4:将下一组空间帧子集进行灰度二值化,平展成一维向量进行拼接,将拼接后的向量作为新的e-状态S
e

,同时得到e-奖励R
e
;将已经选择的帧序列输入二维卷积神经网络,生成帧序列特征向量,将帧序列特征向量作为新的i-状态S
i

,同时得到i-奖励R
i
;步骤5:将e-状态S
e
、新的e-状态S
e

、e-奖励R
e
输入external critic网络,得到价值函数Q
e
(S
e
)和Q
e
(S
e

),计算external critic网络的TD误差δ
e
和损失函数loss
e
,并利用损失函数loss
e
作为external critic网络参数的梯度更新;步骤6:将i-状态S
i
、新的i-状态S
i

、i-奖励R
i
输入internal critic网络,得到价值函数Q
i
(S
i
)和Q
i
(S
i

),计算internal critic网络的TD误差δ
i
和损失函数loss
i
,并利用损失函数loss
i
作为internal critic网络参数的梯度更新;步骤7:计算TD误差δ
e
和δ
i
之和δ,作为过滤网络的损失函数,并根据该损失函数值更新过滤网络的网络参数;步骤8:利用新的e-状态S
e

和新的i-状态S
i

分别作为下一次迭代的e-状态S
e
和i-状态S
i
,重复迭代到收敛,得到训练好的过滤网络。2.根据权利要求1所述的特定场景手语视频的翻译模型训练方法,其特征在于,步骤4中,计算e-奖励R
e
的方法为:定义视觉独特性指标VU,所述视觉独特性指标包括变化性指标VU1和差异性指标VU2,所述变化性指标VU1用于表示从动作空间帧子集中选出来的帧在整个动作空间帧子集中视觉变化程度;所述差异性指标VU2用于表示选择的关键帧之间的差异性程度,利用如下公式计算e-奖励R
e
:式中,VU
1avg
表示若干次随机试验得到的VU1的动作平均值,VU
2avg
表示若干次随机试验得到的VU2的动作平均值。3.根据权利要求2所述的特定场景手语视频的翻译模型训练方法,其特征在于,计算变化性指标VU1的方法为:(1)输入的动作空间帧子集,依次将每帧进行差分,得到两帧之间的帧间差分强度D
q
,用差分强度衡量两帧图像前后变化;
(2)将所有帧按照各自的帧间差分强度D
q
进行排序,并按如下公式对VU1进行幅值:其中,排名前三的赋值为10,排名第四至第六的赋值为5,排名第七到第九的赋值为1,其他的赋值为0;(3)在数据集上进行若干次随机试验,得到每训...

【专利技术属性】
技术研发人员:梅雪钱天成高峻陈玉明秦午阳戈康启
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1