System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 手语翻译方法、装置、设备、存储介质及程序产品制造方法及图纸_技高网

手语翻译方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:43173408 阅读:3 留言:0更新日期:2024-11-01 20:02
本发明专利技术公开了一种手语翻译方法、装置、设备、存储介质及程序产品,该方法包括:获取用户的手部动作数据和面部动作数据;根据所述手部动作数据、所述面部动作数据以及预设的场景参数,通过预先训练的手语语音翻译模型,生成并输出语音数据;其中,所述场景参数用于调整所述手语语音翻译模型生成的语音数据的音频参数;本发明专利技术通过同时采集用户的手部动作和面部动作,由手部动作表达语义内容,面部动作表表达情感内容,结合预设场景参数可以让翻译语音在有情感表达的基础上,更多体现出设定场景的特点,提升合成语音的情感表现力,实现翻译语音的情感跟随。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种手语翻译方法、装置、设备、存储介质及程序产品


技术介绍

1、目前,手语翻译大部分是采用分阶段翻译转换的方式进行,例如先将手语转换为文本,再将文本转换为语音,最后进行语音播报。在这个过程中,由于将手语转换为文本阶段,只会保留最基础的语义信息,导致最后语音播报时语音听感生硬,影响手语说话人与其他人互动对话的体验。


技术实现思路

1、针对现有技术存在的问题,本专利技术实施例提供一种手语翻译方法、装置、设备、存储介质及程序产品,其能提升手语翻译后合成语音的表现力。

2、第一方面,本专利技术实施例提供了一种手语翻译方法,包括:

3、获取用户的手部动作数据和面部动作数据;

4、根据所述手部动作数据、所述面部动作数据以及预设的场景参数,通过预先训练的手语语音翻译模型,生成并输出语音数据;

5、其中,所述场景参数用于调整所述手语语音翻译模型生成的语音数据的音频参数。

6、作为上述方案的改进,所述根据所述手部动作数据、所述面部动作数据以及预设的场景参数,通过预先训练的手语语音翻译模型,生成并输出语音数据,包括:

7、分别对所述手部动作数据和所述面部动作数据进行预处理,生成所述手部动作数据对应的第一特征矩阵和所述面部动作数据对应的第二特征矩阵;

8、将所述第一特征矩阵、所述第二特征矩阵和所述场景参数输入到所述手语语音翻译模型,生成并输出所述语音数据。

9、作为上述方案的改进,所述分别对所述手部动作数据和所述面部动作数据进行预处理,生成所述手部动作数据对应的第一特征矩阵和所述面部动作数据对应的第二特征矩阵,包括:

10、将所述手部动作数据中的若干帧手部动作图像分别输入到预设的全连接神经网络模型,得到相应手部动作图像的第一特征向量;

11、将所有所述的第一特征向量进行连接,得到第一特征矩阵;

12、将所述面部动作数据中的若干帧面部动作图像分别输入到所述全连接神经网络模型,得到相应面部动作图像的第二特征向量;

13、将所有所述第二特征向量进行连接,得到第二特征矩阵。

14、作为上述方案的改进,所述获取用户的手部动作数据和面部动作数据,包括:

15、对当前录制的所述用户的手部动作视频和面部动作视频,采用预设的滑动窗口进行图像采样和组装,得到所述手部动作数据和所述面部动作数据;

16、其中,所述手部动作数据中的各帧手部动作图像与和所述面部动作数据中的各帧手部动作图像帧对齐。

17、作为上述方案的改进,所述音频参数包括音高、音调、音速和音律;所述场景参数包括场景类别;其中,不同的所述场景参数所对应音频参数不同。

18、作为上述方案的改进,所述方法还包括以下所述手语语音翻译模型的训练过程:

19、采集不同场景类别下多个目标对象的手语音视频数据;

20、从所述手语音视频对象中获取帧对齐的手部动作训练视频、面部动作训练视频和语音训练数据,得到若干个训练数据;

21、对所述训练数据中的手部动作训练视频和面部动作训练视频进行预处理,生成所述手部动作训练视频的第三特征矩阵和所述面部动作训练视频的第四特征矩阵;

22、将所述训练数据中的语音训练数据转换梅尔谱序列;

23、对所述训练数据所属的场景类别对应的音频参数进行向量化处理,得到音频嵌入向量;

24、将所述第三特征矩阵、所述第四特征矩阵、所述音频嵌入向量输入到所述手语语音翻译模型,将所述梅尔谱序列作为所述手语语音翻译模型的输出监督,对所述手语语音翻译模型进行训练直至满足预设的训练条件,得到训练好的手语语音翻译模型。

25、第二方面,本专利技术实施例提供了一种手语翻译装置,包括:

26、数据获取模块,用于获取用户的手部动作数据和面部动作数据;

27、语音生成模块,用于根据所述手部动作数据、所述面部动作数据以及预设的场景参数,通过预先训练的手语语音翻译模型,生成并输出语音数据;

28、其中,所述场景参数用于调整所述手语语音翻译模型生成的语音数据的音频参数。

29、第三方面,本专利技术实施例提供了一种手语翻译设备,包括:处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的手语翻译方法。

30、第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面中任意一项所述的手语翻译方法。

31、第五方面,本专利技术实施例提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如第一方面中任意一项所述的手语翻译方法。

32、相对于现有技术,本专利技术实施例的一种手语翻译方法、装置、设备、存储介质及程序产品,通过获取用户的手部动作数据和面部动作数据;然后根据所述手部动作数据、所述面部动作数据以及预设的场景参数,通过预先训练的手语语音翻译模型,生成并输出语音数据;其中,所述场景参数用于调整所述手语语音翻译模型生成的语音数据的音频参数,从而使得翻译后播放的语音具有符合当前场景,提升手语翻译后合成语音的表现力,避免合成语音听感生硬,进而提升手语说话人与其他人互动对话的体验。

本文档来自技高网...

【技术保护点】

1.一种手语翻译方法,其特征在于,包括:

2.如权利要求1所述的手语翻译方法,其特征在于,所述根据所述手部动作数据、所述面部动作数据以及预设的场景参数,通过预先训练的手语语音翻译模型,生成并输出语音数据,包括:

3.如权利要求2所述的手语翻译方法,其特征在于,所述分别对所述手部动作数据和所述面部动作数据进行预处理,生成所述手部动作数据对应的第一特征矩阵和所述面部动作数据对应的第二特征矩阵,包括:

4.如权利要求1所述的手语翻译方法,其特征在于,所述获取用户的手部动作数据和面部动作数据,包括:

5.如权利要求1所述的手语翻译方法,其特征在于,所述音频参数包括音高、音调、音速和音律;所述场景参数包括场景类别;其中,不同的所述场景参数所对应音频参数不同。

6.如权利要求1所述的手语翻译方法,其特征在于,所述方法还包括以下所述手语语音翻译模型的训练过程:

7.一种手语翻译装置,其特征在于,包括:

8.一种手语翻译设备,其特征在于,包括:处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的手语翻译方法。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的手语翻译方法。

10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6中任意一项所述的手语翻译方法。

...

【技术特征摘要】

1.一种手语翻译方法,其特征在于,包括:

2.如权利要求1所述的手语翻译方法,其特征在于,所述根据所述手部动作数据、所述面部动作数据以及预设的场景参数,通过预先训练的手语语音翻译模型,生成并输出语音数据,包括:

3.如权利要求2所述的手语翻译方法,其特征在于,所述分别对所述手部动作数据和所述面部动作数据进行预处理,生成所述手部动作数据对应的第一特征矩阵和所述面部动作数据对应的第二特征矩阵,包括:

4.如权利要求1所述的手语翻译方法,其特征在于,所述获取用户的手部动作数据和面部动作数据,包括:

5.如权利要求1所述的手语翻译方法,其特征在于,所述音频参数包括音高、音调、音速和音律;所述场景参数包括场景类别;其中,不同的所述场景参数所对应音频参数不同。

6...

【专利技术属性】
技术研发人员:车浩
申请(专利权)人:咪咕文化科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1