一种自然语音翻译系统技术方案

技术编号：42372418 阅读：16 留言：0更新日期：2024-08-16 14:55

本申请公开了一种自然语音翻译系统，包括：交互界面将用户提交的语音数据存储到数据存储服务，语音数据至少包括待翻译语音；模块化算法服务从数据存储服务中拉取语音数据进行人声检测，根据人声检测结果判断待翻译语音满足预置要求后，对待翻译语音进行语音识别、副语言识别和文本翻译，得到带副语言信息的翻译文本；调用文本语言模型提取带副语言信息的翻译文本的语义特征，调用多模态语音模型对待翻译语音和语义特征进行处理生成具有副语言信息和多模态语音信息的翻译后语音数据，并将翻译后语音数据提交到交互界面进行展示，实现了语音翻译时，支持副语言和多模态语音信息的自然语音生成，使得语音翻译效果更加贴近原说话人的说话特征和环境。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音处理，尤其涉及一种自然语音翻译系统。

技术介绍

1、近年来，一方面，文本转语音技术取得了突破性的进展，在直播带货、科普、客服等业务场景都得到了广泛应用。配合相关的声音克隆、智能问答等技术，普通用户可以通过文字转语音完成在线交流、短视频配音等媒体生产工作。另一方面，在国内对外贸易、文化宣传新格局下，对外贸易、企业出海、国内外文化交流的需求与日俱增，但国内外由于语言差异导致沟通不便，造成国内外交流缓慢，语音翻译技术作为打破不同国家间交流的语言障碍，具有非常显著的经济价值和应用潜力。

2、现有的语音翻译技术仅实现语音翻译功能，没有保留原语音说话人的音色、情绪及说话风格等特征，也不支持副语言（如笑声、哭声等）及多模态（唱歌、悄悄话）的自然语音生成，使得生成的翻译后语音效果单一、不够自然、生动。

技术实现思路

1、本申请提供了一种自然语音翻译系统，用于改善现有的语音翻译技术不支持副语言及多模态的自然语音生成，使得生成的翻译后语音效果单一、不够自然、生动的技术问题。

2、有鉴于此，本申请第一方面提供了一种自然语音翻译系统，包括：交互界面、数据存储服务和模块化算法服务；

3、所述交互界面，用于将用户提交的语音数据存储到所述数据存储服务，所述语音数据至少包括待翻译语音；

4、所述模块化算法服务，用于从所述数据存储服务中拉取所述语音数据，对所述待翻译语音进行人声检测，在根据人声检测结果判断所述待翻译语音满足预置要求后，对所述待翻译语音进行

5、调用文本语言模型提取带副语言信息的翻译文本的语义特征，调用多模态语音模型对所述待翻译语音和所述语义特征进行处理，生成具有副语言信息和多模态语音信息的翻译后语音数据，并将所述翻译后语音数据提交到所述交互界面进行展示。

6、可选的，所述系统还包括消息中心；

7、所述消息中心，用于订阅所述模块化算法服务的状态，并向所述交互界面进行信息发布。

8、可选的，所述模块化算法服务，还用于将所述待翻译语音是否满足预置要求的检测结果登记到所述消息中心；

9、所述消息中心，用于当所述待翻译语音不满足预置要求时，发送数据不符合信息给所述交互界面，以提示用户更换所述待翻译语音；当所述待翻译语音满足预置要求时，则触发所述模块化算法服务执行下一个任务。

10、可选的，所述消息中心，还用于获取计算资源，当判断到计算资源不足时，将当前任务加入到任务等待队列，当判断到计算资源空闲时，执行当前任务，并拉取任务等待队列的排队信息确定是否存在排队的待处理任务。

11、可选的，所述模块化算法服务，还用于将带副语言信息的翻译文本发送给所述消息中心，由所述消息中心反馈给所述交互界面进行可视化；

12、所述交互界面，还用于响应于用户对带副语言信息的翻译文本的编辑操作，将编辑后的带副语言信息的翻译文本存储到所述数据存储服务中，并在所述消息中心进行信息登记，由所述消息中心通知所述模块化算法服务执行下一个任务。

13、可选的，所述模块化算法服务，还用于在待翻译语音满足预置要求后，从所述待翻译语音中裁剪出有人声的语音片段。

14、可选的，所述模块化算法服务，还用于调用语音检测插件检测所述待翻译语音的指标参数，基于所述指标参数对所述翻译后语音数据进行调整，所述指标参数包括时长和/或采样率。

15、可选的，所述模块化算法服务，具体用于：

16、调用文本语言模型提取带副语言信息的翻译文本的语义特征；

17、调用语音音色模型提取所述待翻译语音的语音音色特征；

18、调用语音韵律模型提取所述待翻译语音的语音韵律学特征；

19、调用语音文本对齐模块对所述待翻译语音和带副语言信息的翻译文本进行对齐操作，获取文本发音时长；

20、调用大语言模型提取所述待翻译语音的多模态语音信息；

21、将所述语义特征、所述语音音色特征、所述语音韵律学特征、所述多模态语音信息和所述文本发音时长输入到语音声学模型中进行处理，生成具有副语言信息和多模态语音信息的翻译后语音数据。

22、可选的，所述语音韵律模型的训练过程包括：

23、获取语音文本对，所述语音文本对包括语音样本和所述语音样本对应的翻译文本样本；

24、对所述语音文本对进行模态标记，得到多模态语音信息；

25、提取所述语音样本的语音风格特征和语音韵律学特征，提取所述翻译文本样本的语义特征，将所述语音样本和对应的所述翻译文本样本进行对齐操作，得到文本发音时长；

26、以所述语音文本对的多模态语音信息、语音风格特征和语义特征为输入，以所述语音文本对的语音韵律学特征和文本发音时长为训练目标对预置模型进行训练，得到语音韵律模型。

27、可选的，所述语音数据还包括背景语音；

28、所述模块化算法服务，还用于将所述背景语音合成到具有副语言信息和多模态语音信息的翻译后语音数据中。

29、从以上技术方案可以看出，本申请具有以下优点：

30、本申请提供的自然语音翻译系统，从待翻译语音中提取副语言信息，生成带副语言的翻译文本，通过多模态语音模型提取多模态语音信息，并结合副语言信息、多模态语音信息和翻译文本的语义特征合成具有副语言信息和多模态语音信息的翻译后语音数据，实现了语音翻译时，支持副语言和多模态语音信息的自然语音生成，使得语音翻译效果更加贴近原说话人的说话特征和环境，从而改善了现有的语音翻译技术不支持副语言及多模态的自然语音生成，使得生成的翻译后语音效果单一、不够自然、生动的技术问题。

本文档来自技高网...

【技术保护点】

1.一种自然语音翻译系统，其特征在于，包括：交互界面、数据存储服务和模块化算法服务；

2.根据权利要求1所述的自然语音翻译系统，其特征在于，所述系统还包括消息中心；

3.根据权利要求2所述的自然语音翻译系统，其特征在于，所述模块化算法服务，还用于将所述待翻译语音是否满足预置要求的检测结果登记到所述消息中心；

4.根据权利要求3所述的自然语音翻译系统，其特征在于，所述消息中心，还用于获取计算资源，当判断到计算资源不足时，将当前任务加入到任务等待队列，当判断到计算资源空闲时，执行当前任务，并拉取任务等待队列的排队信息确定是否存在排队的待处理任务。

5.根据权利要求2所述的自然语音翻译系统，其特征在于，所述模块化算法服务，还用于将带副语言信息的翻译文本发送给所述消息中心，由所述消息中心反馈给所述交互界面进行可视化；

6.根据权利要求1所述的自然语音翻译系统，其特征在于，所述模块化算法服务，还用于在待翻译语音满足预置要求后，从所述待翻译语音中裁剪出有人声的语音片段。

7.根据权利要求1所述的自然语音翻译系统，其特征在

8.根据权利要求1所述的自然语音翻译系统，其特征在于，所述模块化算法服务，具体用于：

9.根据权利要求8所述的自然语音翻译系统，其特征在于，所述语音韵律模型的训练过程包括：

10.根据权利要求1-9任一项所述的自然语音翻译系统，其特征在于，所述语音数据还包括背景语音；

...

【技术特征摘要】

1.一种自然语音翻译系统，其特征在于，包括：交互界面、数据存储服务和模块化算法服务；

2.根据权利要求1所述的自然语音翻译系统，其特征在于，所述系统还包括消息中心；

5.根据权利要求2所述的自然语音翻译系统，其特征在于，所述模块化算法服务，还用于将带副语言信息的翻译文本发送给所述消息中心，由所述...

【专利技术属性】
技术研发人员：张顺四，詹皓粤，张强，
申请(专利权)人：广州趣丸网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人