语音合成方法、装置、计算设备和存储介质制造方法及图纸

技术编号:24038296 阅读:26 留言:0更新日期:2020-05-07 02:34
本发明专利技术公开了一种语音合成方法、装置、计算设备和存储介质,其中,在服务器执行的语音合成方法包括:对来自客户端的客户端数据包中的文字数据进行文语转换处理,得到与所述文字数据相对应的音频数据;基于所述客户端与所述服务器之间的网络连接状态,确定用于压缩所述音频数据的码率;基于所述码率对所述音频数据进行压缩处理,得到经过压缩处理后的音频数据包;将所述音频数据包返回给所述客户端。由此,针对复杂多变的网络环境,通过调整压缩码率来保证整个语音合成过程平滑,使得用户能够得到平滑的语音数据播放。

Speech synthesis methods, devices, computing devices and storage media

【技术实现步骤摘要】
语音合成方法、装置、计算设备和存储介质
本专利技术涉及语音处理
,特别涉及一种语音合成方法、装置、计算设备和存储介质。
技术介绍
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的音频输出的技术。目前的很多语音合成服务基本都是将服务端合成的音频数据直接传输给客户端,客户端进行适当的缓冲,接着进行播放。在其中,并未考虑复杂的互联网环境以及播放缓冲、解码缓冲等因素的影响,整个语音合成系统也不能够感知网络状况的变化,自适应提供不同质量的音频数据。因此,仍然需要一种改进的语音合成技术,以向用户提供平滑的音频数据播放效果。
技术实现思路
本专利技术的目的是提供一种语音合成方法和装置,以适应不同的网络环境以及网络状况,向用户提供平滑的语音数据播放效果。根据本专利技术的一个方面,提供了一种在服务器执行的语音合成方法,包括:对来自客户端的客户端数据包中的文字数据进行文语转换处理,得到与所述文字数据相对应的音频数据;基于所述客户端与所述服务器之间的网络连接状态,确定用于压缩所述音频数据的码率;基于所述码率对所述音频数据进行压缩处理,得到经过压缩处理后的音频数据包;将所述音频数据包返回给所述客户端。可选地,该语音合成方法还可以包括基于来自所述客户端的丢包率参数,确定所述网络连接状态。可选地,所述确定用于压缩所述音频数据的码率的步骤可以包括:在所述网络连接状态良好的情况下,基于所述丢包率参数确定用于压缩所述音频数据的码率。可选地,在所述网络连接状态差的情况下,所述服务器不对文字数据进行文语转换处理,或者不对所述音频数据进行压缩处理,并向所述客户端发送离线生成音频数据的指令。可选地,丢包率参数是所述客户端根据先前接收到的音频数据包的统计信息计算得到的。根据本专利技术的另一方面,还提供了一种用于语音合成的服务器,包括:第一文语转换单元,用于对来自客户端的客户端数据包中的文字数据进行文语转换处理,得到与所述文字数据相对应的音频数据;码率确定单元,用于基于所述客户端与所述服务器之间的网络连接状态,确定用于压缩所述音频数据的码率;压缩单元,用于基于所述码率对所述音频数据进行压缩处理,得到经过压缩处理后的音频数据包;以及第一传输单元,用于将所述音频数据包返回给所述客户端。可选地,该服务器还可以包括第一网络状态确定单元,用于基于来自所述客户端的丢包率参数,确定所述网络连接状态。可选地,所述码率确定单元在所述网络连接状态良好的情况下,基于所述丢包率参数确定用于压缩所述音频数据的码率。可选地,该服务器还可以包括指令控制单元,用于在所述网络连接状态差的情况下生成离线生成音频数据的指令,其中,在所述网络连接状态差的情况下,所述第一文语转换单元不对文字数据进行文语转换处理,或者所述压缩单元不对所述音频数据进行压缩处理,所述第一传输单元向所述客户端发送离线生成音频数据的指令。根据本专利技术的另一方面,还提供了一种在客户端执行的语音合成方法,包括:向服务器发送客户端与服务器之间的网络连接状态或能够用于确定所述网络连接状态相关的参数;向服务器发送用户输入的文字数据;以及接收来自所述服务器的音频数据包,所述音频数据包包括与所述文字数据相对应的音频数据,所述音频数据包的压缩码率与所述网络连接状态相关。可选地,该语音合成方法还可以包括基于丢包率参数,确定所述网络连接状态。可选地,在所述网络连接状态良好的情况下,向所述服务器发送所述文字数据。可选地,该方法还可以包括:在所述网络连接状态差的情况下,在所述客户端本地对所述文字数据进行文语转换处理;或者响应于接收到来自服务器的离线生成音频数据的指令,在所述客户端本地对所述文字数据进行文语转换处理。可选地,所述能够用于确定所述网络连接状态相关的参数是丢包率参数。可选地,该方法还可以包括:基于接收到的音频数据包的统计信息,计算并更新所述丢包率参数。可选地,该方法还可以包括:根据所述丢包率参数动态调整本地抖动缓冲区的大小。根据本专利技术的另一方面还提供了一种用于语音合成的客户端,包括:第二传输单元,用于向服务器发送客户端与服务器之间的网络连接状态或能够用于确定所述网络连接状态相关的参数;第三传输单元,用于向服务器发送用户输入的文字数据;以及第四传输单元,用于接收来自所述服务器的音频数据包,所述音频数据包包括与所述文字数据相对应的音频数据,所述音频数据包的压缩码率与所述网络连接状态相关。可选地,该客户端还可以包括:第二网络状态确定单元,用于基于丢包率参数,确定所述网络连接状态。可选地,在所述网络连接状态良好的情况下,所述第三传输单元向所述服务器发送所述文字数据。可选地,该客户端还可以包括:第二文语转换单元,用于在所述网络连接状态差的情况下,在所述客户端本地对所述文字数据进行文语转换处理;或者响应于接收到来自服务器的离线生成音频数据的指令,所述第二文语转换单元在所述客户端本地对所述文字数据进行文语转换处理。可选地,所述能够用于确定所述网络连接状态相关的参数是丢包率参数。可选地,该客户端还可以包括计算单元,用于基于接收到的音频数据包的统计信息,计算并更新所述丢包率参数。可选地,该客户端还可以包括抖动缓冲调整单元,用于根据所述丢包率参数动态调整本地抖动缓冲区的大小。根据本专利技术的另一方面,还提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。根据本专利技术的另一方面,还提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。由此,通过本专利技术,针对复杂多变的网络环境,通过引入网络状况监控机制、网络拥塞控制机制以及本地缓冲动态调整机制等一系列机制,来保证整个语音合成过程平滑,使得用户能够得到平滑的语音数据播放效果。附图说明通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1示出了用于实现本专利技术实施例的语音合成系统的示意图。图2示出了根据本专利技术一个实施例的语音合成系统的示意图。图3示出了根据本专利技术一个实施例的语音合成方法的流程示意图。图4示出了根据本专利技术另一个实施例的语音合成方法的流程示意图。图5示出了根据本专利技术一个实施例的服务器的结构示意图。图6示出了根据本专利技术一个实施例的客户端的结构示意图。图7示出了根据本专利技术一个实施例的计算设备的示意性框图。具体实施方式下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各本文档来自技高网...

【技术保护点】
1.一种在服务器执行的语音合成方法,包括:/n对来自客户端的客户端数据包中的文字数据进行文语转换处理,得到与所述文字数据相对应的音频数据;/n基于所述客户端与所述服务器之间的网络连接状态,确定用于压缩所述音频数据的码率;/n基于所述码率对所述音频数据进行压缩处理,得到经过压缩处理后的音频数据包;/n将所述音频数据包返回给所述客户端。/n

【技术特征摘要】
1.一种在服务器执行的语音合成方法,包括:
对来自客户端的客户端数据包中的文字数据进行文语转换处理,得到与所述文字数据相对应的音频数据;
基于所述客户端与所述服务器之间的网络连接状态,确定用于压缩所述音频数据的码率;
基于所述码率对所述音频数据进行压缩处理,得到经过压缩处理后的音频数据包;
将所述音频数据包返回给所述客户端。


2.根据权利要求1所述的方法,还包括:
基于来自所述客户端的丢包率参数,确定所述网络连接状态。


3.根据权利要求2所述的方法,其中,所述确定用于压缩所述音频数据的码率的步骤包括:
在所述网络连接状态良好的情况下,基于所述丢包率参数确定用于压缩所述音频数据的码率。


4.根据权利要求2所述的方法,其中,在所述网络连接状态差的情况下,所述服务器不对文字数据进行文语转换处理,或者不对所述音频数据进行压缩处理,并向所述客户端发送离线生成音频数据的指令。


5.根据权利要求2所述的方法,其中,
所述丢包率参数是所述客户端根据先前接收到的音频数据包的统计信息计算得到的。


6.一种用于语音合成的服务器,包括:
第一文语转换单元,用于对来自客户端的客户端数据包中的文字数据进行文语转换处理,得到与所述文字数据相对应的音频数据;
码率确定单元,用于基于所述客户端与所述服务器之间的网络连接状态,确定用于压缩所述音频数据的码率;
压缩单元,用于基于所述码率对所述音频数据进行压缩处理,得到经过压缩处理后的音频数据包;以及
第一传输单元,用于将所述音频数据包返回给所述客户端。


7.根据权利要求6所述的服务器,还包括:
第一网络状态确定单元,用于基于来自所述客户端的丢包率参数,确定所述网络连接状态。


8.根据权利要求7所述的服务器,其中,
所述码率确定单元在所述网络连接状态良好的情况下,基于所述丢包率参数确定用于压缩所述音频数据的码率。


9.根据权利要求7所述的服务器,还包括:
指令控制单元,用于在所述网络连接状态差的情况下生成离线生成音频数据的指令,
其中,在所述网络连接状态差的情况下,所述第一文语转换单元不对文字数据进行文语转换处理,或者所述压缩单元不对所述音频数据进行压缩处理,所述第一传输单元向所述客户端发送离线生成音频数据的指令。


10.一种在客户端执行的语音合成方法,包括:
向服务器发送客户端与服务器之间的网络连接状态或能够用于确定所述网络连接状态相关的参数;
向服务器发送用户输入的文字数据;以及
接收来自所述服务器的音频数据包,所述音频数据包包括与所述文字数据相对应的音频数据,所述音频数据包的压缩码率与所述网络连接状态相关。


11.根据权利要求10所述的方法,还包括:
基于丢包率参数,确定所述网络连接状态。

【专利技术属性】
技术研发人员:郑志辉
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1