语音合成方法、装置、计算设备和存储介质制造方法及图纸

技术编号：24038296 阅读：26 留言：0更新日期：2020-05-07 02:34

本发明专利技术公开了一种语音合成方法、装置、计算设备和存储介质，其中，在服务器执行的语音合成方法包括：对来自客户端的客户端数据包中的文字数据进行文语转换处理，得到与所述文字数据相对应的音频数据；基于所述客户端与所述服务器之间的网络连接状态，确定用于压缩所述音频数据的码率；基于所述码率对所述音频数据进行压缩处理，得到经过压缩处理后的音频数据包；将所述音频数据包返回给所述客户端。由此，针对复杂多变的网络环境，通过调整压缩码率来保证整个语音合成过程平滑，使得用户能够得到平滑的语音数据播放。

Speech synthesis methods, devices, computing devices and storage media

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、计算设备和存储介质
本专利技术涉及语音处理
，特别涉及一种语音合成方法、装置、计算设备和存储介质。
技术介绍
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的音频输出的技术。目前的很多语音合成服务基本都是将服务端合成的音频数据直接传输给客户端，客户端进行适当的缓冲，接着进行播放。在其中，并未考虑复杂的互联网环境以及播放缓冲、解码缓冲等因素的影响，整个语音合成系统也不能够感知网络状况的变化，自适应提供不同质量的音频数据。因此，仍然需要一种改进的语音合成技术，以向用户提供平滑的音频数据播放效果。
技术实现思路
本专利技术的目的是提供一种语音合成方法和装置，以适应不同的网络环境以及网络状况，向用户提供平滑的语音数据播放效果。根据本专利技术的一个方面，提供了一种在服务器执行的语音合成方法，包括：对来自客户端的客户端数据包中的文字数据进行文语转换处理，得到与所述文字数据相对应的音频数据；基于所述客户端与所述服务器之间的网络连接状态，确定用于压缩所述音频数据的码率；基于所述码率对所述音频数据进行压缩处理，得到经过压缩处理后的音频数据包；将所述音频数据包返回给所述客户端。可选地，该语音合成方法还可以包括基于来自所述客户端的丢包率参数，确定所述网络连接状态。可选地，所述确定用于压缩所述音频数据的码率的步骤可以包括：在所述网络连接状...

【技术保护点】
1.一种在服务器执行的语音合成方法，包括：/n对来自客户端的客户端数据包中的文字数据进行文语转换处理，得到与所述文字数据相对应的音频数据；/n基于所述客户端与所述服务器之间的网络连接状态，确定用于压缩所述音频数据的码率；/n基于所述码率对所述音频数据进行压缩处理，得到经过压缩处理后的音频数据包；/n将所述音频数据包返回给所述客户端。/n

【技术特征摘要】
1.一种在服务器执行的语音合成方法，包括：
对来自客户端的客户端数据包中的文字数据进行文语转换处理，得到与所述文字数据相对应的音频数据；
基于所述客户端与所述服务器之间的网络连接状态，确定用于压缩所述音频数据的码率；
基于所述码率对所述音频数据进行压缩处理，得到经过压缩处理后的音频数据包；
将所述音频数据包返回给所述客户端。

2.根据权利要求1所述的方法，还包括：
基于来自所述客户端的丢包率参数，确定所述网络连接状态。

3.根据权利要求2所述的方法，其中，所述确定用于压缩所述音频数据的码率的步骤包括：
在所述网络连接状态良好的情况下，基于所述丢包率参数确定用于压缩所述音频数据的码率。

4.根据权利要求2所述的方法，其中，在所述网络连接状态差的情况下，所述服务器不对文字数据进行文语转换处理，或者不对所述音频数据进行压缩处理，并向所述客户端发送离线生成音频数据的指令。

5.根据权利要求2所述的方法，其中，
所述丢包率参数是所述客户端根据先前接收到的音频数据包的统计信息计算得到的。

6.一种用于语音合成的服务器，包括：
第一文语转换单元，用于对来自客户端的客户端数据包中的文字数据进行文语转换处理，得到与所述文字数据相对应的音频数据；
码率确定单元，用于基于所述客户端与所述服务器之间的网络连接状态，确定用于压缩所述音频数据的码率；
压缩单元，用于基于所述码率对所述音频数据进行压缩处理，得到经过压缩处理后的音频数据包；以及
第一传输单元，用于将所述音频数据包返回给所述客户端。

7.根据权利要求6所述的服务器，还包括：
第一网络状态确定单元，用于基于来自所述客户端的丢包率参数，确定所述网络连接状态。

8.根据权利要求7所述的服务器，其中，
所述码率确定单元在所述网络连接状态良好的情况下，基于所述丢包率参数确定用于压缩所述音频数据的码率。

9.根据权利要求7所述的服务器，还包括：
指令控制单元，用于在所述网络连接状态差的情况下生成离线生成音频数据的指令，
其中，在所述网络连接状态差的情况下，所述第一文语转换单元不对文字数据进行文语转换处理，或者所述压缩单元不对所述音频数据进行压缩处理，所述第一传输单元向所述客户端发送离线生成音频数据的指令。

10.一种在客户端执行的语音合成方法，包括：
向服务器发送客户端与服务器之间的网络连接状态或能够用于确定所述网络连接状态相关的参数；
向服务器发送用户输入的文字数据；以及
接收来自所述服务器的音频数据包，所述音频数据包包括与所述文字数据相对应的音频数据，所述音频数据包的压缩码率与所述网络连接状态相关。

11.根据权利要求10所述的方法，还包括：
基于丢包率参数，确定所述网络连接状态。

【专利技术属性】
技术研发人员：郑志辉，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人