音色可选的人声播放系统、其播放方法及可读记录介质技术方案

技术编号：23471742 阅读：57 留言：0更新日期：2020-03-06 13:24

本发明专利技术公开一种音色可选的人声播放系统、其播放方法及可读记录介质。此系统包括扬声器、存储器及处理装置。存储器记录文篇数据库。处理装置耦接声音输入装置、扬声器及存储器。处理装置取得真实人声信号，并将文篇数据库中的文篇以文字转语音技术转换成原始合成人声信号，再将此原始合成人声信号依据音色转换模型转换成特定音色的人声信号。而此音色转换模型是使用从特定人士所收集的真实人声信号去作训练而得到。接着，处理装置即可通过扬声器播放此特定音色的转换出的人声信号。藉此，使用者即可随时随地聆听喜好的人声音色及含有选定文篇内容的人声语音。

Voice optional voice playing system, playing method and readable recording medium

全部详细技术资料下载

【技术实现步骤摘要】
音色可选的人声播放系统、其播放方法及可读记录介质
本专利技术涉及一种人声转换应用技术，且特别涉及一种音色可选的人声播放系统、其播放方法及计算机可读记录介质。
技术介绍
特定人士的语音能对部分人产生心理上的共鸣。因此，很多人希望能由指定人说故事给他们听，例如，小孩希望他们喜欢的爸爸、妈妈、甚至爷爷或奶奶，读故事书(说故事)给他们听。如果这些被希望读故事的人在小孩旁边，或许他们就可以亲自读给小孩听。但实际情况是，既使这些人跟小孩在一起，也不见得有时间读给他们听。更不用说，当父母不在家时，或是根本没跟爷爷奶奶住在一起，那就更无法由这些人来讲故事给小孩听了。虽然现有技术可通过声音录制来记录特定人士的语音，并通过播放录音档来讲述指定的故事内容，但并非所有人都有空闲时间来录制五本甚至更多本故事书的内容。此外，虽然人们可通过文字转语音(Text-to-Speech，TTS)技术将特定文篇内容转换成合成人声，但现有相关产品中并没有提供友善的操作接口来选择文篇内容，亦无法提供所欲聆听人士的语音音色。
技术实现思路
有鉴于此，本专利技术提供一种音色可选的人声播放系统、其播放方法及计算机可读记录介质，其可播放所欲聆听的人士的语音音色、及由选定文篇文字所转换出的说话语音，让使用者可随时随地聆听熟悉的人声音色及语音。本专利技术的音色可选的人声播放系统，其包括扬声器、存储器及处理装置。扬声器用于播放声音。存储器用于记录人声信号及文篇数据库。处理装置耦接声音输入装置、扬声器及存储器。处理装置取得真实人声数据，并...

【技术保护点】
1.一种人声播放系统，包括：/n扬声器，播放声音；/n存储器，记录文篇数据库；以及/n处理装置，耦接该扬声器及该存储器，该处理装置取得至少一真实人声数据，并将该文篇数据库中的文篇以文字转语音技术转换成原始合成人声信号，将该原始合成人声信号带入音色转换模型而转换成合成人声信号，其中该音色转换模型是使用该至少一真实人声信号去训练而得到，且该处理装置通过该扬声器播放该合成人声信号。/n

【技术特征摘要】
20180816 TW 1071286491.一种人声播放系统，包括：
扬声器，播放声音；
存储器，记录文篇数据库；以及
处理装置，耦接该扬声器及该存储器，该处理装置取得至少一真实人声数据，并将该文篇数据库中的文篇以文字转语音技术转换成原始合成人声信号，将该原始合成人声信号带入音色转换模型而转换成合成人声信号，其中该音色转换模型是使用该至少一真实人声信号去训练而得到，且该处理装置通过该扬声器播放该合成人声信号。

2.如权利要求1所述的人声播放系统，其中该处理装置自该至少一真实人声信号取得至少一第一声学特征，依据该至少一真实人声信号所对应的文字脚本，令该文字转语音技术产生合成人声信号，自该合成人声信号取得至少一第二声学特征，并使用该至少一第一声学特征及该至少一第二声学特征来训练该音色转换模型。

3.如权利要求1所述的人声播放系统，其中该处理装置提供用户界面呈现该至少一真实人声信号及该文篇数据库所记录的多个该文篇，接收该用户界面上对于该至少一真实人声信号中的一个及该文篇数据库其中一该文篇的选择操作，并响应于该选择操作，该处理装置将选择的文篇内的文句转换成该合成人声信号。

4.如权利要求1所述的人声播放系统，其中该存储器还记录多个人物在多个录音时间的该至少一真实人声信号，且该处理装置提供用户界面呈现这些人物及对应录音时间，并接收该用户界面上对于这些人物及对应这些录音时间的选择操作，并响应于该选择操作，该处理装置取得选择的真实人声信号对应的音色转换模型。

5.如权利要求1所述的人声播放系统，其中该文篇数据库中的文篇内容相关于邮件、讯息、书籍、广告及新闻中的至少一个。

6.如权利要求1所述的人声播放系统，还包括：
显示器，耦接该处理装置；而
该处理装置收集至少一真实人脸图像，依据该合成人声信号生成嘴型变化数据，将该至少一真实人脸图像中的一个依据该嘴型变化数据合成为合成人脸图像，并分别通过该显示器及该扬声器同步播放该合成人脸图像及该合成人声信号。

7.如权利要求1所述的人声播放系统，还包括：
机械头颅，耦接该处理装置；而
该处理装置依据该合成人声信号生成嘴型变化数据，并依据该嘴型变化数据控制该机械头颅的嘴部动作并同步通过该扬声器播放该合成人声信号。

8.一种人声播放方法，包括：
收集至少一真实人声信号；
将文篇以文字转语音技术转换成原始合成人声信号；
将该原始合成人声信号带入音色转...

【专利技术属性】
技术研发人员：林其禹，古鸿炎，
申请(专利权)人：林其禹，
类型：发明
国别省市：中国台湾;71

全部详细技术资料下载我是这个专利的主人