当前位置: 首页 > 专利查询>林其禹专利>正文

音色可选的人声播放系统、其播放方法及可读记录介质技术方案

技术编号:23471742 阅读:47 留言:0更新日期:2020-03-06 13:24
本发明专利技术公开一种音色可选的人声播放系统、其播放方法及可读记录介质。此系统包括扬声器、存储器及处理装置。存储器记录文篇数据库。处理装置耦接声音输入装置、扬声器及存储器。处理装置取得真实人声信号,并将文篇数据库中的文篇以文字转语音技术转换成原始合成人声信号,再将此原始合成人声信号依据音色转换模型转换成特定音色的人声信号。而此音色转换模型是使用从特定人士所收集的真实人声信号去作训练而得到。接着,处理装置即可通过扬声器播放此特定音色的转换出的人声信号。藉此,使用者即可随时随地聆听喜好的人声音色及含有选定文篇内容的人声语音。

Voice optional voice playing system, playing method and readable recording medium

【技术实现步骤摘要】
音色可选的人声播放系统、其播放方法及可读记录介质
本专利技术涉及一种人声转换应用技术,且特别涉及一种音色可选的人声播放系统、其播放方法及计算机可读记录介质。
技术介绍
特定人士的语音能对部分人产生心理上的共鸣。因此,很多人希望能由指定人说故事给他们听,例如,小孩希望他们喜欢的爸爸、妈妈、甚至爷爷或奶奶,读故事书(说故事)给他们听。如果这些被希望读故事的人在小孩旁边,或许他们就可以亲自读给小孩听。但实际情况是,既使这些人跟小孩在一起,也不见得有时间读给他们听。更不用说,当父母不在家时,或是根本没跟爷爷奶奶住在一起,那就更无法由这些人来讲故事给小孩听了。虽然现有技术可通过声音录制来记录特定人士的语音,并通过播放录音档来讲述指定的故事内容,但并非所有人都有空闲时间来录制五本甚至更多本故事书的内容。此外,虽然人们可通过文字转语音(Text-to-Speech,TTS)技术将特定文篇内容转换成合成人声,但现有相关产品中并没有提供友善的操作接口来选择文篇内容,亦无法提供所欲聆听人士的语音音色。
技术实现思路
有鉴于此,本专利技术提供一种音色可选的人声播放系统、其播放方法及计算机可读记录介质,其可播放所欲聆听的人士的语音音色、及由选定文篇文字所转换出的说话语音,让使用者可随时随地聆听熟悉的人声音色及语音。本专利技术的音色可选的人声播放系统,其包括扬声器、存储器及处理装置。扬声器用于播放声音。存储器用于记录人声信号及文篇数据库。处理装置耦接声音输入装置、扬声器及存储器。处理装置取得真实人声数据,并将文篇数据库中的文篇以文字转语音技术转换成原始合成人声信号,再将此原始合成人声信号带入音色转换模型以转换成特定音色的合成人声信号。而此音色转换模型是使用从特定人士所收集的人声信号去作训练而得到。接着,处理装置即可通过扬声器播放此特定音色的转换出的合成人声信号。在本专利技术的一实施例中,上述的处理装置自所收集的人声信号求取声学(acoustic)特征;再依据收集的人声信号所对应的文字脚本,令文字转语音技术产生合成的人声信号,并自合成的人声信号求取声学特征;然后使用两种语音信号(真实的语音、合成的语音)的平行的声学特征,去训练出人声信号作音色转换的模型。在本专利技术的一实施例中,上述的处理装置提供用户界面以呈现收集到的人声信号及文篇数据库的文篇,接收用户界面上对于人声信号中的一个及文篇数据库其中一文篇的选择操作。而响应于此选择操作,处理装置将选择的文篇内的一序列文句转换成合成的人声信号。在本专利技术的一实施例中,上述的存储器更记录数个人物在数个时间录音的真实人声信号。处理装置提供用户界面呈现这些人物及对应录音时间,并接收用户界面上对于这些人物及对应录音时间的选择操作。而响应于此选择操作,处理装置取得选择的真实人声信号所对应的音色转换模型。在本专利技术的一实施例中,上述的人声播放系统还包括耦接处理装置的显示器。处理装置收集至少一个真实人脸图像,依据此合成人声信号生成嘴型变化数据,将一个真实人脸图像依据嘴型变化数据合成为合成人脸图像,并分别通过显示器及扬声器同步播放合成人脸图像及合成人声信号。在本专利技术的一实施例中,上述的人声播放系统还包括耦接处理装置的机械头颅。处理装置依据合成人声信号生成嘴型变化数据,并依据此嘴型变化数据控制机械头颅的嘴部动作并同步通过扬声器播放合成人声信号。本专利技术的人声播放方法,其包括下列步骤。收集真实的人声信号。将一文篇内各文句以文字转语音技术转换成原始合成人声信号。将原始合成人声信号带入音色转换模型而转换成特定音色的合成人声信号,而此音色转换模型是使用配对的人声信号(真实人声与合成人声信号)作训练之后所产生。接着,播放此转换出的合成人声信号。在本专利技术的一实施例中,上述将原始合成的人声信号带入音色转换模型而转换成特定音色的人声信号的步骤之前,还包括下列步骤。自收集的真实人声信号求取声学特征。依据收集的真实人声信号所对应的文字脚本,令文字转语音技术产生合成的人声信号。自合成的人声信号求取声学特征。使用所收集语音的声学特征及所合成语音的声学特征来训练音色转换模型。在本专利技术的一实施例中,上述依据收集的真实人声所对应的文字脚本令文字转语音技术转换出合成的人声信号的步骤之前,还包括下列步骤。提供用户界面呈现收集的真实人声信号及记录人声内容的文字脚本数据库。接收用户界面上对于真实人声信号及文字脚本的选择操作。响应于选择操作,将选择的文字脚本内各文句转换成合成的人声信号。在本专利技术的一实施例中,上述收集真实人声信号包括下列步骤。记录数个人物在数个时间所录音的真实人声信号。提供用户界面呈现那些人物及对应的录音时间。接收用户界面上对于那些人物及对应录音时间的选择操作。响应于选择操作,取得选择的真实人声信号所对应的音色转换模型。在本专利技术的一实施例中,上述的文篇数据库中的文篇内容相关于邮件、讯息、书籍、广告及新闻中的至少一个。在本专利技术的一实施例中,上述转换成合成人声信号之后还包括下列步骤。取得真实人脸图像。依据合成人声信号生成嘴型变化数据。将真实人脸图像依据此嘴型变化数据合成为合成人脸图像。同步播放合成人脸图像及合成人声信号。在本专利技术的一实施例中,上述转换成合成人声信号之后还包括下列步骤。依据合成人声信号生成嘴型变化数据。依据嘴型变化数具控制机械头颅的嘴部动作并同步播放合成人声信号。本专利技术的计算机可读记录介质,其记录一程序代码,并经由装置的处理器载入以执行下列步骤。收集真实的人声信号。将一文篇内各文句以文字转语音技术转换成原始合成人声信号。将原始合成人声信号带入音色转换模型而转换成特定音色的合成人声信号,而此音色转换模型是使用配对的人声信号(真实人声与合成人声信号)作训练之后所产生。接着,播放此转换出的合成人声信号。基于上述,本专利技术实施例的音色可选的人声播放系统、其播放方法及计算机可读记录介质,只要事先录制或收集特定音色的真实人声信号及其对应的文字脚本,并且建立可供选取文篇以作播放的文篇数据库,使用者便能随时随地选择所欲聆听的语音音色与文篇文字,而不是听到毫无感情的未知音色所播放出的语音。此外,使用者可挑选过去的历史人声信号,即时回忆熟悉的声音。为让本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。附图说明图1是依据本专利技术一实施例的人声播放系统的元件方块图。图2是依据本专利技术一实施例的人声播放方法的流程图。图3是依据本专利技术一实施例的结合图像的人声播放方法的流程图。图4是依据本专利技术另一实施例的人声播放系统的元件方块图。图5是依据本专利技术一实施例的结合机械头颅的人声播放方法的流程图。【符号说明】1:人声播放系统110:声音输入装置120:显示器130:扬声器140:操作输入装置150:存储器151:人声数据1511:真实人声信号1512:合成人声信号153:真实人声的文字脚本155:文篇本文档来自技高网...

【技术保护点】
1.一种人声播放系统,包括:/n扬声器,播放声音;/n存储器,记录文篇数据库;以及/n处理装置,耦接该扬声器及该存储器,该处理装置取得至少一真实人声数据,并将该文篇数据库中的文篇以文字转语音技术转换成原始合成人声信号,将该原始合成人声信号带入音色转换模型而转换成合成人声信号,其中该音色转换模型是使用该至少一真实人声信号去训练而得到,且该处理装置通过该扬声器播放该合成人声信号。/n

【技术特征摘要】
20180816 TW 1071286491.一种人声播放系统,包括:
扬声器,播放声音;
存储器,记录文篇数据库;以及
处理装置,耦接该扬声器及该存储器,该处理装置取得至少一真实人声数据,并将该文篇数据库中的文篇以文字转语音技术转换成原始合成人声信号,将该原始合成人声信号带入音色转换模型而转换成合成人声信号,其中该音色转换模型是使用该至少一真实人声信号去训练而得到,且该处理装置通过该扬声器播放该合成人声信号。


2.如权利要求1所述的人声播放系统,其中该处理装置自该至少一真实人声信号取得至少一第一声学特征,依据该至少一真实人声信号所对应的文字脚本,令该文字转语音技术产生合成人声信号,自该合成人声信号取得至少一第二声学特征,并使用该至少一第一声学特征及该至少一第二声学特征来训练该音色转换模型。


3.如权利要求1所述的人声播放系统,其中该处理装置提供用户界面呈现该至少一真实人声信号及该文篇数据库所记录的多个该文篇,接收该用户界面上对于该至少一真实人声信号中的一个及该文篇数据库其中一该文篇的选择操作,并响应于该选择操作,该处理装置将选择的文篇内的文句转换成该合成人声信号。


4.如权利要求1所述的人声播放系统,其中该存储器还记录多个人物在多个录音时间的该至少一真实人声信号,且该处理装置提供用户界面呈现这些人物及对应录音时间,并接收该用户界面上对于这些人物及对应这些录音时间的选择操作,并响应于该选择操作,该处理装置取得选择的真实人声信号对应的音色转换模型。


5.如权利要求1所述的人声播放系统,其中该文篇数据库中的文篇内容相关于邮件、讯息、书籍、广告及新闻中的至少一个。


6.如权利要求1所述的人声播放系统,还包括:
显示器,耦接该处理装置;而
该处理装置收集至少一真实人脸图像,依据该合成人声信号生成嘴型变化数据,将该至少一真实人脸图像中的一个依据该嘴型变化数据合成为合成人脸图像,并分别通过该显示器及该扬声器同步播放该合成人脸图像及该合成人声信号。


7.如权利要求1所述的人声播放系统,还包括:
机械头颅,耦接该处理装置;而
该处理装置依据该合成人声信号生成嘴型变化数据,并依据该嘴型变化数据控制该机械头颅的嘴部动作并同步通过该扬声器播放该合成人声信号。


8.一种人声播放方法,包括:
收集至少一真实人声信号;
将文篇以文字转语音技术转换成原始合成人声信号;
将该原始合成人声信号带入音色转...

【专利技术属性】
技术研发人员:林其禹古鸿炎
申请(专利权)人:林其禹
类型:发明
国别省市:中国台湾;71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1