语音合成方法、装置、存储介质和计算机设备制造方法及图纸

技术编号:20921861 阅读:25 留言:0更新日期:2019-04-20 10:49
本申请涉及一种语音合成方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取目标文本;确定所述目标文本包括的多个角色;根据所述目标文本中角色的相关文本,确定所述多个角色各自所属的角色类型;按照所述角色相应的角色类型为所述角色匹配相应的音色类别;在将所述目标文本转化成语音时,将所述目标文本中的说话内容按照对应的角色所匹配的音色类别转化为说话语音。本申请提供的方案可以大大扩展文字内容的表达。

Speech synthesis methods, devices, storage media and computer equipment

The present application relates to a speech synthesis method, device, computer readable storage medium and computer equipment. The methods include: acquiring target text; determining multiple roles included in the target text; determining the respective role types of the roles according to the relevant text of the roles in the target text; and identifying the roles according to the corresponding role types of the roles. When the target text is transformed into speech, the speech content in the target text is transformed into speech according to the matching timbre category of the corresponding roles. The scheme provided in this application can greatly expand the expression of text content.

【技术实现步骤摘要】
语音合成方法、装置、存储介质和计算机设备
本申请涉及文字语音转换
,特别是涉及一种语音合成方法、装置、计算机可读存储介质和计算机设备。
技术介绍
随着计算机技术的发展,出现了文字语音转换技术。文字语音转换技术主要是将计算机内的文本转换成连续自然的语音。传统的将文字转化成语音的方式,通常是采用TTS(TextToSpeech)技术,根据文本合成相应的语音。然而,传统的将文字转化成声音的方式,通常全篇只有一个嗓音,并且多为女性。当需转换的文字内容非常多,比如播报书籍或故事时,采用单一的嗓音会局限对文字内容的表达。
技术实现思路
基于此,有必要针对传统的将文字转化成声音的方式局限了文字内容的表达的技术问题,提供一种语音合成方法、装置、计算机可读存储介质和计算机设备。一种语音合成方法,包括:获取目标文本;确定所述目标文本包括的多个角色;根据所述目标文本中角色的相关文本,确定所述多个角色各自所属的角色类型;按照所述角色相应的角色类型为所述角色匹配相应的音色类别;在将所述目标文本转化成语音时,将所述目标文本中的说话内容按照对应的角色所匹配的音色类别转化为说话语音。一种语音合成装置,包括:获取模块,用于获取目标文本;确定模块,用于确定所述目标文本包括的多个角色;所述确定模块还用于根据所述目标文本中角色的相关文本,确定所述多个角色各自所属的角色类型;匹配模块,用于按照所述角色相应的角色类型为所述角色匹配相应的音色类别;转化模块,用于在将所述目标文本转化成语音时,将所述目标文本中的说话内容按照对应的角色所匹配的音色类别转化为说话语音。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述语音合成方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述语音合成方法的步骤。上述语音合成方法、装置、计算机可读存储介质和计算机设备,确定目标文本所包括的多个角色,并根据目标文本中角色的相关文本,确定多个角色各自所属的角色类型。再按照角色相应的角色类型为角色匹配相应的音色类别。这样,通过角色的相关文本来确定该角色对应的音色类别,使得该角色的音色类别可以准确地贴近该角色。在将目标文本转化成语音时,就可将目标文本中的说话内容按照对应的角色所匹配的音色类别转化为说话语音。这样,在进行对话内容播报时,不同的角色可采用与该角色贴近的音色类别进行播报,既能区分不同的角色,又能给听众一种身临其境的感受,大大扩展了文字内容的表达。附图说明图1为一个实施例中语音合成方法的应用环境图;图2为一个实施例中语音合成方法的流程示意图;图3为一个实施例中根据目标文本中各角色的相关文本,确定多个角色各自所属的角色类型的步骤的流程示意图;图4为一个实施例中在将目标文本合成语音时,将目标文本中的说话内容按照对应的角色所匹配的音色类别转化为说话语音步骤的流程示意图;图5为一个实施例中在将目标文本合成语音时,将目标文本中的说话内容按照对应的角色所匹配的音色类别转化为说话语音步骤的流程示意图;图6为一个实施例中对未匹配角色类型的角色所对应的说话内容进行语音转化的步骤的流程图;图7为一个实施例中语音合成方法的流程示意图;图8为一个实施例中语音合成方法的应用场景图;图9为一个实施例中语音合成装置的结构框图;图10为另一个实施例中语音合成装置的结构框图;图11为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中语音合成方法的应用环境图。参照图1,该语音合成方法应用于语音合成系统。该语音合成系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以是音箱、手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。其中,终端110和服务器120可分别单独用于执行上述语音合成方法,或者终端110和服务器120协同执行上述语音合成方法。比如,终端110或服务器120获取目标文本,并执行该语音合成方法,将目标文本转化成目标语音。或者,终端110向服务器120发送语音合成请求,服务器120根据语音合成请求获取目标文本,并执行该语音合成方法,将目标文本转化为目标语音。如图2所示,在一个实施例中,提供了一种语音合成方法。本实施例主要以该方法应用于上述图1中的计算机设备(如终端110或服务器120)来举例说明。参照图2,该语音合成方法具体包括如下步骤:S202,获取目标文本。其中,目标文本是待转化为语音的文本,具体可以是存储于存储介质中的、且以电子形式存在的文本。具体地,计算机设备可接收语音合成请求,将语音合成请求所指定的文本作为待播报的目标文本。计算机设备可根据该语音合成请求查找本地存储的目标文本,或者通过USB(UniversalSerialBus,通用串行总线)接口连接或网络连接等通信方式,接收其他计算机设备发送的目标文本。在一个实施例中,步骤S202,也就是获取目标文本包括以下步骤:接收语音合成请求;语音合成请求携带语音数据;对语音数据进行语音识别,得到目标文本关键词;依据目标文本关键词,查找与目标文本关键词相对应的目标文本。其中,语音识别是从语音数据中识别出文本的处理过程。在一个实施例中,终端可采集用户录制的语音数据,并根据该语音数据生成语音合成请求。终端可直接在本地对语音数据进行语音识别,得到与语音数据相对应的文本,并从文本中确定目标文本关键词。终端也可以将包括有语音数据的语音合成请求发送至服务器,由服务器对该语音数据进行语音识别,得到与语音数据相对应的文本,并从文本中确定目标文本关键词。进一步地,计算机设备(终端或服务器)可在本地或通过搜索引擎从网络资源中查找与该目标文本关键词相匹配的目标文本。在一个实施例中,计算机设备(终端或服务器)从文本中确定目标文本关键词的方式具体可采用如下方式:计算机设备可预先设定关键词集合,当计算机设备对语音数据识别得到文本后,对该文本进行分词处理,并删减掉停用词后,得到词序列。计算机设备可将词序列中的各词与该关键词集和中的各词进行比对,将匹配成功的词作为目标文本关键词。其中,停用词(StopWords)是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词,比如一些应用十分广泛的词、语气助词、客套词、介词或连接词等。以该语音合成方法应用于服务器来举例说明:当用户触发语音录制操作时,终端可通过录音装置录制用户发出的声音,得到语音数据。比如,用户启动录音按键,并发出“请播放《白雪公主和七个小矮人》的故事”的声音。终端将相应的语音数据发送至服务器。服务器对语音数据进行语音识别,得到“请播放白雪公主和七个小矮人的故事”的文本。进而可确定目标文本关键词为“白雪公主和七个小矮人”。上述实施例中,接收包含有语音数据的语音合成请求,将语音数据进行语音识别,得到目标文本关键词。依据本文档来自技高网...

【技术保护点】
1.一种语音合成方法,包括:获取目标文本;确定所述目标文本包括的多个角色;根据所述目标文本中角色的相关文本,确定所述多个角色各自所属的角色类型;按照所述角色相应的角色类型为所述角色匹配相应的音色类别;在将所述目标文本转化成语音时,将所述目标文本中的说话内容按照对应的角色所匹配的音色类别转化为说话语音。

【技术特征摘要】
1.一种语音合成方法,包括:获取目标文本;确定所述目标文本包括的多个角色;根据所述目标文本中角色的相关文本,确定所述多个角色各自所属的角色类型;按照所述角色相应的角色类型为所述角色匹配相应的音色类别;在将所述目标文本转化成语音时,将所述目标文本中的说话内容按照对应的角色所匹配的音色类别转化为说话语音。2.根据权利要求1所述的方法,其特征在于,所述获取目标文本包括:接收语音合成请求;所述语音合成请求携带语音数据;对所述语音数据进行语音识别,得到目标文本关键词;依据所述目标文本关键词,查找与所述目标文本关键词相对应的目标文本。3.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本中角色的相关文本,确定所述多个角色各自所属的角色类型,包括:确定所述目标文本中分别与各所述角色相关的相关文本;从预设角色类型库中,分别查找与各所述角色的相关文本相匹配的预设角色类型;将查找到的预设角色类型,作为相应角色所属的角色类型。4.根据权利要求1所述的方法,其特征在于,所述在将所述目标文本转化成语音时,将所述目标文本中的说话内容按照对应的角色所匹配的音色类别转化为说话语音,包括:在将所述目标文本转化成语音时,确定所述目标文本中当前待转化的文本的内容;在当前待转化的文本的内容为说话内容时,将所述说话内容按照对应的角色所匹配的音色类别转化为说话语音;在当前待转化的文本的内容为旁白内容时,将所述旁白内容按预设音色类别转化为旁白语音。5.根据权利要求1所述的方法,其特征在于,所述在将所述目标文本转化成语音时,将所述目标文本中的说话内容按照对应的角色所匹配的音色类别转化为说话语音,包括:在将所述目标文本转化成语音时,确定所述目标文本中当前待转化的文本的内容;在当前待转化的文本的内容为说话内容时,定位所述当前待转化的文本的邻近文本;根据所述邻近文本确定与所述说话内容对应的角色;将所述说话内容按照对应的角色所匹配的音色类别转化为说话语音。6.根据权利要求5所述的方法,其特征在于,所述在当前待转化的文本的内容为说话内容时,定位所述当前待转化的文本的邻近文本,包括:在当前待转化的文本的内容为说话内容时,查找在所述当前待转化的文本之前、且与所述当前待转化的文本属于同个整句的第一文本;当查找到所述第一文本、且所述第一文本包括对话词时,将所述第一文本作为所述当前待转化的文本的邻近文本;否则,将在所述当前待转化的文本之后、且与所述当前待转化的文本属于同个整句的第二文本,作为所述当前待转化的文本的邻近文本。7.根据权利要求5所述的方法,其特征在于,所述根据所述邻近文本确定与所述说话内容对应的角色,包括:当所述邻近文本中包括多个角色时,判断所述多个角色的角色指代词之间是否存在被动类型对话词;当所述多个角色的角色指代词之间存在被动...

【专利技术属性】
技术研发人员:樊邵婷
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1