本发明专利技术公开了一种语音合成装置及方法,该装置包括:模型构建模块,用于预先根据收集的大量发音人语音数据构建语音合成模型;接收模块,用于接收用户的待合成文本;风格确定模块,用于确定合成语音风格;模型修正模块,用于根据合成语音风格对所述语音合成模型进行修正,以使修正后的语音合成模型适应所述合成语音风格;合成模块,用于利用所述修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音数据。利用本发明专利技术,可以使合成语音的风格更丰富自然,有效提高用户体验,增加娱乐性。
【技术实现步骤摘要】
本专利技术涉及语音合成领域,具体涉及一种。
技术介绍
语音合成又称文语转换,其主要功能是将文本转换成语音,并尽可能使合成语音 有较高的可懂度和自然度。随着语音合成需求的日益增加,人们对合成语音的要求越来越 多样性。合成语音应该以一种能够重新产生自然重读和感情的方式传递信息,最好可以体 现出较强的韵律感,合成具有独特特征风格的语音,如感情色彩较重的小说朗读风格、评书 风格,及不同表现的幽默风格等非正式的合成语音风格,从而增加合成语音的多样性,满足 人们的不同需求。目前,合成不同风格的语音主要做法是基于规则的方法对合成语音进行调整,比 如将合成后的语音数据的基频调整为80到150之间。这种方法不能考虑到每种风格语音 的细节,从而使特定风格在合成语音上不能很好的体现,造成调整后的语音自然度较低,进 而降低了用户体验。
技术实现思路
本专利技术提供一种,以解决现有技术中基于规则的方法调整后 的语音自然度较低的问题。 为此,本专利技术提供如下技术方案: 一种语音合成装置,包括: 模型构建模块,用于预先根据收集的大量发音人语音数据构建语音合成模型; 接收模块,用于接收用户的待合成文本; 风格确定模块,用于确定合成语音风格; 模型修正模块,用于根据合成语音风格对所述语音合成模型进行修正,以使修正 后的语音合成模型适应所述合成语音风格; 合成模块,用于利用所述修正后的语音合成模型对所述待合成文本进行语音合 成,得到合成语音数据。 优选地,所述风格确定模块包括以下任意一种或多种子模块: 第一确定子模块,用于向用户提供可选的合成语音风格类型或风格语音数据,根 据用户的选择确定待合成文本的合成语音风格; 第二确定子模块,用于根据用户提供的风格语音数据确定待合成文本的合成语音 风格,所述用户提供的风格语音数据是用户通过朗读文本并录音得到的,所述文本是推荐 给用户的文本或者是用户自选的文本; 第三确定子模块,用于根据待合成文本的风格标注信息或内容确定待合成文本的 合成语音风格,所述待合成文本对应一个或多个风格标注信息,不同风格标注信息对应所 述待合成文本中不同的文本段; 第四确定子模块,用于根据用户的日志信息确定待合成文本的合成语音风格。 优选地,所述模型修正模块包括: 语音数据获取单元,用于获取与所述合成语音风格对应的风格语音数据; 语音识别单元,用于对所述风格语音数据进行语音识别,得到识别文本; 特征提取单元,用于分别提取所述识别文本的韵律特征及所述风格语音数据的声 学特征; 修正单元,用于将所述韵律特征和声学特征作为风格特征对所述语音合成模型进 行修正,得到修正后的语音合成模型。 优选地,所述语音合成模型包括:时长合成模型、基频合成模型、频谱合成模型; 所述修正单元利用最大似然线性回归MLLR算法或最大后验概率MAP算法对所述 时长合成模型、基频合成模型、频谱合成模型的能量维进行修正。 优选地,所述模型修正模块还包括: 预处理单元,用于去除所述语音数据获取单元获取的风格语音数据中的噪声,并 将去噪后的风格语音数据传送给所述语音识别单元。 一种语音合成方法,包括: 预先根据收集的大量发音人语音数据构建语音合成模型; 接收用户的待合成文本; 确定合成语音风格; 根据合成语音风格对所述语音合成模型进行修正,以使修正后的语音合成模型适 应所述合成语音风格; 利用所述修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音 数据。 优选地,所述确定合成语音风格包括以下任意一种或多种: 向用户提供可选的合成语音风格类型或风格语音数据,根据用户的选择确定待合 成文本的合成语音风格; 根据用户提供的风格语音数据确定待合成文本的合成语音风格,所述用户提供的 风格语音数据是用户通过朗读风格文本并录音得到的,所述风格文本是推荐给用户的文本 或者是用户自选的文本; 根据待合成文本的风格标注信息或内容确定待合成文本的合成语音风格,所述待 合成文本对应一个或多个风格标注信息,不同风格标注信息对应所述待合成文本中不同的 文本段; 根据用户的日志信息确定待合成文本的合成语音风格。 优选地,所述根据合成语音风格对所述语音合成模型进行修正包括: 获取与所述合成语音风格对应的风格语音数据; 对所述风格语音数据进行语音识别,得到识别文本; 分别提取所述识别文本的韵律特征及所述风格语音数据的声学特征; 将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正,得到修 正后的语音合成模型。 优选地,所述语音合成模型包括:时长合成模型、基频合成模型、频谱合成模型; 所述将所述韵律特征和声学特征作为风格特征对所述语音合成模型进行修正包 括: 利用最大似然线性回归MLLR算法或最大后验概率MAP算法对所述时长合成模型、 基频合成模型、频谱合成模型的能量维进行修正。 优选地,所述根据合成语音风格对所述语音合成模型进行修正还包括: 去除所述语音数据获取单元获取的风格语音数据中的噪声,得到去噪后的风格语 音数据; 所述对所述风格语音数据进行语音识别包括: 对所述去噪后的风格语音数据进行语音识别。 本专利技术实施例提供的,在接收到用户的待合成文本后,首先 确定目标语音的合成语音风格,然后根据该合成语音风格对预先根据收集的大量发音人 语音数据构建的语音合成模型修正,使修正后的语音合成模型更加适合于所述合成语音风 格。最后,利用修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音数 据。由于是直接对语音合成模型进行与合成语音风格相适应的修正,从而可以使合成语音 更加自然,大大提升用户体验。 进一步地,合成语音风格的确定可以根据应用环境及用户需求有多种不同实当前第1页1 2 3 4 本文档来自技高网...
【技术保护点】
一种语音合成装置,其特征在于,包括:模型构建模块,用于预先根据收集的大量发音人语音数据构建语音合成模型;接收模块,用于接收用户的待合成文本;风格确定模块,用于确定合成语音风格;模型修正模块,用于根据合成语音风格对所述语音合成模型进行修正,以使修正后的语音合成模型适应所述合成语音风格;合成模块,用于利用所述修正后的语音合成模型对所述待合成文本进行语音合成,得到合成语音数据。
【技术特征摘要】
【专利技术属性】
技术研发人员:孙见青,王影,江源,胡国平,胡郁,刘庆峰,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。