本发明专利技术提供了一种哼唱合成方法和系统,其中的方法具体包括:接收用户输入的文本;进行文本分析,获得与所述文本对应的音节序列,以及,该音节序列中每个音节的音节名称;针对所述音节序列中每个音节,根据其音节名称及上下文环境,结合统计参数模型,规划得到相应的时长参数、基频参数和谱参数;依据用户选择的歌曲模板和所述音节序列的音节个数,对所述规划得到的时长参数、基频参数进行调整,其中,所述歌曲模板中存储有音节的时长参数和基频参数;依据调整后的时长参数,对相应音节的谱参数进行插值调整;根据所述音节序列中每个音节的时长参数、基频参数和谱参数,利用合成器得到语音数据。本发明专利技术能够输出带有歌曲节奏和旋律的语音数据。
【技术实现步骤摘要】
本专利技术涉及语音合成
,特别是涉及一种哼唱合成方法和系统。
技术介绍
语音合成技术,又称文语转换(TTS,Text to Speech)技术,其能将任意文字信息 转化为标准流畅的语音朗读出来。目前的语音合成方法是预先录制一个语音库,然后在该语音库基础上完成一个语 音合成系统。此方法合成声音的语调节奏取决于语音库,即合成出的声音像是录音人在说 话。而在一些娱乐应用中,用户希望可以调节合成语音的语调节奏,比如,将短信以歌 曲的语调“唱”出来。总之,需要本领域技术人员迫切解决的一个技术问题就是如何能够合成具有歌 曲语调节奏的语音。
技术实现思路
本专利技术所要解决的技术问题是提供一种哼唱合成方法和系统,用于输出带有歌曲 节奏和旋律的语音数据。为了解决上述问题,本专利技术公开了一种哼唱合成方法,包括接收用户输入的文本;进行文本分析,获得与所述文本对应的音节序列,以及,该音节序列中每个音节的 音节名称;针对所述音节序列中每个音节,根据其音节名称及上下文环境,结合统计参数模 型,规划得到相应的时长参数、基频参数和谱参数;依据用户选择的歌曲模板和所述音节序列的音节个数,对所述规划得到的时长参 数、基频参数进行调整,其中,所述歌曲模板中存储有音节的时长参数和基频参数;依据调整后的时长参数,对相应音节的谱参数进行插值调整;根据所述音节序列中每个音节的时长参数、基频参数和谱参数,利用合成器得到 与所述音节序列对应的语音数据。优选的,所述对时长参数、基频参数进行调整的步骤,包括获取所述音节序列的音节个数;从所述歌曲模板中提取与所述音节个数相应的时长参数和基频参数,并覆盖所述 规划得到的时长参数、基频参数。优选的,所述文本分析步骤包括对所述文本进行分词操作;将所述文本中的数字符号转换为文字;依据分词结果,对数字符号转换后的文本进行韵律预测;根据韵律预测结果,将文本转换为音节序列,以及,基于音节映射表,得到该音节 序列中每个音节的音节名称。优选的,所述歌曲模板为通过如下步骤生成的模板针对歌曲样本,提取其中每个音节的时长参数和基频参数;将所述时长参数和基频参数,保存至歌曲模板。优选的,所述歌曲样本包括清唱歌曲样本。另一方面,本专利技术还公开了一种哼唱合成系统,包括接口模块,用于接收用户输入的文本;文本分析模块,用于进行文本分析,获得与所述文本对应的音节序列,以及,该音 节序列中每个音节的音节名称;参数规划模块,用于针对所述音节序列中每个音节,根据其音节名称及上下文环 境,结合统计参数模型,规划得到相应的时长参数、基频参数和谱参数;第一参数调整模块,用于依据用户选择的歌曲模板和所述音节序列的音节个数, 对所述规划得到的时长参数、基频参数进行调整,其中,所述歌曲模板中存储有音节的时长 参数和基频参数;第二参数调整模块,用于依据调整后的时长参数,对相应音节的谱参数进行插值 调整;合成模块,用于根据所述音节序列中每个音节的时长参数、基频参数和谱参数,利 用合成器得到与所述音节序列对应的语音数据。优选的,所述第一参数调整模块包括获取单元,用于获取所述音节序列的音节个数;调整单元,用于从歌曲模板中提取与所述音节个数对应的参数信息,覆盖所述规 划得到的时长参数、基频参数,并对谱参数依据规划时长进行插值。优选的,所述文本分析模块包括分词单元,用于对所述文本进行分词操作;数字符号转换单元,用于将所述文本中的数字符号转换为文字;韵律预测单元,用于依据分词结果,对数字符号转换后的文本进行韵律预测;音节转换单元,用于根据韵律预测结果,将文本转换为音节序列,以及,基于音节 映射表,得到该音节序列中每个音节的音节名称。优选的,所述系统还包括歌曲模板生成模块,该歌曲模板生成模块包括提取单元,用于针对歌曲样本,提取其中每个音节的时长参数和基频参数;保存单元,用于将所述时长参数和基频参数,保存至歌曲模板。优选的,所述歌曲样本包括清唱歌曲样本。与现有技术相比,本专利技术具有以下优点本专利技术采用歌曲模板以音节为单位存储时长参数、基频参数,且可以依据歌曲名 称等表征节奏、旋律的规则命名所述歌曲模板;这样,用户可以依据个人习惯、应用场景等 实际需求来选择合适的歌曲模板,以对规划得到的时长和基频参数进行调整,最后基于参 数合成技术得到用户输入文本的语音数据。由于在语音参数中,时长和基频参数共同决定 节奏、旋律方面的信息,谱参数决定音色信息,即发音人的声音特点信息;因而本专利技术能够5将歌曲模板的时长、基频参数与音库发音人的谱参数结合,能够得到音色为音库发音人、语 气节奏为歌曲并带有一定旋律的哼唱语音流。附图说明图1是本专利技术一种哼唱合成方法实施例的流程图;图2是本专利技术一种哼唱合成系统实施例的结构图。具体实施例方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本专利技术作进一步详细的说明。本专利技术实施例的核心构思之一在于,基于时长参数和基频参数生成歌曲模板,并 且,在用户输入文本时,可以依据所述歌曲模板对规划得到的时长和基频参数进行调整,然 后利用合成器得到所述文本的语音数据。由于在语音参数中,时长和基频参数共同决定节 奏、旋律方面的信息,谱参数决定音色信息,即发音人的声音特点信息;因而上述将歌曲模 板的时长、基频参数与音库发音人的谱参数结合,能够得到音色为音库发音人、语气节奏为 歌曲并带有一定旋律的哼唱语音流。参照图1,示出了本专利技术一种哼唱合成方法实施例的流程图,具体可以包括步骤101、接收用户输入的文本;所述用户输入的文本可以包括文字和数字符号,其中,所述文字可以是汉字、日 文、韩文、英文等,或者,上述多种文字中的一种或者几种,如汉英组合等等,本专利技术对具体 的文本不加以限制,以下主要以汉字为例。步骤102、进行文本分析,获得与所述文本对应的音节序列,以及,该音节序列中每 个音节的音节名称;以下具体的文本“北京在2008-8-8举行了盛大的奥运会开幕式”为例,对所述文 本分析步骤进行说明,具体可以包括子步骤Al、对所述文本进行分词操作;分词结果北京/在/2008-8-8/举行/ 了 /盛大/的/奥运会/开幕式子步骤A2、将所述文本中的数字符号转换为文字;对应本例,所述数字符号转换也即,将“2008-8-8”转换为“二零零八年八月八日”, 数字符号转换后的文本为“北京在二零零八年八月八日举行了盛大的奥运会开幕式”。子步骤A3、依据分词结果,对数字符号转换后的文本进行韵律预测;韵律预测结果北京在二零零八年八月八日/举行了盛大的奥运会开幕式子步骤A4、根据韵律预测结果,将文本转换为音节序列,以及,基于音节映射表,得 到该音节序列中每个音节的音节名称。音节;!5歹[J :bei3 jingl zai4 er4 ling2 ling2 bal nian2 bal yue4 bal ri4Ju3 xing2 le5 sheng4 da4 de5 ao4 yun4 hui4 kail mu4 shi4其中,数字12345代表声调,分别为一声、二声、三声、四声、轻声。在实际中,汉字 音节的音节名称可通过查询汉字音节映射表得到,例如上例中的“bei3”即是音节名称。步骤103、针对所述音节序列中每个音节,根据其音节名称及上下文环境,结合统计参数模型,规划得到相应的时长本文档来自技高网...
【技术保护点】
一种哼唱合成方法,其特征在于,包括:接收用户输入的文本;进行文本分析,获得与所述文本对应的音节序列,以及,该音节序列中每个音节的音节名称;针对所述音节序列中每个音节,根据其音节名称及上下文环境,结合统计参数模型,规划得到相应的时长参数、基频参数和谱参数;依据用户选择的歌曲模板和所述音节序列的音节个数,对所述规划得到的时长参数、基频参数进行调整,其中,所述歌曲模板中存储有音节的时长参数和基频参数;依据调整后的时长参数,对相应音节的谱参数进行插值调整;根据所述音节序列中每个音节的时长参数、基频参数和谱参数,利用合成器得到与所述音节序列对应的语音数据。
【技术特征摘要】
【专利技术属性】
技术研发人员:李健,张连毅,武卫东,
申请(专利权)人:北京捷通华声语音技术有限公司,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。