针对现有计算机语音合成系统,计算机发音语音不连续,输出的语音不流畅、不自然的问题,本发明专利技术提出一种混合型语音合成系统,包括语音库、语音合成引擎,所述语音库为混合型语音库,包括综合录入的真人发音和计算机处理的非真人发音,其语音库中词语与句子为真人发音,单个字词为非真人发音。语音合成引擎通过对文本中字、词、句的判断,检索调用语音库中已经录制好的真人发音和计算机处理的非真人发音,与传统的文字到语音的自动合成技术对比,本发明专利技术合成语音质量高,语音连续,输出的语音流畅、自然,特别适合无线平台的语音合成,如智能手机,手持电子设备平台,导航系统,以及公共场合的广播系统等。
【技术实现步骤摘要】
本专利技术涉及一种语音合成系统,尤其是一种混合型语音合成系统。
技术介绍
语音合成是计算机
中的一个分支,主要功能是把一个给定的输入文本, 通过计算机程序,自动转化为语音数据,随后可由输出设备如扬声器或耳机等输出。不同的 自然语音的语音合成方法一般各不相同。混合型语音合成系统是语音合成系统的一类,它 包括一个合成引擎和一个预先录入的语音数据库,合成引擎通过计算机软件查找语音数据 库中匹配的读音把文本转化为语音。但是,通过这种系统计算机所发出的语音不连续,输出 的语音不流畅、不自然。
技术实现思路
为解决上述技术问题,本专利技术提出一种混合型语音合成系统,包括语音库、语音合 成引擎,所述语音库为混合型语音库,包括综合录入的真人发音和计算机处理的非真人发 音,其语音库中词语与句子为真人发音,单个字词为非真人发音。所述混合型语音库制作过程包括以下步骤A.对语音数据进行统计,分析单个字、词或句子可能出现的所有发音,这一步骤必 须具备完备性,即所收集和统计的数据必须覆盖一种自然语言的全部;B.对字、词、句子的可能发音进行录音,根据适用的目标应用程序的要求,进行有 损或无损压缩,编译成二进制文件,另外创建索引信息,应用计算机程序根据一个字、词或 句子查找到语音的二进制文件;C.搜集语言的材料库,分析字词句发音的例外情况,对于例外情况,建立规则集, 所述规则集对于给定的字词以及所处的上下文信息,准确地给出最佳的发音;D.把语音库,规则集压缩创建索引,生成混合型语音库。所述语音合成引擎核心功 能是把输入的文本转换为语音,转换过程包括以下步骤A.对输入的自然语音文本进行分析,该分析过程包括语句的切分,寻找切分最 理想的粒度,分析语句中可能出现的特殊情况,对于有多种发音可能或者可能动态改变发 音的情况,要把待发音的字、词句以及上下文的情况进行编码,生成一个可以被上下文中提 及的规则集识别的输入情况;B.对切分好的字、词、句或段落,查找语音库或者规则集,按索引获取语音信息;C.合成,优化处理并输出。由于本专利技术所述语音库为混合型语音库,包括综合录入的真人发音和计算机处理 的非真人发音,语音库中词语与句子为真人发音,真人发音具有语言流畅、清楚、连续的优 点,因此非常适用以下领域(不限于所列)1、无线平台的语音合成。比如智能手机,手持电子设备平台。这些平台通常只有 有限的存储空间。在这些平台上的带有语音的应用程序可以使用本语音合成系统,达到节省存储空间,提高合成质量的目的。2、导航系统。GPS和车载导航系统需要高质量的语音导航,在需要的时候对驾驶员 做出提示。这是本系统一个非常理想的应用场合。此外,任何需要对操作人员进行语音提 示或指令,而需要尽量少分散操作元注意力的应用场合,均可使用本语音合成系统。3、公共场合的广播系统。目前广播系统大多使用人工广播,既浪费人力资源,也容 易出错,而广播的内容,往往是程序输出的结果(比如车站机场的提示信息,均是调度软件 系统的输出数据)。如果把这些结果数据直接输入到本语音合成系统中,可以降低人员成 本,而且不必担心认为因素导致的错误。有益效果与传统的文字到语音的自动合成技术对比,本专利技术具有以下优点1、合成结果效果好,语音连续,输出的语言流畅、自然。经过本系统合成的语音,可 以达到真人发音的效果;2、体积小。本系统自带的语音库,体积通常在5M字节以下,体积小,效率高,适合 各种计算平台,包括移动手机平台;3、语音数据库不随待覆盖文本的大小增大而增大;具体实施例方式实施例1 一种混合型语音合成系统,包括语音库、语音合成引擎,所述语音库为混合型语音 库,包括综合录入的真人发音和计算机处理的非真人发音,其语音库中词语与句子为真人 发音,单个字词为非真人发音。所述混合型语音库制作过程包括以下步骤A、对语音数据进行统计,分析单个字、词或句子可能出现的所有发音,这一步骤必 须具备完备性,即所收集和统计的数据必须覆盖一种自然语言的全部;B、对字、词、句子的可能发音进行录音,根据适用的目标应用程序的要求,进行有 损或无损压缩,编译成二进制文件,另外创建索引信息,应用计算机程序根据一个字、词或 句子查找到语音的二进制文件;C、搜集语言的材料库,分析字词句发音的例外情况,对于例外情况,建立规则集, 所述规则集对于给定的字词以及所处的上下文信息,准确地给出最佳的发音;D、把语音库,规则集压缩创建索引,生成混合型语音库。所述语音合成引擎核心功能是把输入的文本转换为语音,转换过程包括以下步 骤A、对输入的自然语音文本进行分析,该分析过程包括语句的切分,寻找切分最理 想的粒度,分析语句中可能出现的特殊情况,对于有多种发音可能或者可能动态改变发音 的情况,要把待发音的字、词句以及上下文的情况进行编码,生成一个可以被上下文中提及 的规规则集识别的输入情况;B.对切分好的字、词、句或段落,查找语音库或者规则集,按索引获取语音信息;C.合成,优化处理并输出。由于本专利技术所述语音库为混合型语音库,包括综合录入的真人发音和计算机处理的非真人发音,语音库中词语与句子为真人发音,真人发音具有语言流畅、清楚、连续的优 点,因此非常适用以下领域(不限于所列)1、无线平台的语音合成。比如智能手机,手持电子设备平台。这些平台通常只有 有限的存储空间。在这些平台上的带有语音的应用程序可以使用本语音合成系统,达到节 省存储空间,提高合成质量的目的。2、导航系统。GPS和车载导航系统需要高质量的语音导航,在需要的时候对驾驶员 做出提示。这是本系统一个非常理想的应用场合。此外,任何需要对操作人员进行语音提 示或指令,而需要尽量少分散操作元注意力的应用场合,均可使用本语音合成系统。3、公共场合的广播系统。目前广播系统大多使用人工广播,既浪费人力资源,也容 易出错,而广播的内容,往往是程序输出的结果(比如车站机场的提示信息,均是调度软件 系统的输出数据)。如果把这些结果数据直接输入到本语音合成系统中,可以降低人员成 本,而且不必担心认为因素导致的错误。与传统的文字到语音的自动合成技术对比,本专利技术具有以下优点1、合成语音质量高,语音连续,输出的语音流畅、自然。经过本合成系统合成的语 音结果可以达到CD或近似CD音质。而传统语音合成结果,通常只可以达到电台语音效果;2、语音数据库体积小。混合型语音合成系统自身都带有一个语音数据库。本合成 系统的语音数据库,对一种自然语音,体积只有不到3. 5M字节,而传统语音合成系统的语 音数据库大小是我们的10倍甚至更多;3、体积不随词库大小的增大而线性增大。传统语音合成技术为了优化,可以对特 定领域的应用定制语音数据库。即根据可能需要覆盖的文本,提供可以满足需求的最小数 据库,随着需要覆盖的文本空间的增大,就需要增大语音数据库的大小。而本合成系统由于 考虑了自然语音的特性,语音数据库大小不仅非常小,而且不会随着需要覆盖的文本空间 的增大而增大。在待覆盖词库词条达到11万条的时候数据库大小仅仅为3. 2M,随后即基本 保持一个常数。当待覆盖词库达到17万条时,数据库大小仅增加到3. 3M。实施例2 一种混合型语音合成系统,包括语音库、语音合成引擎,所述语音库为混合型语音 库,包括综合录入的真人发音和计算机处理的非真人本文档来自技高网...
【技术保护点】
一种混合型语音合成系统,包括语音库、语音合成引擎,其特征在于:所述语音库为混合型语音库,包括综合录入的真人发音和计算机处理的非真人发音,其语音库中词语与句子为真人发音,单个字词为非真人发音。
【技术特征摘要】
【专利技术属性】
技术研发人员:韩松,
申请(专利权)人:韩松,
类型:发明
国别省市:32[中国|江苏]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。