根据词汇发音生成后词汇发音的方法、设备和产品技术

技术编号:3047633 阅读:173 留言:0更新日期:2012-04-11 18:40
根据词汇发音信息提供有效生成后词汇发音信息的方法(2000),设备(2200)和产品(2300)。提出的方法根据词汇发音,有效生成后词汇发音,它包含的步骤有:对预定的部分文本确定词汇音素,词汇特征,以及边界信息;和利用用词汇音素,后词汇音素,词汇特征和边界信息训练过的预训练神经网络,对预定部分文本的后词汇发音,生成神经网络的推测。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及语音合成领域具体应用中根据词汇发音生成后词汇发音。如附图说明图1数字100所示,文本到语音的合成是书写或打印的文本(102)到语音(110)的转换。文本到语音的合成提供这种可能性,即以比记录语音及将其回放更低的成本提供声音输出。语音合成经常用于文本可能大量变更而且完全不可能事先录音的情况下。如象英语语言中,从字的拼写看字的发音常常是不清楚的,重要的是在提交拼写到声音模块(108)以生成语音波形(110)之前,借助语言学模块(104)将拼写(102)转换成明确的语音表示(106)。为了从拼写产生语音表示,可采用基于规则的系统,发声词典,或以这种发音词典训练过的自动拼写-发音转换过程。发音词汇,以及通过发音词汇训练的自动过程采用词汇发音,词汇发音是欠具体的(underspecified),一般化的发音,在自然语言中它可能或可能不产生修改的后词汇发音,例如,英文字foot在发声词典中也许以/fuht/列出,发音用TIMIT(德州仪器-麻省理工学院)标志给出,在Garofolo,JohnS.的“The Structure and Format of the DARPATIMIT CD-ROM Prototype”中作了说明。在自然语言中,最后的/t/或作为[t]出现,例如在以foot结束的句子中;或当foot在同一句子中以元音打头的另一字之前出现时,如在“my foot is……”中,作为轻拍音[dx]。对词典增加后词汇发音以代替词汇发音并非解决此问题的可行办法,原因有二个,第一个原因是此发声词典规模将明显增大,第二个原因是发声词典用于确定孤立的字的发音,而后词汇现象则在句子中跨越字时才碰到。所以当查找词汇时,可能存在也可能不存在用以确定合适的后词汇发音可用的足够信息。在神经网络和其它数据驱动形式的语音合成中,利用学习的过程,根据语音信息学习生成语音频谱信息。这就构成声学参数的神经网络训练,这样通过语音信息标记语音波形来实现然后训练。例如,神经网络或其它数据驱动系统来学习同特定词汇标记的时间片有关的频谱特性。当这种神经网络系统实际使用时,神经网络必须为给定的语音信息产生合适的频谱信息。如上所说的,这种语音信息是借助拼写一语音学词汇或以这种词汇训练的自动过程从文本中得到的。因为数据驱动语音合成方法的目的是产生类似于训练数据的测试数据,并且这也类似于自然语言,重要的是测试阶段得到的语音表示与用于训练阶段的那些要基本上相匹配,这将保障获得最可靠的性能。不幸的是从词典中找出的词汇发音和用于标记语音的发音之间经常很可能有某些不匹配,这种不匹配可出自至少四种不同的来源,发声者的特性,词典的特性,标记的特性,以及词汇发音和后词汇发音之间的不同。然而基于规则的方法从词汇发音产生后词汇发音对指定的语言也许会成功,基于规则的方法在同一时间不能自动地处理词典和标记符的特性。也就是新规则集需针对发声者,标记符和词典的每种可能组合开发,这导致使用不便。因此,需要有一自动过程,以根据词汇发音生成后词汇发音,同时提高合成语音的自然度及降低开发高质量语音合成系统所需要的时间和成本。基于神经网络,根据词汇发音生成后词汇发音的一种方法,设备和产品可满足此要求。图1是现有技术中熟知的文本到语音转换的原理表示。图2是按照本专利技术用词汇-后词汇转换器训练的神经网络训练过程的实施例的原理说明。图3是按照本专利技术采用神经网络词汇-后词汇转换器的文本到语音转换的实施例的原理说明。图4是按照本专利技术的后词汇标记的语音数据库的原理表示。图5是按照本专利技术神经网络词汇-后词汇转换器的操作的一实施例的原理说明。图6是按照本专利技术的词汇发音和后词汇发音定位的原理说明,其中词汇发音中的音素数目与后词汇发音中的音素数目相同。图7是按照本专利技术的词汇发音和后词汇发音定位的原理说明,其中词汇发音中的音素数大于后词汇发音中的音素数。图8是按照本专利技术的词汇发音和后词汇发音定位的原理说明,其中后词汇发音采用压缩的音素。图9是按照本专利技术用于测试的词汇-后词汇神经网络结构的一实施例的原理表示。图10是按照本专利技术用于训练词汇-后词汇神经网络的图15流1和图15流2编码过程的说明。图11是按照本专利技术用于训练和测试词汇-后词汇神经网络的图15流3编码过程的说明。图12是按照本专利技术用于测试词汇-后词汇神经网络的图15流1解码过程的说明。图13是按照本专利技术用于测试词汇-后词汇神经网络的图9流2编码过程的说明。图14是按照本专利技术为词汇-后词汇神经网络训练的滑动窗口的原理说明。图15是按照本专利技术用于训练的词汇后词汇神经网络的一实施例的原理说明。图16是按照本专利技术描绘使用的PE’S数的词汇-后词汇神经网络的一实施例的说明。图17是按照本专利技术使用的基于特征的误差量与欧氏距离误差量的比较说明。图18表示本领域熟知的欧氏误差量度的计算。图19是按照本专利技术的基于特征的误差量度计算表示。图20是按照本专利技术根据文本确定词汇信息和产生后词汇发音步骤的一实施例的流程图。图21是按照本专利技术用于通过神经网络转换词汇发音为后词汇发音步骤的一实施例的流程图。图22是按照本专利技术从词汇发音生成后词汇发音的微处理器/专用集成电路/微处理器与专用集成电路的组合的原理表示。图23是按照本专利技术从词汇发音生成后词汇发音的产品的原理说明。本专利技术提供一种利用神经网络自动地将词汇发音转换为词汇后发音的方法、设备和产品,该神经网络是在自发音词典中查到的字的词汇发音配对的后词汇层次上所标记的语音数据库的基础上训练的。训练结果形成有权重的神经网络,这些权重代表从词汇发音中产生后词汇发音所需的传递函数。数字200的图2提供神经网络训练过程的高层次图,而数字300的图3显示优选实施例中训练的神经网络词汇-后词汇转换器312装入语音合成器的语言学模块中。用于基于神经网络从词汇发音中生成后词汇发音的方法、设备和产品使正文至语音系统能比其它可能的方法生成更为自然的语音。此外,基于神经网络,从词汇发音中生成后词汇发音的系统在财务上优于已有技术之处是该系统是自动地可训练的,因此可以容易地适用于任何语言。表1显示用于词汇发音的TMIT音素以及用于阐述音素发音的拼写字。表1 拼写字中用于代表具体TIMIT音素的字母用黑体显示。词汇发音包含在斜杠∥内。表2显示用于后词汇发音的TIMIT音素。后词汇发音包含在方括弧[ ]中。表2 应注意,一个符号被解释为词汇音素或后词汇音素时其意义是不同的。例如,在后词汇层次上,[t]代表t除阻音,而在词汇层次上/t/可代表闭塞音和除阻音。为训练神经网络学习词汇-后词汇变换,在图2中提供一个后词汇标记的言语数据库。数字400的图4显示这个后词汇标记的语音数据库的选段。为建立标记的语音数据库,通常要记录个人的数百句美式英语语音。此记录试图导致产生英语中经常出现的音素组合。该记录用语音分析软件数字化和显示出来。图4显示自语音数据库中摘选的短段经过数字化和分析后所得波形(402)。该言语用三层标记系统加以注解。在第一层即拼写层(406)上,语音分段成为字长度单元,其中在发声过程中每个字的尾部与一特定时间相关联,每个终结字(Word-end)与该字的拼写相关联。在第二层即音素层(408),语音分成音素长度的单元段,其每个本文档来自技高网...

【技术保护点】
根据词汇发音提供有效生成后词汇发音的方法,包括以下步骤:1A)对预定的部分文本确定词汇音素,词汇特征和边界信息;及1B)利用使用词汇音素,后词汇音素,词汇特征和边界信息预训练过的预训练神经网络,为预定的部分文本的后词汇发音生成神经网 络推测。

【技术特征摘要】
US 1997-6-13 8748341.根据词汇发音提供有效生成后词汇发音的方法,包括以下步骤1A)对预定的部分文本确定词汇音素,词汇特征和边界信息;及1B)利用使用词汇音素,后词汇音素,词汇特征和边界信息预训练过的预训练神经网络,为预定的部分文本的后词汇发音生成神经网络推测。2.按照权利要求1的方法,其中具有特征2A-2F中的至少一个2A)边界信息包括至少边界距离信息和边界邻近信息其中之一;2B)其中,在步骤(1B)中,神经网络是前向馈送神经网络;2C)其中,在步骤(1B)中,神经网络使用误差向后传递;2D)其中,在步骤(1B)中,神经网络具有重复输入结构;2E)词汇特征包括发声特征;和2F)在预先训练的神经网络中已用下列步骤进行过训练2F1)对预定的部分文本提供由词汇音素组成的关联词汇发音和对目标发音提供由后词汇音素组成的后词汇发音;2F2)使用以基于特征的替代代价函数增强的动态编程定位,定位关联的词汇和后词汇表示;2F3)为词汇音素提供声学和发声信息;2F4)根据每个词汇音素和每个音节,字,短语,从句和句子边界之间距离,提供信息;2F5)根据每个词汇音素和每个音节,字,短语,从句和句子边界之间邻近性提供信息;2F6)提供预定长度的词汇音素上下文窗口;2F7)提供预定长度的词汇音素特征上下文窗口;以及2F8)训练神经网络以建立输入词汇音素与后词汇音素的关联,并且这里选择的至少是2F8a-2F8c其中之一2F8a)还包括采用基于特征的误差函数以表示目标和推测的后词汇发音之间的距离;2F8b)其中,在步骤(2F2)中,定位是以拼写和关联的语音表示中辅音字母和元音字母的位置为根据;和2F8c)其中,在步骤(2F2)中,基于特征的替代代价函数使用预定的替代,插入和删除代价和预定的替代表。3.按照权利要求1的方法,其中,具有特征3A-3G中的至少一个3A)词汇特征包括声学特征;3B)词汇特征包括发声特征的几何特征;3C)词汇特征包括声学特征的几何特征;3D)词汇音素使用特征向量来描述;3E)后词汇音素使用特征向量来描述;3F)其中,在步骤(1B)中,神经网络使用音调信息来训练;3G)其中,在步骤(1B)中,神经网络使用韵律信息训练;4.根据词汇发音提供有效生成后词汇发音的设备,包括4A)编码器,为预定的部分文本连接接收词汇音素,词汇特征,边界距离信息和边界邻近信息,以为训练过的后词汇神经网络提供数字输入,其中的预训练过的后词汇神经网络已用词汇音素,后词汇音素,词汇特征,边界距离信息和边界邻近信息训练过,并且这里的词汇和后词汇音素利用基于特征的自动动态编程定位被定位;以及4B)连接到编码器的预先训练过的后词汇神经网络,用以对预定的部分文本的后词汇发音生成神经网络的推测。5.按照权利要求4的设备,其中具有特征5A-5D中的至少一个5A)训练期间还包括采用基于特征的误差函数以表示目标和推测的后词汇发音之间的距离;5B)此设备包括5B1-5B3之一5B1)微处理器;5B2)专用集成电路;和5B3)(5B1)和(5B2)的组合;5C)此神经网络是前向馈送神经网络;5D)其中的预先训练的神经网络已按照下述方案进行过训练5D1)对预定的部分文本提供由词汇音素组成的相关词汇发音和对目标发音提供由后词汇音素组成的后词汇发音;5D2)使用以基于特征的替代代价函数...

【专利技术属性】
技术研发人员:科瑞安德鲁米勒奥汉凯拉里诺埃尔马塞
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1