根据词汇发音生成后词汇发音的方法、设备和产品技术

技术编号：3047633 阅读：186 留言：0更新日期：2012-04-11 18:40

根据词汇发音信息提供有效生成后词汇发音信息的方法（２０００），设备（２２００）和产品（２３００）。提出的方法根据词汇发音，有效生成后词汇发音，它包含的步骤有：对预定的部分文本确定词汇音素，词汇特征，以及边界信息；和利用用词汇音素，后词汇音素，词汇特征和边界信息训练过的预训练神经网络，对预定部分文本的后词汇发音，生成神经网络的推测。（*该技术在2018年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音合成领域具体应用中根据词汇发音生成后词汇发音。如附图说明图1数字100所示，文本到语音的合成是书写或打印的文本(102)到语音(110)的转换。文本到语音的合成提供这种可能性，即以比记录语音及将其回放更低的成本提供声音输出。语音合成经常用于文本可能大量变更而且完全不可能事先录音的情况下。如象英语语言中，从字的拼写看字的发音常常是不清楚的，重要的是在提交拼写到声音模块(108)以生成语音波形(110)之前，借助语言学模块(104)将拼写(102)转换成明确的语音表示(106)。为了从拼写产生语音表示，可采用基于规则的系统，发声词典，或以这种发音词典训练过的自动拼写-发音转换过程。发音词汇，以及通过发音词汇训练的自动过程采用词汇发音，词汇发音是欠具体的(underspecified)，一般化的发音，在自然语言中它可能或可能不产生修改的后词汇发音，例如，英文字foot在发声词典中也许以/fuht/列出，发音用TIMIT(德州仪器-麻省理工学院)标志给出，在Garofolo，JohnS.的“The Structure and Format of the DARPATIMIT CD-ROM Prototype”中作了说明。在自然语言中，最后的/t/或作为[t]出现，例如在以foot结束的句子中；或当foot在同一句子中以元音打头的另一字之前出现时，如在“my foot is……”中，作为轻拍音[dx]。对词典增加后词汇发音以代替词汇发音并非解决此问题的可行办法，原因有二个，第一个原因是此发声词典规模将明显增大，第二个原因是发声词典用于确定孤立...

【技术保护点】
根据词汇发音提供有效生成后词汇发音的方法，包括以下步骤：１Ａ）对预定的部分文本确定词汇音素，词汇特征和边界信息；及１Ｂ）利用使用词汇音素，后词汇音素，词汇特征和边界信息预训练过的预训练神经网络，为预定的部分文本的后词汇发音生成神经网络推测。

【技术特征摘要】
US 1997-6-13 8748341.根据词汇发音提供有效生成后词汇发音的方法，包括以下步骤1A)对预定的部分文本确定词汇音素，词汇特征和边界信息；及1B)利用使用词汇音素，后词汇音素，词汇特征和边界信息预训练过的预训练神经网络，为预定的部分文本的后词汇发音生成神经网络推测。2.按照权利要求1的方法，其中具有特征2A-2F中的至少一个2A)边界信息包括至少边界距离信息和边界邻近信息其中之一；2B)其中，在步骤(1B)中，神经网络是前向馈送神经网络；2C)其中，在步骤(1B)中，神经网络使用误差向后传递；2D)其中，在步骤(1B)中，神经网络具有重复输入结构；2E)词汇特征包括发声特征；和2F)在预先训练的神经网络中已用下列步骤进行过训练2F1)对预定的部分文本提供由词汇音素组成的关联词汇发音和对目标发音提供由后词汇音素组成的后词汇发音；2F2)使用以基于特征的替代代价函数增强的动态编程定位，定位关联的词汇和后词汇表示；2F3)为词汇音素提供声学和发声信息；2F4)根据每个词汇音素和每个音节，字，短语，从句和句子边界之间距离，提供信息；2F5)根据每个词汇音素和每个音节，字，短语，从句和句子边界之间邻近性提供信息；2F6)提供预定长度的词汇音素上下文窗口；2F7)提供预定长度的词汇音素特征上下文窗口；以及2F8)训练神经网络以建立输入词汇音素与后词汇音素的关联，并且这里选择的至少是2F8a-2F8c其中之一2F8a)还包括采用基于特征的误差函数以表示目标和推测的后词汇发音之间的距离；2F8b)其中，在步骤(2F2)中，定位是以拼写和关联的语音表示中辅音字母和元音字母的位置为根据；和2F8c)其中，在步骤(2F2)中，基于特征的替代代价函数使用预定的替代，插入和删除代价和预定的替代表。3.按照权利要求1的方法，其中，具有特征3A-3G中的至少一个3A)词汇特征包括声学特征；3B)词汇特征包括发声特征的几何特征；3C)词汇特征包括声学特征的几何特征；3D)词汇音素使用特征向量来描述；3E)后词汇音素使用特征向量来描述；3F)其中，在步骤(1B)中，神经网络使用音调信息来训练；3G)其中，在步骤(1B)中，神经网络使用韵律信息训练；4.根据词汇发音提供有效生成后词汇发音的设备，包括4A)编码器，为预定的部分文本连接接收词汇音素，词汇特征，边界距离信息和边界邻近信息，以为训练过的后词汇神经网络提供数字输入，其中的预训练过的后词汇神经网络已用词汇音素，后词汇音素，词汇特征，边界距离信息和边界邻近信息训练过，并且这里的词汇和后词汇音素利用基于特征的自动动态编程定位被定位；以及4B)连接到编码器的预先训练过的后词汇神经网络，用以对预定的部分文本的后词汇发音生成神经网络的推测。5.按照权利要求4的设备，其中具有特征5A-5D中的至少一个5A)训练期间还包括采用基于特征的误差函数以表示目标和推测的后词汇发音之间的距离；5B)此设备包括5B1-5B3之一5B1)微处理器；5B2)专用集成电路；和5B3)(5B1)和(5B2)的组合；5C)此神经网络是前向馈送神经网络；5D)其中的预先训练的神经网络已按照下述方案进行过训练5D1)对预定的部分文本提供由词汇音素组成的相关词汇发音和对目标发音提供由后词汇音素组成的后词汇发音；5D2)使用以基于特征的替代代价函数...

【专利技术属性】
技术研发人员：科瑞安德鲁米勒，奥汉凯拉里，诺埃尔马塞，
申请(专利权)人：摩托罗拉公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人