传输语音数据的方法技术

技术编号：3047470 阅读：173 留言：0更新日期：2012-04-11 18:40

为了传输语音数据，语音数据流被分解成音素，在一个可选择的具有语音和／或说话人特征的音素目录（ＰＮ１、ＰＮ２）中，为每个音素分配一个代码字符，然后将该代码字符传输到传输目的地（ＳＤ２）的语音合成装置（ＳＳ）中，这样，待传输的数据量被大大缩减。语音数据流分解成音素是由神经网络（ＮＮ）来实施的，此神经网络被训练用来识别存放于所选择具有语音和／或说话人特征的音素目录（ＰＮ１、ＰＮ２）中的音素。所接收的代码字符流又由语音合成装置（ＳＳ）转换成音素序列，然后输出。（*该技术在2018年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种，其中，语音数据在传输之前被压缩，在到达传输目的地后又被解压。在此，压缩是以把语音数据分解成音素为基础的。音素是感觉说话语言的基本声学语言元素。大家已知道，语音数据在通信网内传输之前需要被压缩，以尽可能少地占用通信网的传输带宽。在这种情况下，若想在传输目的地再现语音，被压缩的语音数据就要通过解压恢复到原来的状态或与之等效的状态。由于通过这种方法实现的传输带宽缩减直接取决于所使用的压缩方法压缩率，所以争取一个尽可能高的压缩率是很有必要的。在语音传输中，通常采用预测方法来进行压缩，它们利用了语音数据中产生的数据模型在统计上的非均匀分布，来减少语音数据所特有的高冗余。在解压时，可以由被压缩的语音数据重建最初的语音数据，并且只有微小的、方法所固有的损失，甚至毫无改变。在此，所达到的压缩率大约在1∶10这个数量级。这种方法已经示例性地在“信息与编码”一书中描述过，其作者为Richard W．Hamming，WeinheinVCH出版社，1987，第81页至97页。在典型的语音数据中，纯内容的信息仅占全部语音信息的很小一部分。通常，语音信息的绝大部分是由说话人的特征信息组成，该特征信息譬如用说话人的声音细微差别或音域细微差别来表达。语音数据的传输基本上只取决于其内容信息-比如在纯信息通知、自动报告中等-，因此，通过对说话人的特征信息进行缩减，也可以获得一个比较高的压缩率，该压缩率比采用维持语音数据的信息内容完整或接近完整的方法要高得多。表达说话人语音以及内容信息-所说出的词-的最小声学单位是音素。专利文献EP 71716 B1、DE 35132...

【技术保护点】
运用具有语音和／或说话人特征的音素目录（ＰＮ１、ＰＮ２、ＰＳ１、ＰＳ２）将语音数据从语音数据源（ＳＤ１）传输到传输目的地（ＳＤ２）的方法，在这些目录中，存放有与语音数据模型相对应的音素，并且每个音素均被分配了一个单值的代码字符，该方法具有以下步骤：ａ）根据发送语音数据的用户的标识，选择一个给该用户分配的、具有说话人和／或语音特征的音素目录（ＰＮ１），ｂ）待传输的语音数据被传送到一个被训练用来识别音素的神经网络（ＮＮ）中，该音素是存放在被选择出的音素目录（ＰＮ１）中的，视经网络就所含音素方面对语音数据作出分析，ｃ）为语音数据中被识别的音素确定其在所选择音素目录（ＰＮ１）中所分别分配的代码字符，ｄ）代码字符被传输到传输目的地（ＳＤ２）处的语音合成装置（ＳＳ）中，ｅ）所接收的代码字符流由语音合成装置（ＳＳ）转换成在音素目录（ＰＳ１）中均分配了音素的代码字符序列，以及ｆ）输出这个序列。

【技术特征摘要】
DE 1998-2-3 19804189.61．运用具有语音和／或说话人特征的音素目录(PN1、PN2、PS1、PS2)将语音数据从语音数据源(SD1)传输到传输目的地(SD2)的方法，在这些目录中，存放有与语音数据模型相对应的音素，并且每个音素均被分配了一个单值的代码字符，该方法具有以下步骤a)根据发送语音数据的用户的标识，选择一个给该用户分配的、具有说话人和／或语音特征的音素目录(PN1)，b)待传输的语音数据被传送到一个被训练用来识别音素的神经网络(NN)中，该音素是存放在被选择出的音素目录(PN1)中的，神经网络就所含音素方面对语音数据作出分析，c)为语音数据中被识别的音素确定其在所选择音素目录(PN1)中所分别分配的代码字符，d)代码字符被传输到传输目的地(SD2)处的语音合成装置(SS)中，e)所接收的代码字符流由语音合成装置(SS)转换成在音素目录(PS1)中均分配了音素的代码字符序列，以及f)输出这个序列。2．运用具有语音和／或说话人特征的音素目录(PN1、PN2、PS1、PS2)将语音数据从语音数据源(SD1)传输到传输目的地(SD2)的方法，在这些目录中，存放有与语音数据模型相对应的音素，并且每个音素均被分配了一个单值的代码字符，该方法具有以下步骤a)待传输的语音数据被传输到一个被训练用来识别不同语音和／或说话人的神经网络中，此神经网络识别待传输语音数据所属的语音，和／或待传输语音数据的来源-说话人，此神经网络还促使选择一种分配给语音和／或说话人的、具有语音和／或说话人特征的音素目录(PN1)，b)待传输的语音数据被传送到一个被训练用来识别音素的神经网络(NN)中，该音素是存放在被选择出的音素目录(PN1)中的，神经网络就所含音素方面...

【专利技术属性】
技术研发人员：K许利希，W弗拉尔斯，
申请(专利权)人：西门子公司，
类型：发明
国别省市：DE[德国]

全部详细技术资料下载我是这个专利的主人