当前位置: 首页 > 专利查询>西门子公司专利>正文

传输语音数据的方法技术

技术编号:3047470 阅读:160 留言:0更新日期:2012-04-11 18:40
为了传输语音数据,语音数据流被分解成音素,在一个可选择的具有语音和/或说话人特征的音素目录(PN1、PN2)中,为每个音素分配一个代码字符,然后将该代码字符传输到传输目的地(SD2)的语音合成装置(SS)中,这样,待传输的数据量被大大缩减。语音数据流分解成音素是由神经网络(NN)来实施的,此神经网络被训练用来识别存放于所选择具有语音和/或说话人特征的音素目录(PN1、PN2)中的音素。所接收的代码字符流又由语音合成装置(SS)转换成音素序列,然后输出。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种,其中,语音数据在传输之前被压缩,在到达传输目的地后又被解压。在此,压缩是以把语音数据分解成音素为基础的。音素是感觉说话语言的基本声学语言元素。大家已知道,语音数据在通信网内传输之前需要被压缩,以尽可能少地占用通信网的传输带宽。在这种情况下,若想在传输目的地再现语音,被压缩的语音数据就要通过解压恢复到原来的状态或与之等效的状态。由于通过这种方法实现的传输带宽缩减直接取决于所使用的压缩方法压缩率,所以争取一个尽可能高的压缩率是很有必要的。在语音传输中,通常采用预测方法来进行压缩,它们利用了语音数据中产生的数据模型在统计上的非均匀分布,来减少语音数据所特有的高冗余。在解压时,可以由被压缩的语音数据重建最初的语音数据,并且只有微小的、方法所固有的损失,甚至毫无改变。在此,所达到的压缩率大约在1∶10这个数量级。这种方法已经示例性地在“信息与编码”一书中描述过,其作者为Richard W.Hamming,WeinheinVCH出版社,1987,第81页至97页。在典型的语音数据中,纯内容的信息仅占全部语音信息的很小一部分。通常,语音信息的绝大部分是由说话人的特征信息组成,该特征信息譬如用说话人的声音细微差别或音域细微差别来表达。语音数据的传输基本上只取决于其内容信息-比如在纯信息通知、自动报告中等-,因此,通过对说话人的特征信息进行缩减,也可以获得一个比较高的压缩率,该压缩率比采用维持语音数据的信息内容完整或接近完整的方法要高得多。表达说话人语音以及内容信息-所说出的词-的最小声学单位是音素。专利文献EP 71716 B1、DE 3513243 C2和EP 423800 B1中曾公布过一些装置和方法,其中,对语音数据流所包含的音素进行分析,然后将其转换成一种分配给可识别音素的代码字符流,以便由此在传输之前对语音数据进行压缩。在此,存在一个重要的问题,即任何待传输的语音数据流其组成成分-音素-需要可靠地识别。尤其困难的是,按照说话人及其说话习惯,同一个音素可能产生很不相同的表征。如果语音数据流中的音素不能被识别或分配给了错误的声音,则语音的传输质量就会变坏-可能导致语音不清晰。因此,对这种语音传输方法的质量以及应用范围来说,可靠的音素分析是一个重要的标准。本专利技术的任务在于,提供一种传输语音数据的灵活有效方法,在该方法中,通过使用一种经过改善的音素分析,语音数据能够在传输之前进行压缩。根据本专利技术,该任务由具有权利要求1的特征方法实现。本专利技术的优选扩展在附属权利要求中给出。在本专利技术方法中,对于从语音数据源传输到传输目的地的语音数据,它们要在真正传输之前进行音素分析。为了使用该方法,语音数据可以以各种形式出现;比如以模拟或数字的形式,或者为描述成语音信号的特征向量,它们均为时间分辨和/或频率分辨的表示法。根据本专利技术,音素分析由一种神经网络来实现,此神经网络被训练用来对音素进行识别。借助神经网络进行语音或音素识别的原理已在诸如“用于语音识别的神经网络回顾(Review of Neural Networks for SpeechRecognition)”中讲述过,其作者为R.P.Lippmann,此文出自《神经计算》1989年1月,1至38页。语音数据流是按照音素进行分析的,神经网络则训练成与音素相适配,这种音素存放在具有语音特征和/或说话人特征的音素目录中,在此,它们均被分配了单值的代码字符-如一个索引或一个数字。在这种或其它类的关系中,作为语音的土语、方言以及具有语音特征的表达都能够被理解。在本专利技术方法所提供的步骤中,通过对属于各种不同语音和/或源自不同说话人的有代表性语音数据进行分析,可以构建具有语音或说话人特征的音素目录。在此,这种声学语言元素-对于每个有代表性的语音数据,该语言元素被证明是有特征的,或者为该语言元素的有代表性理想形式-作为音素被存放在相关的音素目录中。分析有代表性的语音数据尤其还可以利用神经网络来实现。此外,可以选择具有代表性的语音数据或其特征语言元素,以优选地适应待传输语音数据的特性-如背景噪声或其它类似物等。音素目录比如可以作为一种常规的存储器和/或作为受训神经网络的一部分来实现,其中,在后一种情况下,所存放的音素可以由受训神经网络的一个内部状态来体现。此外,由神经网络学习状态所确定的所谓计权矩阵也可以理解为音素目录。此种计权矩阵可以从受训的神经网络中读出,并存放到一个存储器中,然后在需要时读入到任意一个神经网络中去,由此使其成为一个相应的受训神经网络。在语音数据的音素分析之前,首先通过一个神经网络把具有语音和/或说话人特征的音素目录选择出来,接着,将语音数据输至神经网络中进行音素分析-该神经网络被训练为对存放在音素目录中的音素进行识别。在此,音素目录的选择可以根据用来发送待传输语音数据的用户的标识来进行,或者由区别语音和/或说话人的神经网络来促成-此神经网络被训练用来识别待传输语音数据所属的语音,和/或识别待传输的语音数据的来源,亦即说话人。对于在音素分析时从语音数据内识别的音素,为它们查明其在选择音素目录中被分配的代码字符,然后用该代码字符代表同每个音素相对应的语音数据模型而传送到目的地。因为传输的代码字符通常比由此所代表的语音数据模型要短得多,所以待传送的数据量通常被大大缩减了,从而获得一个高的压缩率。在传输目的地,接收的代码字符被输入一种语音合成装置,该装置把代码字符流再次转换为音素序列,并将其输出。在此,为了把所接收的代码字符替换为输出的音素,语音合成装置同样也对音素目录进行访问。压缩率还有可能通过下述方法再度提高,即在传输之前,代码字符流通过另一种压缩方法进行压缩,而在传输目的地输送给语音合成装置之前,又再次被解压。通过使用具有说话人语音特征的音素目录,可提高音素分析的可靠性,尤其是在传输源自不同说话人的语音数据时,它还可以提高语音合成质量。此外,通过选择作为语音合成根据的音素目录,语音数据再现还可适合预定的要求,比如,模拟某个说话人或语音的特征,或者在特殊情况下通过改变声音来引起注意等。按照本专利技术方法的一种优选扩展,在语音数据传输期间,音素目录可通过分析具体待传输的语音数据-有时是多次-来进行更新,以及/或者神经网络借助待传输语音数据继续进行训练。这样,音素分析或语音合成也能适应语音特征的短时改变。根据本专利技术的一种扩展,对于语音合成装置在音素分析中所使用的音素目录,信息能够经过它进行传输。利用这种方式,比如,语音合成装置可以示例性地根据说话人或语音的改变而指示出音素目录的变化,或者,如果需要要用到的音素目录还不存在,就把信息全部或部分地传送出去。这样,音素目录的改变或更新也可以传输给语音合成装置,并由此能够被使用。本专利技术的另一个优选扩展规定在语音合成装置中,各种用于产生音素的相关参数-如长度、响度、重音、音域、声音等-是利用音素来再现和输出的,并且是可调整的;特别是对于每个独立的音素。这样,所传输数据的再现能够适合不同的要求。例如,再现质量可通过下述方法得以改善,即响度和/或声音特征-如音节或与其相类似的语言元素的响度和音高-在压缩前从待传输的语音数据中调出来,然后传送给语音合成装置以调整再现参数。再现参数也能够根据用来发送语音数据的用户的本文档来自技高网...

【技术保护点】
运用具有语音和/或说话人特征的音素目录(PN1、PN2、PS1、PS2)将语音数据从语音数据源(SD1)传输到传输目的地(SD2)的方法,在这些目录中,存放有与语音数据模型相对应的音素,并且每个音素均被分配了一个单值的代码字符,该方法具有以下步骤:a)根据发送语音数据的用户的标识,选择一个给该用户分配的、具有说话人和/或语音特征的音素目录(PN1),b)待传输的语音数据被传送到一个被训练用来识别音素的神经网络(NN)中,该音素是存放在被选择出的音素目录(PN1)中的, 视经网络就所含音素方面对语音数据作出分析,c)为语音数据中被识别的音素确定其在所选择音素目录(PN1)中所分别分配的代码字符,d)代码字符被传输到传输目的地(SD2)处的语音合成装置(SS)中,e)所接收的代码字符流由语音合成装 置(SS)转换成在音素目录(PS1)中均分配了音素的代码字符序列,以及f)输出这个序列。

【技术特征摘要】
DE 1998-2-3 19804189.61.运用具有语音和/或说话人特征的音素目录(PN1、PN2、PS1、PS2)将语音数据从语音数据源(SD1)传输到传输目的地(SD2)的方法,在这些目录中,存放有与语音数据模型相对应的音素,并且每个音素均被分配了一个单值的代码字符,该方法具有以下步骤a)根据发送语音数据的用户的标识,选择一个给该用户分配的、具有说话人和/或语音特征的音素目录(PN1),b)待传输的语音数据被传送到一个被训练用来识别音素的神经网络(NN)中,该音素是存放在被选择出的音素目录(PN1)中的,神经网络就所含音素方面对语音数据作出分析,c)为语音数据中被识别的音素确定其在所选择音素目录(PN1)中所分别分配的代码字符,d)代码字符被传输到传输目的地(SD2)处的语音合成装置(SS)中,e)所接收的代码字符流由语音合成装置(SS)转换成在音素目录(PS1)中均分配了音素的代码字符序列,以及f)输出这个序列。2.运用具有语音和/或说话人特征的音素目录(PN1、PN2、PS1、PS2)将语音数据从语音数据源(SD1)传输到传输目的地(SD2)的方法,在这些目录中,存放有与语音数据模型相对应的音素,并且每个音素均被分配了一个单值的代码字符,该方法具有以下步骤a)待传输的语音数据被传输到一个被训练用来识别不同语音和/或说话人的神经网络中,此神经网络识别待传输语音数据所属的语音,和/或待传输语音数据的来源-说话人,此神经网络还促使选择一种分配给语音和/或说话人的、具有语音和/或说话人特征的音素目录(PN1),b)待传输的语音数据被传送到一个被训练用来识别音素的神经网络(NN)中,该音素是存放在被选择出的音素目录(PN1)中的,神经网络就所含音素方面...

【专利技术属性】
技术研发人员:K许利希W弗拉尔斯
申请(专利权)人:西门子公司
类型:发明
国别省市:DE[德国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利