在语音处理方法中,语音的数字信号表示被用于语音编码,该数字信号包括第一组系数。第二组系数被计算出来用于语音识别。第一组系数被用于第二组系数的计算中,对应的装置包括用于给出表示语音、并包括第一组系数的数字信号的语音编码装置(2;41),该对应装置还包括语音识别装置(3;42),其中,第二组系数被计算出来。语音识别装置被调整在第二组系数的计算中使用第一组系数。采用这种方法,用于包括语音编码以及语音识别的设备的存储器大大降低。(*该技术在2019年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及一种语音处理方法,其中表示所述语音的数字信号被用于语音编码,所述数字信号包括第一组系数,第二组系数被计算出来用于语音识别。本专利技术还涉及对应的装置。在用于语音处理的设备,如现代数字便携电话(例如用于GSM系统或类似系统)中,语音编码器被用于压缩语音信号信息,并除去冗余信息以便提高数字电话信道的容量,通过该信道,语音信号被发送。这种语音编码器使用了信号分析,语音编码算法通常基于语音的线性预测分析模拟。线性预测编码的使用涉及到一些模型滤波器系数的计算,这些系数称作线性预测系数或反射系数。此外,人们希望将这种设备与声音驱动功能组合用于控制该设备的使用。在数字电话中,这一点可以采用所谓的声音拨号功能方式来进行电话呼叫,并访问数据库的信息。这种系数通常基于语音识别算法,该算法基本上包括预处理信号分析算法(提取特征矢量组),模板匹配算法以及参考字表(特征矢量码书)。 在当前
中,语音识别算法(用于声音拨号)独立于该设备的基本语音编码算法而执行。GB 2 290 437描述了一种数字便携电话,其中使用了一个数字处理器来对发送的声音数据进行编码处理(并对所接收的声音数据进行解码处理),并对声音命令进行声音识别以用于拨号和其它的电话功能。这两个功能(或算法)可以用相同的处理器在分时基础上处理,因为它们通常不会同时发生,例如,处理器的计算资源可以用来在呼叫开始之前执行声音拨号算法并在呼叫建立时执行语音编码算法。通过使用相同的处理器来执行两种算法,硬件数量以及电话的成本,大小和重量都会降低。即使在GB 2 290 437的设备中两种算法共享同一个处理器,它们仍然分别独立执行,每种算法都有可观的存储器需求用于存储程序代码以及计算结果和参考值。特别地,声音拨号的特征提取部分消耗了大量的存储器以及计算功率用于信号缓存,子程序和系数计算以及存储。该存储器需求在用足够词汇实现声音拨号中增加了限制。因此,本专利技术的一个目标是给出前面提到的方法,该方法既可以执行语音编码算法又可以执行语音识别算法,并且存储器需求会明显降低。根据本专利技术,该目标以下面方式实现所述第一组系数用于所述第二组系数的计算中。当语音识别算法的系数(即,特征提取)根据语音编码算法中计算所得的系数计算出来时,语音识别的系数计算使用了语音编码可得的代码,换句话说,它可以集成在语音编码块中,并且仅有很少的额外处理。这样可以节省大量用于例如特征提取的计算功率和存储器。在各种语音处理功能集成在该产品中的情况下,代码和信号处理的使用已经可以很有效地降低功率消耗和未来移动终端的大小。如权利要求2陈述的,所述数字信号可以由线性预测算法给出,使得所述第一组系数包括线性预测系数。根据本专利技术的第一实施方案,该方案在权利要求3中陈述,所述第一组系数被用作所述第二组系数。用第一组系数直接替代第二组系数给出一个非常简单的方法,该方法将进一步降低存储器需求。然而,该实施方案的缺点在于,语音识别算法的性能与以前技术的语音识别中所实现的语音算法的性能相比较差。因此,该实施方案最好用于质量要求较低的简单设备。然而,在这种设备中,降低所需存储器常常很重要。根据本专利技术的另一个可选实施方案,该方案在权利要求4中陈述,所述第二组系数利用一个递归等式来计算,使得所述第二组系数中的每一个系数依赖于所述第一组系数中的对应系数,并依赖于根据所述第一组和/或所述第二组系数以前计算出来的系数。以这种方法计算第二组系数给出适于鲁棒性语音识别的系数,此外,系数参数是压缩的,并利用了已经存在的代码。因此,该实施方案导致存储器需求的明显降低,同时保持以前技术的性能。当第二组系数包括谱系数时,如权利要求5所述,这些系数可以利用下面的递归等式计算。Cn=-an+1nΣi=1n-1(n-i)aiCn-i,]]>其中Cn是第n个谱系数,ai是第i个线性预测系数。如在权利要求6陈述的,在意图通过声音命令来控制设备的时候,这些谱系数可以用作特征矢量以便为语音识别产生参考列表。采用这种方法,例如便携电话中的声音拨号可以实现。如所提到的,本专利技术还涉及用于处理语音的对应装置,并包括用于给出表示所述语音的数字信号的语音编码装置,所述数字信号包括第一组系数,该对应装置还包括其中第二组系数被计算出来的语音识别装置。当所述语音识别装置被调整在所述第二组系数计算中使用所述第一组系数时,上面提到的优点被实现。如在权利要求8中陈述的,该装置可以是一个数字便携电话,如权利要求9中陈述的,语音编码装置包括一种线性预测算法,使得所述第一组系数包括线性预测系数。如权利要求10陈述的,该装置可以是一个GSM电话,在GSM增强全速率(EFR)情况下,所述线性预测系数被利用代数码激励线性预测(ACELP)算法计算出来。其它的可能性是使用规则脉冲激励—长时预测算法(RPE-LTP)的GSM全速率(FR),以及使用矢量和激励线性预测(VSELP)算法的GSM半速率(HR)。根据另一个可选实施方案,该方案在权利要求11中陈述,该装置可以是WCDMA(宽带码分多址)电话,并且所述线性预测系数是利用共轭结构—码激励线性预测(CS-CELP)算法计算的。WCDMA的另一个名字是UMTS(通用移动电话系统-ETSI使用)以及IMT2000(ITU使用)。另一种可能性是使用正交码激励线性预测(QCELP)算法的美国系统IS-95。语音识别装置可以如权利要求12所陈述的那样被调整来使用所述第一组系数作为所述第二组系数,或者如权利要求13所陈述的那样被调整来利用递归等式来计算所述第二组系数使得所述第二组系数中的每个系数依赖于所述第一组系数中的对应系数,并依赖于根据所述第一组和/或所述第二组系数此前计算出来的系数。该方法的两个对应实施方案的优点如上面所描述的那样。如权利要求14所陈述的,当上面提到的实施方案中的第二组系数中包括谱系数时,语音识别装置可以被调整用来利用下面的递归等式来计算所述的谱系数。Cn=-an+1nΣi=1n-1(n-i)aiCn-i,]]> 其中Cn是第n个谱系数,ai是第i个线性预测系数。如权利要求15所陈述的,语音识别装置可以包括一个模板匹配方块被调整用来使用所述谱系数作为特征矢量以产生用于语音识别的参考列表,该识别装置还被调整用来通过声音命令来控制设备。这使得该设备可以是例如提供了声音拨号特征的便携电话。下面将参考附图更完整地描述本专利技术,其中附图说明图1给出了当前技术中具有声音拨号功能的数字移动电话的示意图;图2给出了用于图1的电话中的编码器的方框图;图3给出用于图2的编码器的滤波器的示例实现;图4给出图1的电话中特征提取方块的示例实现;图5给出根据本专利技术具有声音拨号功能的数字移动电话的示意图。图1给出了根据当前技术的具有声音拨号功能的数字移动电话1的部分示意图。该电话可以是例如适用于全速率流的GSM电话。图的上部给出了标准的电话功能部分2,而下面的部分给出声音拨号部分3。用户产生的语音被麦克风4接收,并作为模拟电信号传递给音频部分5,该部分包括采样保持设备和模数转换器,采样率是8000样本/秒,数字输出信号是13比特的统一格式的PCM信号。语音编码器6从音频部分5接收13比特的统一格本文档来自技高网...
【技术保护点】
一种语音处理的方法,其中表示所述语音的数字信号被用于语音编码,所述数字信号包括第一组系数,第二组系数被计算出来用于语音识别,该方法的特征在于所述第一组系数用于所述第二组系数的计算中。
【技术特征摘要】
SE 1998-10-9 9803458-01.一种语音处理的方法,其中表示所述语音的数字信号被用于语音编码,所述数字信号包括第一组系数,第二组系数被计算出来用于语音识别,该方法的特征在于所述第一组系数用于所述第二组系数的计算中。2.根据权利要求1的方法,特征在于所述数字信号由线性预测算法提供,所述第一组系数包括线性预测系数。3.根据权利要求1或2的方法,特征在于所述第一组系数被用作所述第二组系数。4.根据权利要求1或2的方法,特征在于所述第二组系数是利用递归等式计算的,使得所述第二组系数中的每一个系数依赖于所述第一组系数中的对应系数并依赖于根据所述第一组和/或所述第二组系数以前计算的系数。5.根据权利要求4的方法,特征在于所述第二组系数包括利用递归等式计算的谱系数,Cn=-an+1nΣi=1n-1(n-i)aiCn-i,]]>其中Cn是第n个谱系数,ai是第i个线性预测系数。6.根据权利要求5的方法,特征在于为了通过声音命令来控制设备,所述谱系数被用作特征矢量来产生一个用于语音识别的参考列表。7.用于处理语音的装置,所述装置包括用于给出表示所述语音的数字信号的语音编码装置(2;41),所述数字信号包括第一组系数,其中第二组系数被计算出来的语音识别装置(3;42),特征在于所述语音识别装置被调整用来在所述第二组系数的计算中使用所述第一组系数。8.根据权利要求7的装置,特...
【专利技术属性】
技术研发人员:F梅库利尔,
申请(专利权)人:艾利森电话股份有限公司,
类型:发明
国别省市:SE[瑞典]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。