一种产生用于语言识别的特征的方法和设备,所说方法包括:计算一个输入语言信号的预定数目的n个帧中的每一帧的对数帧能量值;并且向n个对数帧能量值施加一个矩阵变换以形成代表输入语言信号的一个时序矩阵。该矩阵变换可以是离散余弦变换。(*该技术在2017年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及语言处理,具体来说涉及用于语言识别的特征的产生。自动语言识别系统一般是为一特定的应用设计的。例如,一种由公众访问的服务要求有一种普通的语言识别系统,这种系统可识别来自任何用户的语言。和专用于一个用户的数据有关的自动语言识别器或者用于识别用户,或者用于鉴定用户的要求保护的身份(所谓发言者识别)。自动语言识别系统或者直接地或者间接地(例如经一电信链路)接收来自一个送话器的输入信号。然后通过语言处理装置处理该输入信号,一般通过产生随时间而变的输入信号的特征的一个适当的(频谱)表示,把输入信号分割成相继的时间区段或帧。频谱分析的通用技术是线性预测编码(LPC)和傅里叶变换。接着,把频谱测量值转换成用于描述输入信号的宽声学性质的一组特征或特征矢量。在语言识别中所用的最普通的特征是唛(音调单位)-频率倒频系数(mel-frequency cepstral coefficlents-MFCC)。然后,将这些特征和代表要识别的字(或者字的一些部分)或短语的多个模式进行比较,其中所说的多个模式还按某种方式和所说的字或短语有关联。比较的结果指示字/短语是否被认为已被识别。用于语言识别的模式匹配法一般来说涉及两种技术之一模板匹配技术或统计模型技术。对于前者,形成一个模板,该模板代表表示一个字的典型语言信号的频谱特性。每个模板是在整个语言持续期间的频谱帧的结合。于是,经一平均步骤可产生用于一个模式的语言帧的一个典型的序列,并且将一个输入信号和这些模板作比较。表示一个模式的多个帧的频谱特性的特点的一种众所周知的并且广泛使用的统计方法是隐式马尔可夫模型(hidden Markov model)(HMM)法。HMM(或者任何其它类型的统计模型)的重要假设是语言信号的特征是一个参数的随机过程,并且可按照一种准确的、完全确定的方式确定该随机变化的过程的参数。现行的模式匹配技术(尤其是HMM)的一个众所周知的缺陷是缺乏利用特征抽取的相关性的有效机制。一种左-右HMM法提供一种时序结构,用于给语言频谱特征从一个状态到下一个状态的时间进展变化建立模型,但在每一状态内假定观测矢量是相互独立并且恒等分布的(IID)。IID假设说在相继的语言矢量之间没有任何相关性。这就是说,在每个状态内,语言矢量与具有相同的平均值和协方差的相同的几率密度函数(DDF)相关联。这进一步表明,在每个状态内的频谱-时间轨迹是一个具有不变的平均值的随机涨落的曲线。然而,在实际中,频谱-时间轨迹在从一个语言事件移动到下一个语言事件时很清晰地有一个确定的方向。IID假设的频谱矢量的这种背离实际的现象归因于在HMM法的性能中的限制。把某种时序的信息包括在语言特征中,可减小语言是一种不变的独立过程这种假设的不良效果,并且可用来改善识别性能。允许把时序信息包括在特征矢量中的一个常规的方法是,用倒频谱的一阶和二阶时间导数来扩充特征矢量。语言动态特性的一种在数学上更加隐含的表示方法是倒频谱-时间矩阵,所说矩阵利用一种余弦变换来编码该时序信息,见B P Milner和S V Vaseghi所著(对用于噪声和信道健全语言识别的倒频谱-时间特征矩阵的分析)“Ananalysis of cepstral-time feature matrices for noise andchannel robust speech recognition”(Proc.Eurospeech,pp519-522,1995)。获得倒频谱-时间矩阵Ct(m,n)的方法是,或者向一频谱-时间矩阵施加一个二维的离散余弦变换(DCT),或者向唛-频率倒频谱系数(MFCC)语言矢量的一个堆栈施加一个一维的DCT。把M个N维对数滤波器组的矢量堆在一起,形成一个频谱-时间矩阵Xt(f,k),其中t表示时间帧,f表示滤波器组信道,并且k表示矩阵中的时间矢量。然后,使用一个二维的DCT把该频谱-时间矩阵变换成倒频谱-时间矩阵。由于一个二维的DCT可分成两个一维的DCT,所以,构成倒频谱-时间矩阵的另一个方案是沿由M个常规MFCC矢量组成的一个矩阵的时间轴施加一个一维的DCT。按照本专利技术的第一方面,提供一种产生用于语言识别的特征的方法,所说方法包括计算一个输入语言信号的预定数目的n个帧中的每个帧的对数帧能量值;并且向n个对数帧能量值施加一种变换以形成代表该输入语言信号的时序矢量。和用扩充的导数以倒频谱矢量实现的显式表示法相比,在时序的矢量内隐含地产生语言过渡动态变化。于是,在这种矩阵上训练的模型具有如下优点可进行反向变换;并且对于诸如并行模型组合(PMC)之类的技术,可反向变换到线性滤波器组的域,以便改进相对于噪声的健壮性。变换可以是离散余弦变换。最好,把时序矩阵截断,使其包括少于n个的元素。已经发现,这样作能产生良好的性能效果,同时又能减小有关的计算量。可以省略矩阵的稳态(m=0)的列,从而可通过线性卷积信道失真来除掉语言信号中的任何失真,使该矩阵具有信道健壮特征。本专利技术还涉及包括本专利技术的特征产生方法在内的一种语言识别方法。按本专利技术的另一方面,提供用于语言识别的特征产生设备,它包括用于计算一个输入语言信号的预定数目的n个帧中每一个帧的能量的对数的处理器;以及用于对n个对数能量值施加一个变换以便通过计算可形成代表输入语言的一个时序矢量的处理器。本专利技术的特征产生装置适于和语言识别设备一道使用,并且还能产生用于这种设备的识别数据。现在参照附图结合实例描述本专利技术,其中附图说明图1示意地表示在一电信环境中的一个语言识别器的实施例;图2是一语言识别器的示意表示;图3示意地表示按本专利技术的一个特征抽取器的部件;图4表示确定一个Karhunen-Loeve变换的步骤;图5示意地表示形成图2的语言识别器的一部分的一个常规的语言分类器的部件;图6是示意地表示图5的分类器的操作的一个流程图;图7是示意地表示形成图2的语言识别器的一部分的一个常规的定序器的部件的方块图;图8示意地表示在形成图7的定序器的一部分的一个存储器内的一个字段的内容;以及图9是示意地表示图7的定序器的操作的一个流程图。参照图1,一种包括语言识别的电信系统一般来说包括一个送话器1(一般,形成一个电话手机的一个部分);一个电信网络2(一般,是一个公众交换电信网(PSTN));一个语言识别器3,对其进行连接以从网络2接收声音信号;以及,一个应用设备4,它和语言识别器3相连,并对其进行安排以便从语言识别器3接收一声音识别信号,指示一个特定字或短语的识别结果或其它,并据此采取行动。例如,应用设备4可以是实现金融交易、信息服务等的一个遥控终端。在许多情况下,应用设备4将产生对用户的可听响应,该响应经网络2发送到扬声器5,扬声器5一般形成用户手机的一部分。在操作中,一用户向送话器1讲话,从送话器1向网络2发送信号,该信号到达语言识别器3。语言识别器3分析该语言信号,并且产生一个指示特定字或短语的识别结果或其它的信号,并且将该信号发送到应用设备4,并且一旦识别出该语言,应用设备4就采取适当的动作。一般来说,语言识别器3不知道该信号从送话器1到网络2并穿过网络2所走的路线。在大量的手机类型或不同质量的手机当中,可能使用其中的任何一种。类似地,在网络2内,在大量的发送路本文档来自技高网...
【技术保护点】
一种产生用于语言响应设备的特征的方法,所说方法包括: 计算一个输入语言信号的预定数目的n个帧中的每一帧的对数帧能量值;并且,向n个对数帧能量施加一个变换矩阵以形成代表该输入语言信号的一个时序矩阵。
【技术特征摘要】
EP 1996-3-29 96302236.31.一种产生用于语言响应设备的特征的方法,所说方法包括计算一个输入语言信号的预定数目的n个帧中的每一帧的对数帧能量值;并且,向n个对数帧能量施加一个变换矩阵以形成代表该输入语言信号的一个时序矩阵。2.如权利要求1的方法,其中相继的特征代表该输入信号n个帧的各个重叠的组。3.如权利要求1或2的方法,其中变换矩阵是一离散余弦变换。4.如权利要求1、2或3的方法,其中截断该时序矩阵以包括小于n个的元素。5.一种语言识别方法,包括接收代表语言的输入信号,把所说输入信号分成多个帧;通过计算一个输入语言信号的预定数目的n个帧中每个帧的对数帧能量值产生一个特征;并且向n个对数帧能量值施加一个矩阵变换以形成代表输入语言信...
【专利技术属性】
技术研发人员:BP米尔纳,
申请(专利权)人:英国电讯公司,
类型:发明
国别省市:GB[英国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。