本发明专利技术提供了一种用于语音质量评估的听觉发音分析。这种发音分析以对与语音信号中的发音频率范围和非发音频率范围关联的功率进行比较为基础。在这种发音分析中既不用源语音也不用对源语音的估计。这种发音分析包括对一个语音信号的发音功率和非发音功率进行比较和根据比较结果评估语音质量的步骤,其中发音功率和非发音功率分别是与语音信号中的发音频率范围和非发音频率范围关联的功率。(*该技术在2023年保护过期,可自由使用*)
【技术实现步骤摘要】
本本专利技术与通信系统有关,具体地说与语音质量评估(speechquality assessment)有关。
技术介绍
可以测量无线通信系统的性能,其中之一是测量语音质量。在当前的技术中,对于评估语言质量来说,主观语音质量评估(subjectivespeech quality assessment)是最为可靠和普遍接受的方式。在主观语音质量评估中,由一些人类收听者来评估经处理的语音的语音质量,经处理的语音是经例如接收机解码处理的发送语音信号。这种技术是主观的,因为它是以各人的感觉为基础的。然而,主观语音质量评估是一种昂贵和费时的技术,因为为了得到统计上可靠的结果必需有足够多的语音样本和收听者。客观语音质量评估(Objective speech quality assessment)是另一种评估语音质量的技术。与主观语音质量评估不同,客观语音质量评估不是以各人的感觉为基础。客观语音质量评估可以有两种类型。第一种客观语音质量评估以已知的源语音(source speech)为基础。在第一种客观语音质量评估中,移动台发送从已知的源语音得出(例如通过编码)的语音信号。接收、处理并随后记录该发送语音信号。利用众所周知的语音评估技术,诸如语音质量的感觉评估(Perceptual Evaluation ofSpeech Quality,PESQ),将所记录的经处理的语音信号与已知的源语音进行比较,确定语音质量。如果不知道源语音信号或者发送语音信号不是从已知的源语音得出,就不能使用第一种客观语音质量评估。第二种客观语音质量评估不是根据已知的源语音。第二种客观语音质量评估的大多数实施方式涉及根据经处理的语音估计出源语音,然后利用众所周知的语音评估技术将估计的源语音与经处理的语音进行比较。然而,随着经处理的语音的失真增大,估计的源语音的质量下降,从而使第二种客观语音质量评估的这些实施方式不大可靠。因此,有必要开发一种不用已知的源语音或估计的源语音的客观语音质量评估技术。
技术实现思路
本专利技术提供了一种用于语音质量评估的听觉发音分析技术(auditory-articulatory analysis technique)。本专利技术的发音分析技术以对与语音信号中的发音频率范围和非发音频率范围关联的功率进行比较为基础。在发音分析中既不用源语音也不用对源语音的估计。发音分析包括对一个语音信号的发音功率和非发音功率进行比较和根据比较评估语音质量的步骤,其中发音功率和非发音功率分别是与语音信号中的发音频率范围和非发音频率范围关联的功率。在一个实施例中,发音功率与非发音功率之间的比较是它们之比,发音功率是与2~12.5Hz之间的频率关联的功率,而非发音功率是与大于12.5Hz的频率关联的功率。附图说明从以下说明、所附权利要求书和附图可以更好地理解本专利技术的特征、情况和优点。在这些附图中图1示出了按照本专利技术设计的采用发音分析的语音质量评估设备;图2示出了按照本专利技术的一个实施例在一个发音分析模块内处理多个包络ai(t)的流程图;以及图3示出了一个例示功率与频率关系的调制频谱Ai(m,f)的例子。具体实施例方式本专利技术提供了一种用于语音质量评估的听觉发音分析技术。本专利技术的发音分析技术以对与语音信号中的发音频率范围和非发音频率范围关联的功率进行比较为基础。在这种发音分析中既不用源语音也不用对源语音的估计。这种发音分析包括对一个语音信号的发音功率和非发音功率进行比较和根据比较评估语音质量的步骤,其中发音功率和非发音功率是分别与语音信号中的发音频率范围和非发音频率范围关联的功率。图1示出了按照本专利技术设计的采用发音分析的语音质量评估设备10。语音质量评估设备10包括耳蜗滤波器组(cochlear filterbank)12、包络分析模块14和发音分析模块16。在语音质量评估设备10中,语音信号s(t)提供给耳蜗滤波器组12作为输入。耳蜗滤波器组12包括多个耳蜗滤波器hi(t),用来按照第一级外周听觉系统处理语音信号s(t),其中i=1,2,...,Nc表示具体的耳蜗滤波器信道,而Nc表示耳蜗滤波器信道的总数。具体地说,耳蜗滤波器组12对语音信号s(t)进行滤波,产生多个临界频带信号(critical band signal)si(t),其中临界频带信号si(t)等于s(t)*hi(t)。这些临界频带信号si(t)提供给包络分析模块14作为输入。在包络分析模块14内,对这些临界频带信号si(t)进行处理,得到多个包络ai(t),其中ai(t)=si2(t)+s^i2(t),]]>而 是si(t)的Hilbert变换。然后,这些包络ai(t)提供给发音分析模块16作为输入。在发音分析模块16内,对这些包络ai(t)进行处理,得到对语音信号s(t)的语音质量评估。具体地说,发音分析模块16对与人的发音系统产生的信号关联的功率(以下称为“发音功率PA(m,i)”)和与不是人的发音系统产生的信号关联的功率(以下称为“非发音功率PNA(m,i)”)进行比较。然后,用这种比较作出语音质量评估。图2示出了按照本专利技术的一个实施例在发音分析模块16内处理多个包络ai(t)的流程图200。在步骤210,对这些包络ai(t)中的每个包络的帧m执行Fourier变换,产生调制频谱Ai(m,f),其中f为频率。图3示出了一个例示功率与频率关系的调制频谱Ai(m,f)的例子30。在例子30中,发音功率PA(m,i)是与频率为2~12.5Hz关联的功率,而非发音功率PNA(m,i)是与频率高于12.5Hz关联的功率。与频率低于2Hz关联的功率PNo(m,i)是临界频带信号ai(t)的帧m的DC分量。在这个例子中,根据人发音的速度为2~12.5Hz而与发音功率PA(m,i)和非发音功率PNA(m,i)关联的频率范围(以下分别称为“发音频率范围”和“非发音频率范围”)是相邻而不相叠的频率范围这样的事实,选择发音功率PA(m,i)用作与频率2~12.5Hz关联的功率。可以理解,对这个申请来说,所谓“发音功率PA(m,i)”不应该局限于人发音的频率范围或者说上述的频率范围2~12.5Hz。同样,所谓“非发音功率PNA(m,i)”也不应该将频率范围局限于高于与发音功率PA(m,i)关联的频率范围。非发音频率范围可以与也可以不与发音频率范围交叠或邻接。非发音频率范围也可以包括低于发音频率范围内最低频率的频率,诸如与临界频带信号ai(t)的帧m的DC分量关联的那些频率。在步骤220,对于每个调制频谱Ai(m,f),发音分析模块16将发音功率PA(m,i)与非发音功率PNA(m,i)进行比较。在发音分析模块16的这个实施例中,发音功率PA(m,i)与非发音功率PNA(m,i)之间的比较为发音与非发音功率之比ANR(m,i)。ANR由下式定义ANR(m,i)=PA(m,i)+ϵPNA(m,i)+ϵ----(1)]]>其中ε为某个小常数。发音功率PA(m,i)与非发音功率PNA(m,i)之间的其他比较方式也是可行的。例如,比较可以是式(1)的倒数,也可以是发音功率PA(m,i)与非发音功率PNA(m,i)之差。为了便于讨论,流程图200所示的发音分本文档来自技高网...
【技术保护点】
一种执行听觉发音分析的方法,所述方法包括下列步骤:对一个语音信号的发音功率和非发音功率进行比较,其中发音功率和非发音功率分别是与语音信号的发音频率和非发音频率关联的功率;以及根据比较结果评估语音质量。
【技术特征摘要】
US 2002-7-1 10/186,8401.一种执行听觉发音分析的方法,所述方法包括下列步骤对一个语音信号的发音功率和非发音功率进行比较,其中发音功率和非发音功率分别是与语音信号的发音频率和非发音频率关联的功率;以及根据比较结果评估语音质量。2.权利要求1的方法,其中发音频率大致为2~12.5Hz。3.权利要求1的方法,其中发音频率大致与人类发音的速度相应。4.权利要求1的方法,其中非发音频率大致高于发音频率。5.权利要求1的方法,其中发音功率与非发音功率之间的比较为发音功率与非发音功率之比。6.权利要求5的方法,其中发音功率与非发音功率之比包括一个分母和一个分子,分子包括发音功率和一个小的常数,分母包括非发音功率加上这个小的常数。7.权利要求1的方法,其中发音功率与非发音功率之间的比较为发音功率与非发音...
【专利技术属性】
技术研发人员:金度锡,
申请(专利权)人:朗迅科技公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。