和用快速和精细匹配在人群中识别讲话者制造技术

技术编号:3047634 阅读:203 留言:0更新日期:2012-04-11 18:40
用于讲话者识别的快速和详细匹配技术综合为一混合系统,其中当检测到在正登记的讲话者和先前已登记的讲话号之间可能形成混淆时,将各讲话者以成组方式使之彼此关联。因此,仅在快速匹配技术中可能开始出现饱和时,援用详细匹配技术,同时,通过限制对该组的比较数和与讲话者相关的模型的形成,便于详细匹配,这些模型主要作用是在一组中的各成员之间进行区分而不是更充分地鉴别每个讲话者的特征。因此,限制了存储和计算的要求,并且使快速和精确的讲话者识别可以扩展到这样一些讲话者人数范围内,这些讲话者可能使快速匹配系统性能下降和饱和,并使详细匹配系统的性能下降。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及利用语音识别系统对讲话者的识别和验证,更具体说,涉及在包含已登记的讲话者的人群中对谈话者以与语境无关的方式快速识别和验证。很多电子装置需要由使用者输入,以便向该装置传送,为了确定或执行所需功能所需的特定信息,或者在一般简单的情况下,例如当通过操作通/断开关按照所指示的执行所需功能,通知该特定信息。近些年来,当可能有多个不同的输入时,包含两个或多个开关的阵列的键盘作为可选择的输入装置。然而,任何型式的键盘都具有固有的缺点。显然,各种键盘都包含多个分布的可操作区,每个可操作区通常包含一些会受到磨损和损坏的运动元件,以及除非采用一触针或其它单独的机械结构以外,必须限定每一区的尺寸,使其可以利用人体的一部份进行操作。因此,在很多类型的装置中,例如用于安全系统和电子计算器的输入面板,装置的尺寸经常是由键座而不是由壳体中的电子元件来确定的。此外,可能需要进行大量击键(例如,指定一种操作、输入密码、个人身份证号(PIN)等),这就降慢了操作速度并增加了可能发生的误操作。因此,键盘或其它手动操作的输入结构的使用需要操作,这对于使用者来说,并不是最适宜自然或高效的。在致力于提供一种更自然可使用的方便以及快速的接口以及增加其能力方面,已经提出很多的进行声音检测的方法和识别系统,并且某种程度上成功的实施。此外,这些系统原理上具有依靠用于准许或拒绝进入装置和系统的入口设备的已登记的讲话者的发声匹配使用者的发声的能力,以一种对于使用者可为相对透明和方便的方式,识别已登记的讲话者或者根据讲话者的身份调用定制的指令程序库。然而,包含大量资源的大型系统很可能有大量的潜在的使用者,因此,需要极为大量的存储量和处理能力,以便当已登记的讲话者的人数变多时能识别各讲话者。当讲话者人数的规模变大时,对于设计用于在不同的讲话者之中快速进行识别的简单快速系统将会产生讲话者识别系统性能饱和的情况。大多数与讲话者相关的系统的性能(例如对发声进行解码以及根据解码的原本模型例如适用于不同讲话者的隐藏Markov模型(HMM)进行匹配,这些模型代表正确解码识别的讲话者的最高相似性,并且这些模型可以是与语境相关的或与语境无关的)还会在大量讲话者人数范围内性能下降,趋于饱和,并且对于快速简单的系统在较少的人数范围内也会遇到性能下降(这样简单系统根据较少数量的信息在各讲话者之间进行鉴别)并且因此当对于较多人数的数据导致在数据的祥例之间形成较小的差别时趋于得到含糊的结果。正如一种方案介绍的,与语境无关的系统例如逐帧特征群集和分类可以作为一种谈话者或谈话者类别识别的快速匹配技术。然而,在可允许的响应时间内能够按照处理辅助操作的实际数量进行处理的讲话者类别的数目以及在每一类别中讲话者的数目是有限的。(换句话说,虽然按逐帧分类需要相对少量的关于每一登记的讲话者的数据以及用于有限数量的讲话者的较少的处理时间,但由于随讲话者模型增加)对讲话者模型的区分能力每个模型包含比在与讲话者相关的系统中相对少的信息)下降,它们的鉴别能力相应地受到限制并且受到严重的损害。可以易于理解,随着使用者人数变多,任何寻找减少与讲话者发声相关的信息(存储和/或处理)的方案都可能损害系统鉴别单个登记的使用者的能力。在使用者人数达到某种规模时,讲话者识别系统或装置将不再能在某些讲话者之间进行鉴别。这种状态被称为饱和。另一方面,采用一些适用于对各单个谈话者进行讲话者识别的且以与讲话者相关的模型为基础的解码器的更复杂的系统,必须以并行或串行方式运用各模块,以便实现讲话者识别,因此,是极慢的并需要大量的存储器和处理时间。此外这些模型难于形成和应用,这是由于它们通常需要大量的数据才能构成模型。在模型匹配系统中已经在某种程度上实现对存储量降低要求,依靠每一登记的登话者的特定发声,这些系统可以是与语境相关的也可以是与语境无关的,这些系统对于讲话者识别和/或验证功能是特定的。然而,这些装置由于它们的特征使之对使用者来说不是简便的;需要相对长的登记时间和起始识别(例如注册)操作程序以及使用该系统进行验证或多或少会周期性地中断。此外,或许更重要的是,这些系统对于每一讲话者的发声变化(“讲话者自身”发声变化)更灵敏,这些变化例如随着每个讲话者老年化、疲劳、紧张、音韻、心理状态以及其它状态可能产生。更确切地说,在操作的登记阶段与讲话者相关的语音识别装置为每一讲话者建立一个模型。在此之后,利用得到最大相似性或最小差错率的模型对讲话者及其发声进行识别。要使每一模型对于要识别的所有发声适用于一唯一的讲话者,需要足够的数据。为此,大多数与讲话者相关的系统还是与语境相关的,以及经常采用模型对照,以降低要存储在每一模型中的数据的数量。另外,例如采用隐含的Markov模型(HMM)或类似统计模型的系统,通常包含引入各根据一组讲话者的群体模型,以便能够排除不太可能的讲话者。各群体模型使得根据讲话者身份的相似性竟争结果引入置信度计量,并且随着登记的讲话者人数的增加,由于在各不同的讲话者的发声之间可以存在一定数目的相似者,特别是在不断增加的人数情况下要正确地建立各群体模型是十分困难的,为此,各群体模型很可能是潜在差错的主要根源。由于需要抽取新的群体和形成或改进相应的群体模型,新的讲话者的登记也是很复杂的。特别是模板匹配不允许直接引入群体。模板通常是用于登记的使用者发声的原有波形,并且由于可用于匹配过程的可合理形成的时间作为一实际问题,用于每一发声的模板的数目是有限的。另一方面,由于模板的数目使讲话者自身发声变化的可达范围受到限制,这些模板是为每一需识别的发声取得并使用的;并且随着使用者人数变多,讲话者自身发声变化的可达范围的允许程度受到抑制。特别是为了减少数据或简化检索方式,扩展群体会趋于掩盖讲话者自身发声变化,同时因此使之复杂化。此外,由于对在各模板之间的距离计量的限定变得更关键和使查索方式复杂化,随着使用者人数增加,模板匹配变得签别能力下降。此外,从概念上讲,模板匹配加重了发声的动态(例如波形随时间的变化)渐近和动态再现,而该动态是按讲话者的状态可变的。因此,按本
的目前状态,大的讲话者人数量使得与语境无关的快速讲话者识别系统适合使用的程度下降,并且在讲话者人数的某一规模下,使得它们无效,需要一种较慢的增强存储和处理的系统,同时还降低了它们的性能。迄今还设有一种可实用的系统,其能维持与快速简单系统可相比的讲话者识别性能,或者增加签别能力,同时能限制计算和存储要求,并且当登记的讲话者人数变多时能避免饱和现象发生。因此,本专利技术的目的是提供一种用于能够在大量的已登记的使用者的人数之中快速鉴别各单个的登记的使用者,这种鉴别是与语境无关的,并且在登记之后对使用者是简便的。本专利技术的另一目的是提供一种用于能够在大量的已登记的使用者的人数中对讲话者进行识别和验证的系统,并且具有简单、快速、透明和与语境无关的登记操作程序。本专利技术的再一个目的是改进在语音解码和讲话者识别的过程中对讲话者的和群体模型的处理。本专利技术的再一个目的是在不降低精度的前提下在大量的讲话者人数范围内能进行讲话者快速识别。为了实现本专利技术的这些和其它目的,提供一种识别讲话者的方法,包含的步骤有将登记的讲话者分成组,在最可能包含一具有特定发声的讲话者本文档来自技高网
...

【技术保护点】
一种用于识别讲话者的方法,包含的步骤有:将登记的讲话者分成各组;在最可能包含该特定发声的讲话者的所述各组登记的讲话者之中识别一个讲话者或一组讲话者;以及依靠与讲话者相关的模型,在所述组内的各讲话者中对照该发声,以便确定具有所述发声的讲话者的身份。

【技术特征摘要】
【国外来华专利技术】US 1997-5-6 8519821.一种用于识别讲话者的方法,包含的步骤有将登记的讲话者分成各组;在最可能包含该特定发声的讲话者的所述各组登记的讲话者之中识别一个讲话者或一组讲话者;以及依靠与讲话者相关的模型,在所述组内的各讲话者中对照该发声,以便确定具有所述发声的讲话者的身份。2.如权利要求1所述的方法,其特征在于,识别一组的步骤还包含有对于具有所述发声的所述讲话者进行试探性识别。3.如权利要求1所述的方法,其特征在于,至少所述识别步骤包含有验证所述发声的讲话者很可能是利用所述识别步骤先前已识别的讲话者。4.如权利要求1所述的方法,其特征在于,所述分成组的步骤还包含有在登记过程中,集合代表一新的讲话者的发声的特征矢量,以形成对于所述新讲话者的代码簿;依靠对于先前登记的讲话者的代码簿对所述特征矢量解码;当在所述新的讲话者和所述先前登记的讲话者之间检测到可能出现混淆时,将所述新的讲话者和一先前登记的讲话者相联系识别。5.如权利要求4所述的方法,其特征在于,还包含的步骤有形成一能够在一组中的相关联的各讲话者之间进行区分的与讲话者相依存的模型。6.如权利要求1所述的方法,其特征在于,所述匹配步骤是与语境相关的。7.如权利要求2所述的方法,其特征在于,所述进行试探性识别的步骤还包含有确定至少两个用于识别的候选讲话者;及假如各候选讲话者不在一个类别中相关联,选择各候选讲话者之中最可能的一个。8.如权利要求2所述的方法,其特征在于,所述进行试探性识别的步骤还包含有确定至少三个候选讲话者用于识别,所述至少三个候选讲话者之中的至少两个以及少于总数的讲话者是在一个类别中相互关联的,以及取消所述至少三个候选讲话者中不在所述类别中相互关联的一个候选讲话者。9.如权利要求1所述的方法,其特征在于,所述识别一个讲话者或一组讲话者的步骤和所述将发声进行匹配的步骤是按层次进...

【专利技术属性】
技术研发人员:SH米斯
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1