当前位置: 首页 > 专利查询>西门子公司专利>正文

由有限的用户圈用语音控制启动可在设备内执行的动作的方法技术

技术编号:3047046 阅读:257 留言:0更新日期:2012-04-11 18:40
为了由设备的有限用户圈的用户利用语音在与用户无关的情况下控制启动可在设备中执行的动作,并在与发音者有关的语音识别系统的基础上与用户无关地和无需用户识别地识别所述的语音,给用户圈用户的识别语音发音-例如一种词汇表的单词-分配一个语音识别系统的所有用户的、对识别所需的参考语音样式。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】
利用语音、也即人的自然通信方式把信息或数据或指令输入到设备内-例如电信终端设备象有绳或无绳电话、移动无线电手机等等,家用电器象洗衣机、电灶、冰箱等等,机动车辆象汽车、飞机、船等等,消遣电子设备象电视机、HIFI设备等等,用于控制输入和指令输入的电子设备象个人计算机、个人数字助理等等-,以便用语音控制启动可在各自设备中执行的动作,其首要目的是对此用来输入数据或指令的手被解放出来做其它日常工作活动。对此,所述的设备要具有语音识别装置,它在专业文献中也称之为语音识别器。作为符号和语音的系统,语音自动识别的领域包括识别孤立发音的符号和语音,例如单个词、指令,直到识别按照人的自然通信方式而流利地说出的符号和语音,例如多个相关的词、一个或多个句子、一篇讲话。自动语音识别在原理上是一个搜索过程,这个过程按照杂志“Funkschau(无线电展望)第26册,1998年,72-74页”粗略分成语音信号预加工阶段、数据量减少阶段、分类阶段、构成字串阶段和语法模型阶段,这些阶段在语音识别过程中按给定的顺序执行。按照杂志“Funkschau(无线电展望)第13册,1998年,78-80页”所述,以这种方案工作的语音识别器根据其依赖于发音者的程度是互不相同的。在与发音者有关的语音识别器中由每个用户存入在至少一个学习或训练阶段的全部词汇以产生参考样式,而这个过程在与发音者无关的语音识别器中可取消。与发音者无关的语音识别器几乎只是以音素为基础进行工作,而与发音者有关的语音识别器或多或少地是一个单词识别器。根据这种语音识别器的定义,与发音者无关的语音识别器尤其在这样的设备内使用,它一方面必须处理流利地发出的语音(比如多个相关的词、句等等)和大量的直到很大量的词汇(也即无限的用户圈使用这种设备),另一方面为识别这些语音和词汇所需的计算耗费和存储耗费显得无关紧要,因为有相应的容量。相反,与发音者有关的语音识别器优选在如下的设备中被使用,它一方面必须处理不连续地发出的语音(比如单个词和指令)和少量的直到中等数量的词汇(也即有限的用户圈使用这种设备),另一方面为识别这些语音和词汇所需的计算耗费和存储耗费很重要,因为不具有相应的容量。因此,这种与发音者有关的语音识别器在计算耗费和存储需求方面突出地表现出复杂性小。在当前采用与发音者有关的语音识别器,已经对小到中等数量的词汇表(10-100单词)达到足够高的单词识别率,使得这种语音识别器特别适用于控制输入和指令输入(指令和控制),却也适用于用语音控制的数据库访问(例如从电话薄进行语音选择)。因此,这些语音识别器日益增多地用在大宗市场的设备中,象例如电话、家电设备、消遣电子设备、具有控制和指令输入的设备、娱乐器材还有车辆。但在这些应用中也是有问题的,这些设备通常不只是由一个用户使用,而是由多个用户比如通常一个家庭成员、一个家庭(有限的用户圈)使用。按照文献“ntz(通信技术杂志),1984年,第37卷、第8册,496-499页特别是498页中间栏的最后7行到右边栏第一段6行”所述,只通过单个用户用的独立的词汇表,就可回避出现的与发音者有关的语音识别器的与用户有关的问题。上述回避方法的缺点是用户在语音识别器使用前必须被识别。由于前提条件是与发音者有关的语音识别,所以发音者的识别必须通过与语音识别不同的方法实现。在大多数情况下用户可通过键盘和显示器进行自识别。就用户控制和语音识别所必需的时间耗费而言,对用户都大大加难了对自动语音识别的访问。当语音识别的多个用户经常互换时更是如此。在此,人工的用户识别方法甚至对使用语音识别提出了置疑,因为可以不使用人工的用户识别而以相同的耗费用人工在设备中启动所需的执行动作,而无需语音识别。本专利技术的任务在于,由设备的有限用户圈的用户利用语音与用户无关地控制启动可在设备中执行的动作,其中,在与发音者有关的语音识别系统的基础上,与用户无关地和无需用户识别就可识别语音。这个任务可通过权利要求1所述的特征解决。本专利技术所基于的思想在于,给用户圈用户的识别语音发音-例如一种词汇表的单词-分配一个语音识别系统的所有用户的、对识别所需的参考语音样式。在此,词汇表(电话薄、指令词表、...)包括例如“i”个单词(名称、指令、...),分别给该单词分配一个要执行的动作(要选出电话号码、所连接的设备的动作、...)、一个可能的以声音为出发点的语音确认(通常是单词的发音)(语音提示)和直到语音识别系统的“k”个用户的“j”个参考语音样式,其中“i”∈N,“j”∈N和“k”∈N。把语音确认分配给一个词汇表的单词并非是绝对必须的,但通常优选地用于声学的用户控制。在此,语音确认可源自语音识别系统的用户的一个用户、一个文本-语音转换系统,或如果已确定词汇表的单词,语音确认还可源自第三个人。通过用m个用户训练语音识别器可获得一个单词的直到“j”个的参考语音样式。在此,并不一定需要所有的用户训练词汇表的所有单词,而是只有以后由一个单独的用户也应自动地识别的单词才是必须的。如果多个用户训练同一个单词,则当由语音识别器产生的参考语音样式类似于事先进行训练的发音者的单词的已经存储的参考语音样式时,第n个发音者的训练也是可接受的。由各个用户训练的单词构成总词汇的子集,其中分词汇的交集是由多个用户训练的单词。在产生参考语音样式(语音识别器的训练)后,所有用户都可使用语音识别系统而无须事先进行用户识别。在自动识别单词时,如果由语音识别器产生的参考语音样式类似于一个单词的多个参考语音样式,可是又不类似于不同单词的参考语音样式,则应放弃(拒绝语音识别,因为并不能明确地给一个参考语音样式分配发音)。这种方法的优点在于与用户无关的语音识别。这就是说,在进行语音识别时,可取消用户识别。经此,可使语音识别系统达到十分简单的操作。这种方法的另一种优点在于对所有发音者具有共用的词汇表。取消了多个词汇表的管理上的耗费,并且它对用户来说更清楚。由于对在词汇表中已有的单词只须存储一种语音确认(话音提示),所以这种方法还允许明显地减少存储耗费。在此,语音确认的存储耗费约比参考语音样式的存储耗费高一个数量级。最后,用所介绍的方法通常可获得比语音识别器在单个使用时(仅一个发音者)要高得多的单词识别率。在该情形下,单词识别率的改进是基于通过多个发音者的训练来扩充一个单词的语音参考基础。本专利技术的步骤在于对一个语音识别系统所有的用户使用一种公共词汇表,其中给一个单词分配多个用户的参考语音样式。这种方法在语音训练和语音识别时需要上文所述的拒绝策略。这种方法适合具有超过一个用户的有限用户圈的语音识别应用。这是具有语音控制和语音指令输入的特殊应用,当然也是具有语音控制的数据库访问的特殊应用。实施例有语音控制的电话(从电话薄中进行语音控制的选择,语音控制各个功能象呼叫应答器的语音控制),而且还有常用的语音控制机/设备,象家电、娱乐器材和机动车辆。本专利技术优选的扩展方案在从属权利要求中给出。本专利技术的实施例由附图说明图1至8给出。本文档来自技高网...

【技术保护点】
通过有限用户圈用语音控制来启动可在设备中执行的动作的方法,有以下特征:(a)利用分别属于设备用户圈的至少一个用户的语音,分别在由用户引入的至少一个语音训练阶段中针对由每个用户所选出的至少一个工作模式来如此地训练所述的设备,使得(a1 )由这些用户中的至少一个用户针对至少一个动作而分别将分别属于该动作的至少一个参考语音发音输入到所述的设备内,(a2)从参考语音发音中通过语音分析产生一个参考语音样式,其中在多个参考语音发音且参考语音发音相类似时产生所述的参考语音样式, (a3)给所述的动作分配所述的参考语音样式,(a4)无条件地存储具有所分配的动作的参考语音样式,或者只有当参考语音样式与分配给其它动作的已经存储的其它参考语音样式不一样时,才存储具有所分配的动作的参考语音样式,(b)每个用户针对在 语音识别阶段中由用户所选出的设备工作模式将一个识别语音发音输入到所述的设备中,(c)从识别语音发音中通过语音分析产生一个识别语音样式,(d)所述的识别语音样式至少被如此地与为选出的工作模式而存储的参考语音样式的一部分进行比较,使得测 出每个参考语音样式和识别语音样式之间的相似性,并根据测出的相似值产生所述存储的参考语音样式的相似性优先次序,(e)如果识别语音样式与处于相似性优先次序第一位置上的参考语音样式相似,或识别语音样式与处于相似性优先次序第一位置上的参考语音样 式上相似且与处于相似性优先次序上第n个位置上的参考语音样式不相似,则用户试图用识别语音发音进行语音控制以启动可在设备中执行的动作被识别为是允许的,其中,给在相似性优先次序上处于第n个位置上的参考语音样式分配一个动作,该动作在相似性优先次序上与处于第一位置上的参考语音样式所分配的动作是不同的,并且,给相同的动作分配所述在相似性优先次序上处于第一且直到第(n-1)个位置上的参考语音样式,f)在所述的设备中,只有当针对在语音识别阶段由用户选出的设备工作模式而由用户输入的识别语音 发音被识别是允许的时,才执行给所述在相似性优先次序上处于第一位置的参考语音样式所分配的动作。...

【技术特征摘要】
DE 2000-3-8 10011178.51.通过有限用户圈用语音控制来启动可在设备中执行的动作的方法,有以下特征(a)利用分别属于设备用户圈的至少一个用户的语音,分别在由用户引入的至少一个语音训练阶段中针对由每个用户所选出的至少一个工作模式来如此地训练所述的设备,使得(a1)由这些用户中的至少一个用户针对至少一个动作而分别将分别属于该动作的至少一个参考语音发音输入到所述的设备内,(a2)从参考语音发音中通过语音分析产生一个参考语音样式,其中在多个参考语音发音且参考语音发音相类似时产生所述的参考语音样式,(a3)给所述的动作分配所述的参考语音样式,(a4)无条件地存储具有所分配的动作的参考语音样式,或者只有当参考语音样式与分配给其它动作的已经存储的其它参考语音样式不一样时,才存储具有所分配的动作的参考语音样式,(b)每个用户针对在语音识别阶段中由用户所选出的设备工作模式将一个识别语音发音输入到所述的设备中,(c)从识别语音发音中通过语音分析产生一个识别语音样式,(d)所述的识别语音样式至少被如此地与为选出的工作模式而存储的参考语音样式的一部分进行比较,使得测出每个参考语音样式和识别语音样式之间的相似性,并根据测出的相似值产生所述存储的参考语音样式的相似性优先次序,(e)如果识别语音样式与处于相似性优先次序第一位置上的参考语音样式相似,或识别语音样式与处于相似性优先次序第一位置上的参考语音样式相似且与处于相似性优先次序上第n个位置上的参考语音样式不相似,则用户试图用识别语音发音进行语音控制以启动可在设备中执行的动作被识别为是允许的,其中,给在相似性优先次序上处于第n个位置上的参考语音样式分配一个动作,该动作在相似性优先次序上与处于第一位置上的参考语音样式所分配的动作是不同的,并且,给相同的动作分配所述在相似性优先次序上处于第一且直到第(n-1)个位置上的参考语音样式,f)在所述的设备中,只有当针对在语音识别阶段由用户选出的设备工作模式而由用户输入的识别语音发音被识别是允许的时,才执行给所述在相似性优先次序上处于第一位置的参考语音样式所分配的动作。2.按照权利要求1所述的方法,其特征在于,如果在分别2个语音样式之间的应通过分析确定的间隔大小低于给定值或低于给定值且与这个值相等,则多个语音样式可确定为相似,其中所述的间隔大小表示一个语音样式与其它语音样式的距离。3.按照权利要求2所述的方法,其特征在于,用隐藏-马尔可夫-模型化或神经元网的动态编程(动态时间偏差)的方法测出或计算出所述的间隔大小。4.按照权利要求1-3之一所述的方法,其特征在于,由用户至少输入一个单词作为参考语音发音。5.按照权利要求1-4之一所述的方法,...

【专利技术属性】
技术研发人员:R奥保尔
申请(专利权)人:西门子公司
类型:发明
国别省市:DE[德国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1