【技术实现步骤摘要】
【国外来华专利技术】使用多传感器的语音识别
[0001]本申请要求于2018年12月21日提交的题为“使用多传感器的语音识别”的美国临时专利申请序列号为62/784,201的优先权,通过引用其整体并入本文。
[0002]本申请涉及在语音识别中使用的传感器,并且更具体地涉及使用多个传感器来识别语音的方法和系统。
技术介绍
[0003]今天,与计算机的声频交互变得无处不在,并且语音识别起着核心作用。然而,由于较差的音响效果或说话者的特质(idiosyncrasies),诸如口音,语音模式等,语音识别充满了不准确性。此外,语音识别往往会消耗大量的处理时间和能量。
[0004]
技术实现思路
概要
[0005]本文介绍的是通过利用被放置在多个语音传输区域(诸如用户的嘴唇,喉咙,耳道等)的多个传感器来增加语音识别准确性的系统和方法。多个语音传输区域在传输某些音素方面更好,被放置在靠近特定语音转换(transition)区域的传感器可以更准确地检测通过该特定语音传输区域被传输的音素。例如,被放置在靠近嘴唇的麦克风比被放置在靠近喉咙的麦克风可以更好地检测唇音音素(labial phonemes),诸如m,n,p,和b。此外,本文公开了在执行语音识别的同时降低能耗的方法。
附图说明
[0006]通过结合所附权利要求和附图研究以下详细描述,本实施例的这些和其他对象,特征,和特性对于本领域技术人员来说将变得更加清楚,所有这些都构成本说明书的一部分。虽然附图包括多种实施例的图示,但附图并不旨在限制所要求保护的主题。 >[0007]图1A
–
1B示出了围绕用户并记录用户语音的多个传感器。
[0008]图2示出了与用户语音系统相关联的语音传输区域。
[0009]图3A
–
3B示出了根据多种实施例的听力设备。
[0010]图4是使用多个传感器完成语音识别的方法的流程图。
[0011]图5是计算机系统的示例形式的机器的示意图表示,其中可以执行一组指令,用于使机器完成本文讨论的任何一个或多个方法(methodologies)或模块。
具体实施方式
[0012]术语
[0013]在本申请中使用的术语,缩写,和短语的简要定义在下面给出。
[0014]本说明书中提及“一个实施例”或“一实施例”是指结合实施例描述的特定特征,结构,或特性被包括在本公开的至少一个实施例中。说明书中多处出现的短语“在一个实施例中”不一定都指同一个实施例,也不是与其他实施例相互排斥的单独或替代的实施例。而
且,描述了可以由一些实施例而不是由其他实施例展示的多种特征。类似地,描述了可以是一些实施例的要求而不是其他实施例的要求的多种要求。
[0015]除非上下文另有明确要求,否则在整个说明书和权利要求中,词语“包含”(“comprise”,“comprising”)等应被解释为包含性意义,而不是排他性或穷尽性意义;也就是说,在“包括,但不限于”的意义上。如本文所用,术语“被连接”,“被耦合”,或其任何变体是指两个或更多个元件之间的任何直接或间接的连接或耦合。元件之间的耦合或连接可以是物理的,逻辑的,或其组合。例如,两个设备可以被直接耦合,或者经由一个或多个中介通道或设备耦合。作为另一个示例,设备可以以这样的方式被耦合,即信息可以在它们之间被传递,而彼此之间不共享任何物理连接。此外,在本申请中使用的词语“本文”,“以上”,“以下”,和类似含义的词语应指本申请作为整体,而不是指本申请的任何特定部分。在上下文允许的情况下,具体实施方式中使用单数或复数的词语也可以分别包括复数或单数。关于两个或多个项目的列表,“或”一词涵盖了对该词的所有以下解释:列表中的任何项目,列表中的所有项目,以及列表中项目的任意组合。
[0016]如果说明书规定(state)组件或特征“可以”(”may”,“can”,“could”,或“might”)被包括或具有特性,则该特定组件或特征不需要被包括或具有特性。
[0017]术语“模块”泛指软件,硬件,或固件组件(或其任何组合)。模块通常是功能组件,可以使用指定的输入生成有用的数据或其他输出。一个模块可以是也可以不是独立(self
‑
contained)的。一个应用程序(也被称为“应用”)可以包括一个或多个模块,或者一个模块可以包括一个或多个应用程序。
[0018]具体实施方式中使用的术语旨在以其最广泛合理的方式进行解释,即使它与某些示例结合使用。本说明书中使用的术语在本领域中,在本公开的上下文中,以及在使用每个术语的特定上下文中通常具有它们的普通含义。为方便起见,某些术语可能会被突出显示,例如使用大写,斜体,和/或引号。突出显示的使用对术语的范围和含义没有影响;在相同的上下文中,无论是否被突出显示,术语的范围和含义都是相同的。应当被领会,可以以不止一种方式描述相同的元件。
[0019]因此,替代语言和同义词可用于本文中讨论的任何一个或多个术语,但是对于术语是否在本文中详细阐述或讨论并没有特别的意义。一个或多个同义词的使用不排除使用其他同义词。本说明书中任何地方的示例的使用,包括本文讨论的任何术语的示例,仅是说明性的,并不旨在进一步限制本公开或任何示例性术语的范围和含义。同样,本公开不限于本说明书中给出的多种实施例。
[0020]使用多个传感器进行语音识别
[0021]本文介绍的是通过利用被放置在多个语音传输区域(诸如用户的嘴唇,喉咙,耳道等)的多个传感器来增加语音识别准确性的系统和方法。多种语音传输区域在传输某些音素方面更好,被放置在靠近特定语音转换区域的传感器可以更准确地检测通过该特定语音传输区域被传输的音素。例如,被放置在靠近嘴唇的麦克风比被放置在靠近喉咙的麦克风可以更好地检测唇音音素,诸如m,n,p,和b。此外,本文公开了在执行语音识别的同时降低能耗的方法。
[0022]当今最准确的语音识别系统之一是用于识别母语人士的Google语音。该系统的准确性为95%。但是,对于带有口音的说话者的语音识别准确性显著下降,下降到59%。通过
使用沿着多种语音传输区域放置的多个传感器,对于母语和非母语的说话者来说,语音识别的准确性都可以超过95%。
[0023]图1A
–
1B示出了围绕用户并感测用户语音的多个传感器。传感器100,110,120,150,和/或160可以与诸如耳塞,耳机,助听器等的听力设备130相关联。传感器100,110,120,150,和/或160可以和与听力设备130相关联的处理器140进行有线或无线通信。传感器100,110,120,150,和/或160可以是麦克风,压电传感器,电容传感器,干电极,加速度计,激光器,红外传感器等。
[0024]传感器100,110,120,150,和/或160可以被设置临近与用户的语音系统相关联的多个语音传输区域。传感器100,110,120,150,和/或160可以感测与语音传输区域相关联的声音。语本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种系统,包含:第一麦克风,被设置在入口处或用户耳道内,以测量通过所述用户的耳道被传输的第一声音;第二麦克风,被设置为临近用户的嘴唇,以测量通过所述用户的嘴唇被传输的第二声音;处理器被配置为:接收所述第一声音的第一测量和所述第二声音的第二测量;和通过确定所述第一声音的一部分和所述第二声音的一部分之间的差异并基于所述差异修改音素预测的概率来提高语音识别算法的准确性,所述第一声音的所述一部分和所述第二声音的所述一部分之间的所述差异包含与来自每个麦克风所记录的所述第一声音和所述第二声音相关联的幅度和相位之间的差异。2.根据权利要求1所述的系统,包含被配置为修改音素预测的概率的所述处理器,其包含所述处理器,其被配置为:通过从所述第二麦克风中选择唇音音素和从所述第一麦克风中选择非唇音音素来重构用户的语音。3.根据权利要求1所述的系统,包含:第三麦克风,被设置为临近用户的喉咙,以测量通过所述用户的喉咙被传输的第三声音。4.根据权利要求3所述的系统,包含所述处理器被配置为:通过从所述第三麦克风中选择喉音音素并从所述第一麦克风中选择非唇音和非喉音音素来重构用户的语音。5.根据权利要求1所述的系统,包含所述处理器被配置为:基于所述第一测量和所述第二测量识别激活发声;和识别所述激活发声时,促使用户语音的识别。6.根据权利要求1所述的系统,包含所述处理器被配置为:通过在低能量模式下操作所述第二麦克风直到所述第一麦克风检测到所述第一个声音,并在检测到所述第一声音时,将所述第二麦克风转换到高能量模式以测量所述第二声音,从而降低与所述第二麦克风相关联的能耗。7.一种系统,包含:多个传感器,所述多个传感器中的第一传感器被设置在用户耳道的入口处或耳道内,所述多个传感器中的第二传感器被设置临近与用户语音系统相关联的语音传输区域,所述第一传感器感测所述用户耳道内的第一声音,所述第二传感器感测由所述语音传输区传输的第二声音;处理器被配置为:接收所述第一声音和所述第二声音的一个或多个测量;和通过确定所述第一声音的一部分和所述第二声音的一部分之间的差异并基于所述差异修改音素预测的概率来提高语音识别算法的准确性。8.根据权利要求7所述的系统,包含被配置为提高所述语音识别算法的所述准确性的所述处理器,包含所述处理器被配置为:
确定所述第一声音的所述一部分比所述第二声音的所述一部分具有更高的幅度;和在所述语音识别算法中,对所述第一声音的所述一部分的依赖大于所述第二个声音的所述一部分。9.根据权利要求7所述的系统,包含所述处理器被配置为:通过基于表示所述第一和所述第二传感器中哪个传感器更好地感测语音的所述第一部分和语音的所述第二部分的标准从所述第一声音中选择语音的第一部分和从所述第二声音中选择语音的第二部分来重构用户的语音。10.根据权利要求9所述的系统,所述处理器被配置为重构所述用户的语音,包含所述处理器被配置为:从与所述其他传感器相比被放置在更靠近所述音素传输源的传感器所记录的声音中选择音素。11.根据权利要求10所述的系统,所述处理器被配置为选择所述音素,包含所述处理器被配置为:当所述第二传感器比所述第一传感器被放置为更靠近用户的嘴唇时,从所述第二声音中选择唇音音素。12.根据权利要求9所述的系统,所述处理器被配置为重构所述用户的语音,包括所述处理器被配置为:获取表示频率范围的所述标准;和选择来自所述第一传感器的低频声音和来自所述第二传感器的高频声音。13.根据权利要求7所述的系统,包含所述处理器被配置为:基于所述一个或多个测量识别激活发声;和在识别所述激活发声时,促使用户语音的识别。14.根据权利要求13所述的系统,包含所述处理器以:基于被包含在所述激活发声中的一个或多个音素,确定所述多个传感器中可能感测所述一个或多个音素的传感器,并且以高能量模式连续操作所述传感器。15.根据权利要求14所述的系统,包含所述处理器,其被配置为当所述传感器感测到所述一个或多个音素时识别所述激活发声。16....
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。