本文描述用于双带语音编码的各种技术。在一些实施例中,从远程实体接收第一类型的语音特征,基于该第一类型的语音特征确定第二类型的语音特征的估计,第二类型的语音特征的估计被提供给语音识别器,从语音识别器接收基于第二类型的语音特征的估计的语音识别结果,并且语音识别结果被传送至远程实体。
【技术实现步骤摘要】
本申请涉及语音编码,尤其涉及双带语音编码。
技术介绍
基于电话的语音识别系统依赖于训练数据来识别语音信号。语音识别系统的性能受限于可用于系统的训练数据的质量(例如,采样速率)。传统的基于声音的电话系统因低采样速率声音编码和用于数据收集的带宽受限的声音信道而产生窄带训练数据。已围绕使用该窄带训练信号并因此接收窄带语音数据而设计并使用当前数据信道声音识别系统。因此,当前使用的窄带声音识别系统经常不能用于收集使用较高质量的宽带语音识别系统所必需的宽带语音数据。
技术实现思路
本文描述用于在语音识别系统中实现双带语音编码的各种技术。这些技术可基于另一类型的语音特征和语音特征估计误差来确定一语音特征的估计。一旦确定,这些技术使用该语音特征的估计来提供基于语音的服务并存储该另一类型的语音特征。藉由这样做,这些技术通过提供双带基于语音的功能性(诸如窄带基于语音的服务和宽带语音数据收集)来节省带宽并同时传递单带语音特征。提供本
技术实现思路
以便以简化形式介绍在以下具体实施方式中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。附图说明参考附图描述具体实施方式。在附图中,附图标记中最左边的数字标识该附图标记首次出现的附图。在说明书和附图的不同实例中使用相同的附图标记可指示相似或相同的项目。图I示出了其中可执行双带语音编码技术的示例环境。图2示出图I的移动设备的详细示例。图3是描绘用于基于另一类型的语音特征来确定语音特征估计的示例过程的流程图。图4是描绘用于基于另一类型的接收到语音特征来确定一语音特征估计的示例过程的流程图。图5是描绘用于基于另一类型的语音特征和估计误差来确定一语音特征估计的示例过程的流程图。具体实施例方式概览本文描述用于双带语音编码的各种技术。这些技术的各种实施例允许分布式语音识别系统使用另一类型的语音特征提供基于一种类型的语音特征的使用语音识别的各种服务。在一些实施例中,宽带和窄带语音特征可与包含该宽带语音特征的单个编码的比特流通信。通过从宽带语音特征中估计窄带语音特征节省了带宽,可存储该宽带语音特征以实现宽带语音识别服务。作为示例,考虑智能电话用户经由基于语音的服务做出搜索请求。尽管基于语音的服务可能不能使用宽带语音特征用于语音识别,但智能电话捕获基于用户声音的波形并提取较高质量的宽带语音特征。智能电话然后向基于语音的服务的服务器传送提取的宽带语音特征用于语音识别。服务器从宽带语音特征估计窄带语音特征并向窄带语音识别器提供窄带语音特征估计。来自窄带语音识别器的结果被发送至搜索引擎且搜索结果被传送至智能电话。较高质量的宽带语音特征由服务器存储为训练数据以在一旦收集到足够量的宽带语音数据时就实现较高质量的基于语音的服务。通过这样做,基于窄带语音特征的搜索结果被提供给用户并收集宽带语音特征而无需传送窄带和宽带语音特征两者,这节省了传送这两组语音特征所消耗的带宽。示例环境图I是具有移动设备102、服务器104和通信网络106的示例环境100的图示,移动设备102和服务器104可通过通信网络106来通信。一般来说,移动设备102和服务器 104通过无线网络106的数据信道进行通信以实现分布式语音识别系统。在一些实施例中, 无线网络106也可提供允许移动设备102与其他启用声音的设备进行通信的声音信道。移动设备102可为能够接收语音输入并通过网络(例如,通信网络106)传递数据的任何设备。移动设备102是分布式语音识别系统客户机并向服务器104传送语音数据用于识别。在本示例中,移动设备102被示为智能电话。尽管并未示出,但是移动设备102可包括其它设备,仅举数例,诸如蜂窝电话、(个人或基于车辆的)数据使能导航设备、无线IP 语音电话、数据使能膝上或平板计算机、或启用语音的个人媒体设备。服务器104可为具有用于识别语音的资源和/或主存服务的任何计算设备。服务器104也能够基于识别出的语音来提供语音相关服务和/或结果以用于实现分布式语音识别系统。已编码语音特征由服务器104在语音识别之前被解码。在一些实施例中,服务器 104表示由云或其他远程基于语音的服务器提供商提供的服务和/或功能性。服务器104可本地或远程访问用于语音识别的数据,诸如举例而言,用于训练语音识别器的窄带语音数据。服务器104的编解码器(未示出)可用于提供来自己编码宽带语音特征的单个比特流的宽带和窄带语音特征。通过接收和/或存储宽带语音数据,服务器104可收集宽带语音数据用于实现宽带语音识别系统。仅举数例,无线网络106可包括诸如蜂窝网络、无线局域网、无线广域网、和/或近程无线网络之类的任何合适的网络。另外,在至少一些实例中,无线网络106可由诸如蜂窝服务提供者、因特网服务提供者、和/或IP语音提供者之类的通信服务提供者来管理,以便于任何类型的无线移动设备的数据和/或声音通信。图2示出图I的移动设备102的详细示例。移动设备102包括处理器202、计算机可读介质(CRM) 204、音频接口 206以及无线网络接口 208。计算机可读介质204包含语音编码引擎210。如何实现和使用语音编码引擎210是变化的,其将作为以下讨论的过程的一部分来进行描述。音频接口 206包括能够捕获音频的话筒212和能够生成听觉输出的扬声器214。音频接口 206可在移动设备102本机上实现和/或经由诸如无线个域网耳机或头戴式耳机之类的任何有线或无线音频设备实现。一般地,本文描述的任何技术和能力可使用软件、固件、硬件(例如,固定逻辑电路)、手动处理或这些实现的任何合适的组合来实现。示例移动设备102 —般表示软件、固件、硬件、或其任何组合。例如,在软件实现的情况下,语音编码引擎210表示当在处理器 (例如,一个或多个CPU)上执行时执行特定任务的计算机可执行指令(例如,程序代码)。 程序代码可被储存在一个或多个计算机可读存储器设备中,诸如计算机可读介质204。本文描述的各技术和特征是平台无关的,从而意味着它们可在具有各种处理器的各种商用计算平台上实现。示例过程以下讨论描述了用于双带语音编码的各种技术。一般来说,这些技术使移动设备能基于语音波形确定第一类型的语音特征和第二类型的语音特征,基于该第一类型的语音特征确定第二类型的语音特征的估计,确定第二类型的语音特征的估计的估计误差并向服务器传送第一类型的语音特征和估计误差。这些技术也允许服务器接收第一类型的语音特征,从第一类型的语音特征确定第二类型的语音特征的估计,向使用第二类型的语音特征训练的语音识别器提供第二类型的语音特征的估计以及向移动设备传送与语音识别器的结果相关联的数据。这些过程的各方面可用硬件、固件、软件、或其组合来实现。例如,基于语音的编码器-解码器(编解码器)能执行这些过程的一个或多个方面。这些过程被示为指定诸如通过一个或多个实体或设备执行的操作的一组框,并且其不必限于所示由各框执行操作的顺序。在以下讨论的各部分中,可参考图I的环境100以及图2所示的环境100的实体。图3是描绘用于基于另一类型的语音特征来确定语音特征估计的示例过程300的流程图。框302接收语音波形。可经由诸如具有至少7kHz带宽的话筒的音频输入接收语音波形。作为示例,在本文档来自技高网...
【技术保护点】
【技术特征摘要】
...
【专利技术属性】
技术研发人员:A·阿塞罗,J·G·德罗珀三世,M·L·塞尔泽,
申请(专利权)人:微软公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。