提供了用于结合环境变量的语音识别的系统和方法。该系统包括:语音捕捉设备(202);特征提取模块(204);环境变量模块(206),其中所述环境变量模块确定环境变量的值;以及语音识别解码器(208),其中所述语音识别译码器利用深度神经网络(DNN)来识别由所述语音捕捉装置捕捉的语音,其中所述DNN的一个或多个组件被建模为环境变量的一组函数。
【技术实现步骤摘要】
【国外来华专利技术】背景语音识别和利用语音识别技术的应用已变得常见并且越来越流行。许多这些应用也被纳入到个人计算机、膝上型计算机、移动设备、以及其它类似类型的装置中。这些设备通常位于不同的地方,或从一个地方移动到另一个地方。如此,背景噪声和其它环境因素将取决于位置而不同。这些环境因素中的一些对语音识别的质量和一致性具有影响。如此,当用户在不同的位置使用语音识别应用,所识别语音的质量往往较差或不一致。各实施例正是对于这些和其它一般考虑事项而做出的。而且,尽管讨论了相对具体的问题,但是应当理解,各实施例不应被限于解决本
技术介绍
中所标识的具体问题。概述该技术涉及用于结合环境变量的语音识别的系统和方法。所述系统和方法捕捉诸如来自用户的语音用于识别。然后,利用深度神经网络(DNN)(更具体地是变量组件DNN(VCDNN))来识别所述语音。VCDNN通过结合环境变量来处理并识别所捕捉的语音。环境变量可以是取决于环境条件或用户、客户端设备、以及环境的关系的任何变量。例如,所述环境变量可以基于环境噪声。一种这样的环境变量可以是信噪比。其它环境变量还可包括语音捕捉设备离用户的距离、用户的语速,讲话者的声道长度、以何角度接收来自用户的语音、用户的年龄、或其它类似的变量。环境变量可利用用户讲话被同时测量。VCDNN可以不同的方式结合环境变量,并且几乎DNN的任何组件可被建模作为诸如环境变量的多项式函数之类的一组功能。例如,可利用变量参数DNN(VPNN),其中加权矩阵组件与偏置组件是环境变量相关的。在另一个例子中,可利用变量输出DNN(VODNN),其中每个隐藏层的输出是环境变量相关的。在又一示例中,可利用变量激活DNN(VADNN),其中在DNN节点的激活函数的参数被建模为环境变量相关。在每个示例中,可计算变量相关组件用于在测试中被检测的环境条件或在识别期间使用与它们相关联的多项式函数来测量数据。通过以这样的方式将环境变量结合于DNN,可跨多个不同的环境实现高质量语音识别结果。提供本概述以便以简化的形式介绍将在以下的详细描述中进一步描述的一些概念。本
技术实现思路
并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。附图简述参考以下附图描述非限制性和非穷尽的实施例。图1描绘了用于语音识别的环境。图2描绘了用于语音识别的系统。图3示出VPDNN中一层的流程图。图4示出VODNN中一层的框架。图5描绘了VADNN中一层的流程图。图6描绘了用于基于VCDNN的语音识别的方法。图7是示出可用来实施本公开的各实施例的计算设备的示例物理组件的框图。图8A和8B是可用来实施本公开的各实施例的移动计算设备的简化框图。图9是可在其中实施本公开的各实施例的分布式计算系统的简化框图。图10示出用于执行本公开的一个或多个实施例的平板计算设备。详细描述在下面的详细描述中,参考构成其一部分的附图,在附图中,通过例图,示出了具体的实施例或示例。可将这些方面组合起来,也可利用其它方面,并且可作出结构上的改变而不背离本公开的精神或范围。因此,下面的具体实施方式不应以限制性的意义来理解,而是本公开的范围是由所附权利要求及其等效方案来定义的。本公开一般涉及改进语音识别的稳健性。在某种程度上,本公开涉及跨多种环境改进语音识别。例如,语音识别结果的质量通常在安静环境和有噪声的环境之间变化。本公开提供通过将环境变量纳入深度神经网络(DNN)的组件以供语音识别系统中使用来提供跨多个环境的较高质量结果的系统和方法。这样的语音识别系统和方法可在本文中被称为“噪声稳健”语音识别系统和方法。先前对于创建噪声稳健的语音识别系统的尝试(尽管不断地比它们的前代产品更好)仍然留有改进的余地。例如,利用上下文相关的深度神经网络隐式马尔可夫模型(CD-DNN-HMM)的系统已在自动语音识别上显示出对传统高斯混合模型(GMM-HMM)的优越性。对于这两种DNN-HMM和GMM-HMM系统,基于模型的噪声稳健的方法是包括用于训练数据的在各种条件下的噪声语音,这被称作多条件训练。然而,利用过去GMM-HMM和DNN-HMM的多条件训练会遭受一些限制。例如,利用固定参数组建模各种训练环境导致“扁平”分布,这在区分环境中较不有用。如此,针对在特定环境中的识别语音,“扁平”模式不是最优匹配模型。而且,通常难以收集训练数据以覆盖所有可能类型的环境,这导致在未见的噪声环境中的性能不可预测。变量参数HMM(VPHMM)系统寻求解决这些限制,但仍有其自身的限制。在基于VPHMM的语音识别中,诸如状态发射参数(GMM均值和方差)或适配矩阵的HMM参数,被建模为连续环境相关变量的多项式函数。在识别的时候,特定于给定环境变量值的一组GMM均值和方差(或适配矩阵)被实例化并用于识别。即使没在训练中看出测试环境,由于环境变量方面的均值和方差的改变可通过多项式来预测,因此所估计的GMM参数可仍然有效。然而,对这些现有方法的改进是可能的,并在本公开中讨论。更具体地,本公开涉及被称为基于变量组件DNN(VCDNN)的语音识别系统的基于模型的噪声稳健语音识别系统。利用基于VCDNN的语音识别,DNN中的几乎任何组件可被建模作为一组环境变量的多项式函数。作为一个示例,可利用变量参数DNN(VPNN),其中加权矩阵组件与偏置组件是环境变量相关的。在另一个例子中,可利用变量输出DNN(VODNN),其中每个隐藏层的输出是环境变量相关的。在又一示例中,可利用变量激活DNN(VADNN),其中在DNN节点的激活函数的参数被建模为环境变量相关。在每个示例中,可计算变量相关组件用于在测试中被检测的环境条件或在识别期间使用与它们相关联的多项式函数来测量数据。转向图1,图1描绘了包括用户102和客户端设备104的环境100。环境100中的用户102向客户端设备104说话。在接收到来自用户102的语音之际,客户端设备104利用基于VCDNN的语音识别来完成语音识别,如以下更加详细描述的。此外,如以下澄清的,使用VCDNN的语音识别可至少部分地采用附加的设备或应用(诸如服务器或基于云的应用)来执行。环境100可随着用户102访问分开的客户端设备(诸如膝上型计算机或个人计算机)来改变。环境100还可随着用户102改变位置或随着环境100在用户102周围改变来改变。例如,客户端设备104可以是诸如智能电话的移动设备。用户102可希望使得客户端设备104上的语音识别功能能在多个环境中被执行。例如,用户可在噪杂的街道上来尝试使得语音识别功能被执行在客户端设备104上。稍后,用户可在安静的办公室中来尝试使得语音识别功能被执行在客户端设备上。由于语音识别过程中对VCDNN的利用,用户102将在两种环境上都接收到较高质量的结果。图2描绘了用于噪声稳健语音识别的系统200。图2示出客户端设备104、语音识别解码器208、以及应用212的更详细示图。客户端设备104可包括语音捕捉设备202、特征提取模块204、和环境变量模块206。语音捕捉设备202捕捉由用户102所讲的语音。语音捕捉设备202可以是硬件和软件组件的组合,诸如话筒和数字化软件,以及其它公知的语音捕捉设备。在各实施例中,也可通过特征提取模块204提取特征向量。特征向量可本文档来自技高网...
【技术保护点】
一种用于识别语音的方法,所述方法包括:捕捉语音输入;为环境变量确定数值;利用深度神经网络(DNN)来识别所捕捉的语音输入,其中DNN的一个或多个组件被建模为一组环境变量的函数;以及产生经识别语音的输出。
【技术特征摘要】
【国外来华专利技术】1.一种用于识别语音的方法,所述方法包括:捕捉语音输入;为环境变量确定数值;利用深度神经网络(DNN)来识别所捕捉的语音输入,其中DNN的一个或多个组件被建模为一组环境变量的函数;以及产生经识别语音的输出。2.如权利要求1所述的方法,其特征在于,所述DNN的一个或多个组件至少包括一个或多个加权矩阵和一个或多个DNN偏移中的一组。3.如权利要求1所述的方法,其中所述DNN的一个或多个组件是所述DNN隐藏层的一个或多个输出。4.如权利要求1所述的方法,其中所述DNN的一个或多个组件是所述DNN中一个或多个节点的一个或多个激活函数。5.如权利要求1所述的方法,其中所述环境变量基于环境的噪声。6.如权利要求5所述的方法,其特征在于,所述环境变量是信噪比。7.一种用于识别语音的系统,所述系统包括:...
【专利技术属性】
技术研发人员:J·李,R·赵,Y·宫,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。