本发明专利技术提供了对用于自动语音识别的深度神经网络(DNN)模型的适配和个性化。可以在诸如话音搜索或短消息命令之类的ASR任务中接收包括一个或多个扬声器的语音特征的话语。然后,可以将分解方法应用于该DNN模型中的原始矩阵。响应于应用该分解方法,该原始矩阵可以被变换为比该原始矩阵更小的多个新矩阵。然后,可以将方阵加到所述新矩阵。然后,可以将扬声器特定参数存储在该方阵中。然后,可以通过更新该方阵来对该DNN模型进行适配。这个过程可以被应用于该DNN模型中的所有多个原始矩阵。经适配的DNN模型可以包括与原始DNN模型中接收的参数相比数量减少的参数。
【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
很多计算设备,例如智能电话、桌面型计算机、膝上型计算机、平板电脑、游戏控制台等等,利用自动语音识别(ASR)来执行包括话音搜索和短消息命令的多种任务。为了提高ASR的准确度,已经提出了深度神经网络(DNN)的使用。DNN是在输入层和输出层之间具有一个以上的隐藏层的人工神经网络,并且可以模拟复杂的非线性关系。DNN中的隐藏层提供另外的抽象水平,从而增加其模型容量。然而当DNN被用于ASR中时,会遭受与适配和个性化相关联的多项缺点。例如,DNN的使用在增加ASR准确度的同时,也伴随着非常大量的参数,使得对DNN模型的适配非常有挑战性。此外,与在个性化ASR应用(即,多个单独扬声器)中使用DNN相关联的开销由于需要在部署期间针对每个单独扬声器存储非常大的DNN模型而过高。正是出于这些考虑以及其它考虑才做出了本专利技术的各个实施例。
技术实现思路
提供本概述以便以简化的形式介绍对构思的选择,以下详细描述将进一步描述这些构思。这一概述并不意在标识所声明的主题内容的关键特征或必要特征,也并不意在辅助确定所声明的主题内容的范围。针对用于自动语音识别的深度神经网络(DNN)模型的适配和个性化提供了实施例。包括很多扬声器的语音特征的话语可以被用于训练该DNN模型。然后,将诸如低秩因式分解之类的分解方法应用于DNN模型中的原始权重矩阵。由于应用该分解方法,该原始权重矩阵可以被变换为比该原始矩阵更小的多个新矩阵的乘积。然后,将方阵加到这些矩阵上。然后,可以将扬声器特定参数存储在该方阵中,该方阵可以被初始化为单位矩阵。然后,通过更新该方阵来对该DNN模型进行适配。经适配的DNN模型可以包括与原始DNN模型中接收到的模型参数相比数量减少的模型参数。这一过程可以应用于DNN模型中的所有多个原始矩阵。通过阅读以下详细描述和阅视相关联的附图,这些和其它特征和优点将是显而易见的。还应当理解的是,上述概括描述和以下详细描述都仅仅是说明性的,并非对所声明的本专利技术进行限制。附图说明图1是示出了根据一个实施例的用于对用于自动语音识别的深度神经网络模型进行适配和个性化的系统的框图;图2是示出了根据一个实施例的对深度神经网络模型的适配的框图;图3是示出了根据一个实施例的用于对用于自动语音识别的深度神经网络模型进行适配和个性化的例程的流图。图4是根据另一个实施例示出了用于对用于自动语音识别的深度神经网络模型进行适配和个性化的例程的流图。图5是可以用其实践各个实施例的计算设备的简化框图;图6A是可以用其实践各个实施例的移动计算设备的简化框图;图6B是可以用其实践各个实施例的移动计算设备的简化框图;图7是可以在其中实践各个实施例的分布式计算系统的简化框图。具体实施方式针对用于自动语音识别的深度神经网络(DNN)模型的适配和个性化提供了实施例。包括很多扬声器的语音特征的话语可以被用于训练该DNN模型。然后,可以将诸如低秩因式分解之类的分解方法应用于DNN模型中的原始权重矩阵。由于应用该分解方法,该原始权重矩阵可以被变换为比该原始矩阵更小的多个新矩阵的乘积。然后,可以将方阵加到这些矩阵上。然后可以将扬声器特定参数存储在该方阵中,该方阵可以被初始化为单位矩阵。然后,通过更新该方阵来对该DNN模型进行适配。这一过程可以应用于DNN模型中的所有多个原始矩阵。经适配的DNN模型可以包括与原始DNN模型中接收到的模型参数相比数量减少的模型参数。在以下详细描述中,参考了构成其部分的附图,并且其中所述参考是通过举例说明特定实施例或示例方式示出的。可以在不脱离本专利技术的精神或范围的前提下将这些实施例组合,采用其它实施例和做出结构性改变。因此以下详细描述不应从限制性的意义上去理解,并且本专利技术的范围由所附权利要求及其等同物来定义。现在参考附图,将描述本专利技术的各个方面,在附图中,类似的附图标记贯穿若干附图代表类似的元素,。图1是示出了根据一个实施例的可以用于对用于自动语音识别的深度神经网络模型进行适配和个性化的系统100的框图。系统100可以包括会话式对话系统,包括可以从一个或多个扬声器120(例如,扬声器1到N)接收话语125和130的计算设备150。计算设备150所接收到的话语125和130可以包括短消息命令160和/或话音搜索查询165,它们可以在用户界面155中被显示给用户。话语125和130可以包括语音特征135和140,所述语音特征可以是从诸如短消息命令155和/或话音搜索查询165之类的一个或多个ASR任务接收到的。根据各个实施例,计算设备150可以包括但并不仅限于桌面型计算机、膝上型计算机、智能电话、视频游戏控制台或电视。计算设备150还可以包括用于检测语音和接收视频/图片的一个或多个记录设备(未示出)(例如,微软KINECT、麦克风等等)或者与所述一个或多个记录设备通信。计算设备150可以存储应用170,如下面更详细描述的,应用170可以被配置为接收话语125和130中包含的语音特征135和140。如下面将会进一步详细描述的,应用170还可以被配置为生成用于自动语音识别的深度神经网络(DNN)模型105。根据本申请中描述的实施例,DNN模型105可以包括一个或多个未适配的DNN模型110和一个或多个经适配的DNN模型115,其中,每个未适配的DNN模型110包括参数111(即,模型参数),并且每个经适配的DNN模型115可以包括参数116(即,扬声器特定模型参数)。如下面将会参考图2-4更详细描述的,分解方法114(下文中称为SVD 114)可以被应用于未适配的DNN模型110中的原始矩阵112以便进行适配,从而经适配的DNN模型115中参数116的数量相比于未适配的DNN模型110中参数111的数量会减少。经适配的DNN模型115可以包括矩阵117。矩阵117可以包括在如下关于图3详细描述的由应用170执行的适配操作期间作为应用的SVD 11的结果从未适配的DNN模型中的原始矩阵112变换而来的另外的矩阵。此外,作为如下关于图4详细描述的由应用170执行的适配操作的结果,经适配的DNN模型115还可以包括增量(delta)矩阵118和小矩阵119。根据一个实施例,应用130可以包括来自华盛顿雷德蒙德的微软公司的BING话音搜索、视窗(WINDOWS)电话短消息命令和XBOX MARKET PLACE话音搜索应用。然而,应当理解的是,根据本申请中描述的各个实施例可以替换地使用来自其它制造商的其它应用(包括操作系统)。图2是示出了根据一个实施例的对DNN模型的适配的框图。经适配的DNN模型115可以包括层207、209和211。可以包括非线性函数205和矩阵210的层207是非线性层,而层209和211(可以分别包括线性函数214和225以及矩阵220和230)是线性层。经适配的DNN模型115还可以包括另外的线性函数235。如下面将参考图3更详细描述的,矩阵220可以包括方阵或单位矩阵,它是在适配期间唯一被更新的矩阵,并且包含比未适配的(即,原始)DNN模型110更少量的参数。图3是示出了根据一个实施例的用于对用于自动语音识别的深度神经网络模型进行适配和个性化的例程300的流图。在阅读本申请中呈现的例程的讨论时应当领会的是,本专利技术的各个实施例的本文档来自技高网...
【技术保护点】
一种对用于自动语音识别(ASR)的深度神经网络(DNN)模型进行适配和个性化的方法,包括:由计算设备从一个或多个ASR任务接收包括一个或多个扬声器的多个语音特征的至少一个话语;由所述计算设备将分解方法应用于所述DNN模型中的原始矩阵;响应于应用所述分解方法,将所述原始矩阵变换为多个新矩阵,所述多个新矩阵中的每一个新矩阵小于所述原始矩阵;由所述计算设备将另一个矩阵加到所述多个新矩阵上;以及由所述计算设备通过更新相加后的矩阵来对所述DNN模型进行适配,经适配的DNN模型包括所述DNN模型中的参数的数量的减少。
【技术特征摘要】
【国外来华专利技术】2014.03.07 US 14/201,7041.一种对用于自动语音识别(ASR)的深度神经网络(DNN)模型进行适配和个性化的方法,包括:由计算设备从一个或多个ASR任务接收包括一个或多个扬声器的多个语音特征的至少一个话语;由所述计算设备将分解方法应用于所述DNN模型中的原始矩阵;响应于应用所述分解方法,将所述原始矩阵变换为多个新矩阵,所述多个新矩阵中的每一个新矩阵小于所述原始矩阵;由所述计算设备将另一个矩阵加到所述多个新矩阵上;以及由所述计算设备通过更新相加后的矩阵来对所述DNN模型进行适配,经适配的DNN模型包括所述DNN模型中的参数的数量的减少。2.如权利要求1所述的方法,还包括利用多个新层来替换所述DNN模型中的原始层。3.如权利要求2所述的方法,其中,所述多个新层中的至少一个新层包括非线性层。4.如权利要求1所述的方法,其中,由所述计算设备将分解方法应用于所述DNN模型中的原始矩阵包括:将奇异值分解(SVD)应用于所述DNN模型中的所述原始矩阵。5.一种对用于自动语音识别(ASR)的深度神经网络(DNN)模型进行适配和个性化的系统,包括:用于存储可执行程序代码的存储器;以及处理器,其功能性地耦接到所述存储器,所述处理器响应于所述程序代码中包含的计算机可执行指令并且操作用于:从一个或多个ASR任务接收包括一个或多个扬声器的多个语音特征的至少一个话语;根据所述DNN模型来确定经适配的DNN模型,所述DNN模型包括多个未适配的矩阵,并且所述经适配的DNN模型包括多个经适配的矩...
【专利技术属性】
技术研发人员:薛健,李锦宇,俞栋,M·L·塞尔策,龚一凡,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。