使用地理信息的声学模型适配制造技术

技术编号：11387823 阅读：105 留言：0更新日期：2015-05-02 00:00

用于增强语音识别准确度的方法、系统和装置、包括在计算机存储介质上编码的计算机程序。在一个方面中，一种方法包括：接收与移动设备记录的讲话对应的音频信号；确定与移动设备关联的地理位置；针对地理位置适配一个或者多个声学模型；并且使用针对地理位置适配的一个或者多个声学模型对音频信号执行语音识别。

全部详细技术资料下载

【技术实现步骤摘要】
使用地理信息的声学模型适配本申请是申请号为201180021722.X、申请日为2011年5月23日、专利技术名称为“使用地理信息的声学模型适配”的专利技术专利申请的分案申请。相关申请的交叉引用本申请要求标题为ACOUSTICMODELADAPTATIONUSINGGEOGRAPHICINFORMATION、于2010年5月26日提交的第12/787,568号美国申请的优先权，通过援引将其公开内容并入于此。
本说明书涉及语音识别。
技术介绍
移动设备的用户可以例如通过在键盘上键入或者向麦克风中口述来录入文字。在话音输入的背景中，自动化搜索识别(“ASR”)引擎可能在与特定语言关联的声音基于用户的口音而变化时准确识别口述单词有困难。例如在由纽约人或者波士顿人口述时，典型ASR引擎可能识别单词“park”分别为单词“pork”或者“pack”。
技术实现思路
一般而言，在本说明书中描述的主题内容的一个创新方面可以体现于方法中，这些方法用于ASR引擎自动地训练、选择、生成或者否则适配在地理位置上专属(或者“地理专属”)于一个或者多个地理区域的一个或者多个声学模型。声学模型应用于用位置信息进行“地理标注”的音频信号(或者“采样”或者“波形”)以通过比较音频信号与声音的统计表示来执行语音识别，这些声音组成特定语言的每个单词。一个或者多个声学模型可以包括在地理位置上专属于单个地理区域或者多个地理区域的单个声学模型。如本说明书中所用，“地理标注”的音频信号指代已经与位置元数据(例如地理位置元数据或者相对位置元数据)或者地理空间元数据关联或者用该元数据“标注”的信号。除其他以...

【技术保护点】
一种系统，包括：一个或者多个计算机；以及计算机可读介质，耦合到所述一个或者多个计算机，具有存储于所述计算机可读介质上的指令，所述指令在由所述一个或者多个计算机执行时，使所述一个或者多个计算机执行操作，所述操作包括：接收与移动设备记录的讲话对应的音频信号；确定与所述移动设备关联的地理位置；确定与所述地理位置关联的地理位置类型；基于与所述移动设备的所述地理位置关联的所述地理位置类型以及基于与所述讲话关联的情境数据选择地理标注的音频信号的子集，其中所述情境数据包括对所述移动设备记录所述讲话时的时间或者日期进行引用的数据、对所述移动设备在记录所述讲话时测量的速度或者运动量进行引用的数据、引用所述移动设备的设置的数据或者引用所述移动设备的类型的数据；针对所述地理位置类型适配一个或者多个声学模型；以及使用针对所述地理位置类型适配的所述一个或者多个声学模型对所述音频信号执行语音识别。

【技术特征摘要】
2010.05.26 US 12/787,5681.一种用于适配声学模型的系统，所述系统包括：一个或者多个计算机；以及计算机可读介质，耦合到所述一个或者多个计算机，具有存储于所述计算机可读介质上的指令，所述指令在由所述一个或者多个计算机执行时，使所述一个或者多个计算机执行操作，所述操作包括：接收与移动设备记录的讲话对应的音频信号；确定与所述移动设备关联的地理位置；确定与所述地理位置关联的地理位置类型；基于与所述移动设备的所述地理位置关联的所述地理位置类型来选择地理标注的音频信号的子集；使用所述地理标注的音频信号的所述子集针对所述地理位置类型适配一个或者多个声学模型；以及使用针对所述地理位置类型适配的所述一个或者多个声学模型对所述音频信号执行语音识别。2.根据权利要求1所述的系统，其中适配一个或者多个声学模型还包括在接收与所述讲话对应的所述音频信号之前适配一个或者多个声学模型。3.根据权利要求1所述的系统，其中适配一个或者多个声学模型还包括在接收与所述讲话对应的所述音频信号之后适配一个或者多个声学模型。4.根据权利要求1所述的系统，其中所述操作还包括：针对所述地理标注的音频信号中的每个地理标注的音频信号确定在与所述移动设备关联的所述地理位置和与所述地理标注的音频信号关联的地理位置之间的距离；以及选择与在与所述移动设备关联的所述地理位置的预定距离内的地理位置关联、或者与在与关联于所述移动设备的所述地理位置最近的N个地理位置之中的地理位置关联的所述地理标注的音频信号作为所述地理标注的音频信号的所述子集。5.根据权利要求1所述的系统，其中所述操作还包括基于与所述移动设备的所述地理位置关联的所述地理位置类型和基于与所述讲话关联的情境数据来选择所述地理标注的音频信号的所述子集。6.根据权利要求5所述的系统，其中所述情境数据包括对所述移动设备记录所述讲话时的时间或者日期进行引用的数据、对所述移动设备在记录所述讲话时测量的速度或者运动量进行引用的数据、引用所述移动设备的设置的数据或者引用所述移动设备的类型的数据。7.根据权利要求1所述的系统，其中适配所述声学模型包括使用所述地理标注的音频信号的所述子集作为训练集来训练高斯混合模型(GMM)。8.根据权利要求1所述的系统，其中所述讲话代表语音搜索查询或者向数字口授应用或者对话系统的输入。9.根据权利要求1所述的系统，其中确定所述地理位置类型还包括从所述移动设备接收引用所述地理位置...

【专利技术属性】
技术研发人员：M·I·洛伊德，T·克里斯特詹森，
申请(专利权)人：谷歌公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人