一些实施例致力于允许用户提供输入到未连接至执行语音使能应用程序的计算机的移动通信装置,如智能电话中的、旨在用于该语音使能应用程序的语音输入。该移动通信装置可以将用户的语音输入作为音频数据提供给在服务器上执行的代理应用,其确定要向哪个计算机提供所接收音频数据。当代理应用确定了要将音频数据提供至其的计算机时,其将该音频数据发送至该计算机。在一些实施例中,自动语音识别可以在将音频数据提供给计算机之前针对其执行。在这种实施例中,代替提供音频数据,代理应用可以将根据执行自动语音识别而生成的识别结果发送至所标识计算机。
【技术实现步骤摘要】
【国外来华专利技术】
在此描述的技术总体上致力于促进用户与语音使能应用程序的相互作用。
技术介绍
语音使能软件应用程序是能够经由从用户提供的语音输入来与该用户相互作用的和/或能够按语音形式向人类用户提供输出的软件应用程序。语音使能应用在许多不同环境中使用,如字处理应用、电子邮件应用、文本消息和web浏览应用、手持式装置命令和控制,以及许多其它方面。这种应用可以是专有语音输入应用,或者可以是能够进行多种类型的用户相互作用(例如,视觉、文本、以及/或其它类型的相互作用)的多模态化应用。当用户通过讲话与语音使能应用通信时,通常使用自动语音识别来确定用户话语的内容。接着,语音使能应用可以基于所确定的用户话语内容来确定要采取的恰当动作。图1示出了包括计算机101的常规系统,计算机101执行语音使能应用程序105和自动语音识别(ASR)引擎103。用户107可以经由麦克风109向应用程序105提供语音输入,该麦克风经由有线连接或无线连接直接连接至计算机101。当用户对着麦克风109讲话时,将语音输入提供给ASR引擎103,该ASR引擎针对该语音输入执行自动语音识别,并将文本识别结果提供给应用程序105。
技术实现思路
一个实施例致力于提供一种向在计算机上执行的语音使能应用程序提供输入的方法。该方法包括在至少一个服务器计算机处接收从未通过有线或无线连接方式连接至所述计算机的移动通信装置所提供的音频数据;在所述至少一个服务器计算机处获取根据针对该音频数据执行自动语音识别而生成的识别结果;以及将该识别结果从所述至少一个服务器计算机发送至执行该语音使能应用程序的所述计算机。另一实施例致力于提供编码有指令的至少一个非临时性有形计算机可读介质,该指令在执行时执行上述方法。另一实施例致力于提供至少一个服务器计算机,该服务器计算机包括至少一个有形存储介质,该至少一个有形存储介质存储用于向在计算机上执行的语音使能应用程序提供输入的处理器可执行指令;和至少一个硬件处理器,该至少一个硬件处理器执行该处理器可执行指令,以使在所述至少一个服务器计算机处接收从未通过有线或无线连接方式连接至所述计算机的移动通信装置提供的音频数据;在所述至少一个服务器计算机处获取由针对该音频数据执行自动语音识别而生成的识别结果;以及将该识别结果从所述至少一个服务器计算机发送至执行该语音使能应用程序的所述计算机。附图说明在图中图1是执行语音使能应用程序的现有技术计算机的框图;图2是根据一些实施例的计算机系统的框图,其中,旨在用于在计算机上执行的语音使能应用程序的语音输入可以经由未连接至该计算机的移动通信装置来提供;图3是根据一些实施例的、用于利用移动通信装置向语音使能应用提供根据语音输入生成的输入的处理的流程图;图4是根据一些实施例的计算机系统的框图,其中,旨在用于在计算机上执行的语音使能应用程序的语音输入可以经由未连接至该计算机的移动通信装置来提供,并且其中,在与执行该语音使能应用程序的计算机不同的计算机上执行自动语音识别;图5是根据一些实施例的计算机系统的框图,其中,旨在用于在计算机上执行的语音使能应用程序的语音输入可以经由连接至该计算机的移动通信装置来提供;以及图6是可以在一些实施例中使用以实现图2、4以及5中描绘的计算机和装置的计算机装置的框图。具体实施例方式为向语音使能应用提供语音输入,用户通常对着所连接(有线或者无线地)或内置于计算机的麦克风讲话,经由该麦克风,用户与语音使能应用相互作用。专利技术人已经认识至IJ,用户使用这种麦克风来向语音使能应用提供语音输入的需要可能导致许多不便利。具体来说,一些计算机可能没有内置麦克风。由此,用户必须获取麦克风,并将其连接至他或她用来经由语音接入语音使能应用的计算机。另外,如果计算机是共享计算机,则连接至其的麦克风可以是由许多不同的人共享的麦克风。由此,麦克风可能是用于在人与人之间传染病原体(例如,病毒、细菌以及/或其它传染体)的通路。虽然下面讨论的实施例中的一些致力于解决上面讨论的所有不便和缺陷,但不是每一个实施例都致力于解决所有这些不便和缺陷,并且一些实施例可能不解决它们中的任一个。因此,应当明白,本专利技术不限于解决所有或任何上述不便或缺陷的实施例。一些实施例致力于提供这样的系统和/或方法,其中,用户可以经由移动电话或其它手持式移动通信装置来向语音使能应用程序提供语音输入,而不必使用直接连接至用户用来接入语音使能应用程序的计算机的专用麦克风。这可以按多种方法中的任一个来实现,其中,一些非限制详细示例在下面进行描述。专利技术人已经认识到,因为许多人自己的个人装置(例如,移动电话或其它手持式移动计算装置)通常具有内置麦克风,所以这种装置上的麦克风可以被用于接收要作为输入提供给在与这些装置分离的计算机上执行的语音使能应用程序的用户语音。这样,用户不需要定位专用麦克风并将其连接至执行语音使能应用的计算机,或者使用连接至计算机的共享麦克风以经由话音与语音使能应用程序相互作用。图2示出了一种计算机系统,其中,用户可以向手持式移动通信装置提供语音输入,以与在和该手持式移动通信装置分离的计算机上执行的语音使能应用程序相互作用。图2所示的计算机系统包括移动通信装置203、计算机205、以及一个或多个服务器211。计算机205执行至少一个语音使能应用程序207和至少一个自动语音识别(ASR)引擎209。在一些实施例中,计算机205可以是用户217的个人计算机,经由该计算机,用户217可以与一个或多个输入/输出(I/O)装置(例如,鼠标器、键盘、显示装置,以及/或任何其它合适I/O装置)相互作用。该计算机可以有或没有内置麦克风。在一些实施例中,计算机205可以是用作用户的家庭计算机的个人计算机,或者可以是用户在其上具有账户(例如,企业账户)的工作站或终端,并且,可以是用户用作接入语音使能应用程序的接口。在其它实施例中,计算机205可以是应用主机服务器,或者向用户217的个人计算机(未示出)上的虚拟化客户端递送语音使能应用207的虚拟化服务器。移动通信装置203可以是各种可能类型的移动通信装置中的任一种,例如,包括智能电话(例如,蜂窝移动电话)、个人数字助理、和/或任何其它合适类型的移动通信装置。在一些实施例中,该移动通信装置可以是手持式和/或掌上型装置。在一些实施例中,该移动通信装置可以是能够通过因特网发送和接收信息的装置。而且,在一些实施例中,该移动通信装置可以是具有能够(和/或被配置用于)执行应用程序的通用处理器,和能够存储要通过该通用处理器执行的应用程序的有形存储器或其它类型的有形计算机可读介质的装置。在一些实施例中,移动通信装置可以包括可以向其用户显示信息的显示器。虽然移动通信装置203在一些实施例中包括内置麦克风,但移动通信装置除了仅仅将声学声音转换成电信号并通过有线或无线连接提供该电信号以外还提供一些附加功能。服务器211可以包括执行代理应用219的一个或多个服务器计算机。代理应用219可以是这样的应用,即,在接收到来自移动通信装置的音频时,确定要将所接收音频发送至哪个计算机或其它装置,并将该音频发送至该目的地装置。如下更详细说明的,该音频可以被“推送(pushed)”至目的地装置,或者被目的地装置“拉出(pulled)”。应当清楚,尽管本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】2010.09.08 US 12/877,3471.一种向在计算机上执行的语音使能应用程序提供输入的方法,该方法包括: 在至少一个服务器计算机处接收由未通过有线或无线连接方式连接至所述计算机的移动通信装置所提供的音频数据; 在所述至少一个服务器计算机处获取根据针对该音频数据执行自动语音识别而生成的识别结果;以及 将该识别结果从所述至少一个服务器计算机发送至执行该语音使能应用程序的所述计算机。2.根据权利要求1所述的方法,其中,该移动通信装置包括智能电话。3.根据权利要求1所述的方法,其中,所述至少一个服务器是至少一个第一服务器,并且其中,获取该识别结果的动作还包括: 将该音频数据发送至在至少一个第二服务器上执行的自动语音识别(ASR)引擎;并且 在所述至少一个第二服务器上接收来自所述至少一个(ASR)引擎的识别结果。4.根据权利要求1所述的方法,其中,获取该识别结果的动作还包括: 利用在所述至少一个服务器上执行的至少一个自动语音识别(ASR)引擎来生成识别结果。5.根据权利要求1所述的方法,其中,该计算机是多个计算机中的第一计算机,并且其中,所述方法还包括: 从移动通信装置接收与所述音频数据相关联的标识符;并且 利用该标识符来确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机。6.根据权利要求5所述的方法,其中,该标识符是第一标识符,并且其中,利用该第一标识符来确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机的动作还包括: 接收来自第一计算机的针对音频数据的请求,该请求包括第二标识符; 确定第一标识符是否与第二标识符匹配或映射至第二标识符;以及当确定第一标识符与第二标识符匹配或映射至第二标识符时,确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机。7.根据权利要求6所述的方法,其中,将识别结果从所述至少一个服务器计算机发送至执行语音使能应用程序的计算机的动作响应于确定第一计算机是所述多个计算机中要将识别结果发送至其的计算机而执行。8.编码有指令的至少一个非临时性有形计算机可读介质,该指令当通过至少一个服务器计算机的至少一个处理器被执行时,执行向在计算机上执行的语音使能应用程序提供输入的方法,该方法包括: 在所述至少一个服务器计算机处接收由未通过有线或无线连接方式连接至所述计算机的移动通信装置所提供的音频数据; 在所述至少一个服务器计算机处获取根据针对该音频数据执行自动语音识别而生成的识别结果;以及 将该识别结果从所述至少一个服务器计算机发送至执行该语音使能应用程序的所述计算机。9.根据权利要求8所述的至少一个非临时性有形计算机可读介质,其中,该移动通信装置包括智能电话。10.根据权利要求8所述的至少一个非临时性有形计算机可读介质,其中,所述至少一个服务器是至少一个第一服务器,并且其中,获取识别结果的动作还包括: 将该音频数据发送至在至少一个第二服务器上执行的自动语音识别(ASR)引擎;并且 在所述至少一个第二服务器上接收来自所述至少一个(ASR)引擎的识别结果。11.根据权利要求8所述的至少一个非临时性有形计算机可读介质,其中,获取该识别结果的动作还包括: 利用在所述至少一个服务器上执行的至少一个自动语音识别(ASR)引擎来生成识别结果。12.根据权利要求8所述的至少一个非临时性有形计算机可读介质,其中,该...
【专利技术属性】
技术研发人员:J·M·卡塔尔斯,
申请(专利权)人:纽昂斯通讯公司,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。