当前位置: 首页 > 专利查询>微软公司专利>正文

针对由语音到文本转录服务生成的文本的分布式用户输入制造技术

技术编号:8323429 阅读:265 留言:0更新日期:2013-02-14 00:46
本发明专利技术涉及针对由语音到文本转录服务生成的文本的分布式用户输入。特定方法包括在代表性状态传输端点设备处接收与由语音到文本转录服务执行的第一语音到文本转换有关的第一用户输入。该方法还包括在代表性状态传输端点设备处接收与由语音到文本转录服务执行的第二语音到文本转换有关的第二用户输入。该方法包括在代表性状态传输端点设备处处理第一用户输入和第二用户输入以生成语音到文本调整信息。

【技术实现步骤摘要】

本专利技术涉及语音到文本的转录,尤其涉及用于增加语音到文本转录的质量的技术。
技术介绍
计算系统(诸如,个人计算机、膝上型设备、平板设备、游戏设备和电话)所使用的软件的接口正在增加对语音识别的使用,并且对高质量的自动化的音频到文本内容的需求也正在增加。机器算法已被用于语音到文本转录,但这样的算法通常生成具有错误的文本。
技术实现思路
公开了利用众包(crowd sourcing)来增加语音到文本转录的质量的机制。在一特定实施例中,一种方法包括在代表性状态传输(REST)端点设备处接收与由语音到文本转录服务执行的第一语音到文本转换有关的第一用户输入;在REST端点设备接收与由语音到文本转录服务执行的第二语音到文本转换有关的第二用户输入;以及在所述REST端点设备处处理所述第一用户输入和第二用户输入以生成语音到文本调整信息。在所述REST 端点设备处进行处理允许使用众包(例如,使用来自第一用户、第二用户和可能一个或多个附加用户的输入)来改进语音到文本转录服务。在另一方面,一种计算机可读存储设备包括计算机可执行的用于以下的指令接收来自多个客户机设备的捕捉到的语音数据;对于所述多个客户机设备中的每一个客户机设备,将捕捉到的语音数据转换成文本;以及,将包括所述文本的有效载荷数据发送至所述多个客户机设备中的每一个客户机设备。有效载荷数据包括至少一个指示以下设备的位置的属性该设备被配置成处理与捕捉到的语音数据到文本的转换的感知准确性有关的用户输入。在另一方面,一种计算机实现的方法包括将捕捉到的语音数据发送到语音到文本转录服务;接收包括来自所述语音到文本转录服务的文本的有效载荷;将所述文本显示在电子设备的显示设备处;将用户界面显示在所述显示设备处,其中所述用户界面使得用户能够提供关于所述文本的准确性的用户输入;接收所述用户输入以及所述文本的至少一个音素替换;以及,将所述用户输入传送至远程设备。该远程设备可以是REST端点设备。 因此,众包的方法和系统可以改进语音到文本转录的结果。附图说明图I是分布式计算系统的特定实施例的框图2是图I的系统的一部分的特定实施例的框图3是语音到文本转录处理的方法的特定实施例的流程图4是在客户机设备处处理用户输入的方法的特定实施例的流程图5是示出客户机设备可显示的用户界面的一部分的图示;并且图6是计算设备的特定实施例的框图。具体实施方式对跨各种设备、设备制造商和运营商的语音到文本转录的质量的众包提供了一种改进语音到文本转录的机器算法的方法。例如,在特定实现中,当语音到文本转录是由算法过程来执行的时,可将若干属性与转录文本一起附加到有效载荷中。这些属性可包括指示所提供的转录文本是机器转换的属性、指定用于对转录文本的质量进行投票的可接受的用户反馈刻度范围的属性、以及标识用来对要提供的文本的质量进行投票的代表性状态传输 (REST)端点设备的属性。任选地,有效载荷可基于发起设备(例如,从其接收转录语音的客户机设备)的用户所选设置而包括附加属性。这些属性可包括说话者的语言,该语言可由发起设备的发起应用来显式地收集,或者可以从发起设备的操作系统的基础语言、说话者的当前位置和发起应用的统一资源定位符(URL)中导出。当有效载荷被传递至客户机设备(例如,移动电话、电视机、计算机、平板设备、游戏设备等)时,客户机设备可任选地展示用户界面以使接收者能够对转换的质量进行投票。 该界面对于应用体验而言可能是合适的(例如,该界面可能是基于正在客户机设备处执行的特定应用而生成的),并且该界面在有效载中的范围所标识的约束之内。例如,用户界面可以被实现为三个按钮“非常好”、“接近”或“很糟”。另外地或另选地,用户界面可以被实现为拇指向上按钮和拇指向下按钮的集合、表示范围的滑块控件或星级评级系统。可将用户提供的评级发送至REST端点设备的URL处,该URL被标识为有效载荷中的一个属性。REST端点设备可以是集中式服务,并且不需要与发起应用的始发者或客户机设备绑定。例如,不同的听筒制造商可以创建利用用于移动设备的语音到文本转换的应用和将用户数据提供给REST端点设备的应用。REST端点设备可以以特定方(例如, 第三方服务)为中心,或可以是某一听筒制造商或移动运营商所专用的。每一用户所提供的评级,任选地与源语言和/或用户位置信息结合,用作通过上下文和地理数据来提升语音到文本转换引擎的投票,该上下文和地理数据可以帮助尤其对区域方言和口音、新兴语言和俚语等的更准确转换。因此,REST端点设备与客户机设备和语音到文本转录服务结合在一起操作允许进行众包以改进针对不同的、可能无关的设备和用户的语音到文本转录。参考图1,示出了分布式计算机系统100的特定说明性实施例。分布式计算机系统100包括提供语音到文本转录服务170的服务器106。服务器106可以是执行用于提供自动的语音到文本转录的指令的计算设备。分布式计算机系统100还包括耦合到多个客户机设备(诸如,代表性的第一客户机设备102和代表性的第二客户机设备104)的计算机网络108。分布式计算机系统100还包括代表性状态传输(REST)端点设备处的服务器110。 REST端点设备处的服务器110包括评级和音素替换分析逻辑160。第一客户机设备102和第二客户机设备104可各自位于REST端点设备110的远程。分布式计算机系统100的各个组件交互以提供语音到文本转录并持续地、规律地或偶尔地使用众包来改进或调节语音到文本转录过程,以提供更准确的语音转录。为了说明,作为一般概览,语音到文本转录服务170可以由用于接收来自多个客户机设备的捕捉到的语音数据的计算机可执行的指令来实现。这些指令可以针对多个客户机设备中的每一个客户机设备将捕捉到的语音数据转换成文本。语音到文本转录服务170可以将包括文本5的有效载荷数据发送至多个客户机设备中的每一个客户机设备。有效载荷数据可包括可用于调节或训练由语音到文本转录服务170用来转录语音的算法的信息。例如,有效载荷数据可包括指示诸如REST端点设备110处的服务器之类的计算机设备的位置的一个或多个属性,该计算机设备被配置成处理与转录的准确性有关的用户输入。有效载荷数据还可包括便于收集诸如评级刻度范围之类的用户输入的一个或多个属性。可将该用户输入发送至 REST端点设备110。来自客户机设备的用户输入可以包括指示语音到文本转录的质量或准确性的信息、替代转录信息(例如,音素替换)、关于用户的信息(例如,用户位置、客户机设备类型等)和/或其他信息。REST端点设备110可使用该用户输入来确定用于调整或训练语音到文本转录服务170的调整(例如,语音到文本调整信息162)。REST端点设备110还可向语音到文本转录服务170提供便于语音到文本转录的其他信息。例如,REST端点设备110可以为分布式计算系统100的用户生成说话者简档。说话者简档可用于通过使得语音到文本转录服务能够考虑诸如特定用户的地理位置或其他特性等因素,来进一步调整或改进语音到文本转录。分布式计算系统100还可将信息发送给用于音素评估第三方众包系统164,以收集可用于调整或改进语音到文本转录的附加信息。因此,即使在分布式计算系统100的各组件不相关(例如,由不相关或不同的业务实体提供)时,本文档来自技高网...

【技术保护点】
一种方法,包括:在代表性状态传输端点设备处,接收与由语音到文本转录服务执行的第一语音到文本转换有关的第一用户输入;在所述代表性状态传输端点设备处,接收与由所述语音到文本转录服务执行的第二语音到文本转换有关的第二用户输入;以及在所述代表性状态传输端点设备处,处理所述第一用户输入和所述第二用户输入以生成语音到文本调整信息。

【技术特征摘要】
2011.10.28 US 13/283,6241.一种方法,包括 在代表性状态传输端点设备处,接收与由语音到文本转录服务执行的第一语音到文本转换有关的第一用户输入; 在所述代表性状态传输端点设备处,接收与由所述语音到文本转录服务执行的第二语音到文本转换有关的第二用户输入;以及 在所述代表性状态传输端点设备处,处理所述第一用户输入和所述第二用户输入以生成语音到文本调整信息。2.如权利要求I所述的方法,其特征在于,所述第一用户输入接收自第一客户机设备,且所述第二用户输入接收自所述第二客户机设备,其中所述第一用户输入包括由所述第一客户机设备供应的第一用户评级和音素替换,并且其中所述第一客户机设备和所述第二客户机设备位于所述代表性传输端点设备的远程,并且其中所述代表性状态传输端点设备包括耦合到网络的计算机服务器。3.如权利要求2所述的方法,其特征在于,所述第一客户机设备是与所述第二客户机设备不同类型的设备。4.如权利要求I所述的方法,其特征在于,所述语音到文本调整信息至少部分地基于说话者简档。5.如权利要求2所述的方法,其特征在于,所述语音到文本转录服务接收来自所述第一客户机设备的第一语音数据、对所述第一语音数据执行语音到文本转录以生成第一文本、以及生成包括所述第一文本和第一属性的第一有效载荷。6.如权利要求5所述的方法,其特征在于,所述第一属性包括用户反馈刻度范围和所述代表性状态传输端点设备的标识符,其中所...

【专利技术属性】
技术研发人员:J·E·卡思T·E·哈里斯M·墨丘里J·O·蒂斯代尔三世
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1