本文描述了激励描述集合。本公开一般描述了用来通过向(例如,群众外包服务的)贡献者显示诸如视频剪辑之类的激励来收集文本和/或语音描述的技术。用每个贡献者选择的语言的描述具有相同激励,并且由此彼此相关联。虽然每个贡献者可以是单语的,但是该技术允许对近似双语数据的收集,因为不同贡献者中可表示一种以上的语言。描述可被用作用于训练机器翻译引擎的翻译数据,以及用于训练机器释义系统的释义数据(按相同语言进行编组)。还描述了经由差异性度量来评估机器释义系统的质量。
【技术实现步骤摘要】
本文涉及激励描述集合。
技术介绍
构建有用的机器翻译系统需要大量数据。具体而言,数据不可能仅仅是一种语言的单词翻译成另一种语言的那些单词,而是需要包括短语和句子以使得虑及多个单词的上下文。虽然存在一些经翻译数据的源可用,诸如翻译成不同语言的相同的网页内容,以及政府文件(例如,欧洲欧共体将文件转换成多种语言),但是使用这些源存在缺陷。虽然大量并行文本以数字形式(web数据、扫描的书籍等等)存在,但是这样数据的本质是以各种方式偏斜的。例如,某些领域(例如,政府、科学)倾向于被极好地表示,而其他(例如,娱乐、体育)不是足够的。甚至更重要的是,特定语言对的偏斜;例如,虽然存在相当量的数字形式的英语-西班牙语数据可用,存在极少的匈牙利语-西班牙语或越南语-西班牙语。当考虑并行语音数据时,问题甚至更大。存在相对少的口头并行语音数据, 并且由于语音抄录的费力的特性,收集其会是极度昂贵的。已作出尝试来使用双语说话者翻译并将句子和短语从一种语言翻译成另一种语言。然而,采用此类双语说话者通常是高成本的,并且由此实际上仅以此种方式来收集有限量的数据。从公众内的双语说话者聚集翻译数据(“群众外包(crowd-sourcing)”)在原理上可帮助收集大量并行数据,但是这种办法也是有问题的。举例来说,翻译质量在说话者与说话者之间有极大的不同,并且激励高技术水平的双语贡献者会是困难的。如果针对贡献数据向翻译者提供相当量的财务奖励,则欺骗会成为一个问题,例如,不道德的程序员会编写自动“蝇蛆(bot) ”,该蝇蛆简单地调用现有机器翻译引擎来提供翻译。释义数据指的是不同的句子和短语,其意味着事物给定语言中大致相同。这通常类似于翻译数据,除了仅单语注释者需要产生释义数据之外。然而,收集释义数据具有其自身的问题,包括将源句子或短语释义成目标数据的注释者对于源句子/短语有偏差。例如, 许多人倾向于用不同的目标名词替代每个源名词和/或每个源动词对应于不同的目标动词,类似于使用辞典。其他人发现一般难以构造释义,例如,就他们是否被假定为重新排序单词、替代单词和/或对原文本进行其他操作来提供目标文本感到迷惑。至于翻译数据,极少的释义数据就口语而言甚至更极端。实际上没有可被用来训练以理解口头单语发言为目的的模型的口头释义数据。总之,用于收集翻译或释义数据的现有技术具有不利地影响可收集多少数据以及数据的质量的大量缺点。然而,期望具有用于构建基于机器的系统的大量良好质量的翻译和/或释义数据。
技术实现思路
提供本
技术实现思路
以便以简化形式介绍将在以下的详细描述中进一步描述的一些代表性概念。本
技术实现思路
不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨4在以限制所要求保护的主题的范围的任何方式来使用。简言之,本文中描述的主题的各个方面涉及用来通过向贡献者显示激励——诸如向(例如,群众外包服务的)的观看者显示视频剪辑——来收集翻译和释义数据,这些观看者用以他们选择的语言的此激励的语言(文本和/或语音)描述来作响应。数据贡献者可以是完全单语的,并且每一块所收集的数据是相同激励的描述且由此彼此各块相关联。所收集的数据包括将各种语言的描述彼此进行相关的翻译数据,以及将相同语言的描述就该语言彼此进行相关的释义数据。尽管这些描述在语言意义上并非恰好“并行”的,但是它们在更抽象的语义意义上是并行的,因为它们以一种或多种语言描述相同的场景和动作。翻译数据中与不同语言相对应的经配对的描述可被用作被提供来训练机器翻译系统的翻译训练数据的基础。释义数据中的描述可被用作被提供给机器释义系统的释义训练数据的基础。在一个方面,提供了用于评估机器释义系统的质量的机制。这包括用于就原始句子或短语测量机器生成的释义的句子或短语的差异性的度量。另一度量可测量机器生成的释义的句子或短语有多好地保持原始句子或短语的含义,并且这些度量可被组合以确定机器输出的质量。结合附图阅读以下详细描述,本专利技术的其他优点会变得显而易见。 附图说明作为示例而非限制,在附图中示出了本专利技术,附图中相同的附图标记指示相同或相似的元素,附图中图1是表示用于从各个贡献描述者收集包括视频剪辑之类的相同激励的描述以便作为翻译数据和释义数据来维护的示例组件的框图。图2是使用所搜集的翻译数据来训练机器翻译系统的表示。图3是使用所收集的释义数据来训练机器释义系统以及用于评估机器释义系统的质量的机制的表示。图4示出了可以将本专利技术的各个方面集成到其中的计算环境的说明性示例。 具体实施例方式本文中描述的技术的各个方面一般涉及在没有双语说话者的情况下收集翻译数据以及在不向注释者呈现源句子或短语来释义的情况下收集自然释义数据。为此,向大量贡献者示出所选激励(例如,视频剪辑、静止图像或另一激励),其一般旨在从贡献者当中引导出通用的响应。贡献者被要求以他们选择的语言描述激励,例如,视频中发生的主要动作或事件,并且针对每个激励保存描述(文本和/或语音)。此组贡献者可横跨宽泛的范围,诸如来自世界各地的贡献者。由此,获得以各种语言描述相同事件/激励的翻译数据, 以及以相同语言描述相同事件/激励的释义数据。应当理解,此处的任何示例都是非限制性的。举例而言,本文中许多示例描述了被显示给贡献者的简单视频剪辑的形式的激励,这些贡献者是此视频的观看者。然而,可采用导致所返回的翻译和/或释义数据的任何合适的激励,诸如一个或多个静止照片,音频(例如,“女声低唱”、“犬吠”等)、香味、温度和/或纹理。另一种类型的激励包括由程序执行的动作,诸如让贡献者讲述一些程序性行为,例如,在用于编辑照片的应用程序中使某人的眼睛变得更大,并在随后使用此数据来生成命令和控制界面;程序开发者可讲述代码片断以学习代码/意图映射。如此,本专利技术不限于此处所描述的任何特定实施例、方面、概念、结构、功能或示例。相反,此处所描述的实施例、方面、概念、结构、功能或示例中的任一个都是非限制性的,并且本专利技术一般能够以在计算方面提供好处和优点的各种方式来使用。图1是表示数据收集过程的各个方面的框图。在此示例中为视频剪辑102(诸如来自在线流送视频源)的激励被出示给使用各种语言的多个贡献者(“描述者”)KM1-KMntl 包括向视频游戏玩家进行支付或诸如点数之类的其他补偿的群众外包是此类描述者中的一个源,然而也可构想其他征募方法。例如,Microsoft Office Communicator的使用者和/或)(b0X Live⑧玩家可以是群众外包贡献者,其在收集数据时提供帮助,包括但不一定需要补偿。每个描述者KM1-KMn输出描述IOei-IOen,其包括关于什么视频剪辑102被传达给此描述者的文本和/或语音。每个描述者KM1-KMn以他或她选择的语言提供描述 Ioe1-Ioen,描述者可指定该语言,或者该语言可被自动检测到。如图1中例示的,数据收集机制108按各种语言对描述进行分类,并按不同语言的描述者的语言以及按相同语言的不同描述者将不同的描述彼此对齐。结果是翻译数据110 和释义数据112。为此,如果相同视频(或其他激励)的描述是不同语言的,则将它们作为彼此的近似翻译来对待,而如果它们是相同语言的,则将它们作为彼此的近似释义来对待。注意,处于简便起见,图1仅示出了翻译数据110中英语至其他语本文档来自技高网...
【技术保护点】
【技术特征摘要】
...
【专利技术属性】
技术研发人员:W·B·多兰,D·L·陈,
申请(专利权)人:微软公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。