机器翻译方法和装置制造方法及图纸

技术编号:11118654 阅读:122 留言:0更新日期:2015-03-06 22:44
本发明专利技术提出一种机器翻译方法和装置,该机器翻译方法包括获取待翻译的文本;获取预先建立的机器翻译模型,其中,所述机器翻译模型是根据外部世界场景信息建立的;采用所述机器翻译模型,对所述待翻译的文本进行翻译,得到翻译结果。该方法能够提高翻译结果的准确度。

【技术实现步骤摘要】
机器翻译方法和装置
本专利技术涉及数据处理
,尤其涉及一种机器翻译方法和装置。
技术介绍
当需要进行翻译时,翻译设备可以采用机器翻译模型,对词汇进行翻译,得到翻译 结果。传统的机器翻译模型,从人工构建的双语训练数据出发,使用统计的方法来计算出翻 译概率和目标语言的语言模型概率。 但是,采用传统的机器翻译模型难以确定准确的翻译结果,例如,对于英文句子 give me a shot,存在多种合理的翻译结果,例如,给我照相,给我打一枪,向我击球 进攻等。而单独看这个输入的句子give me a shot,采用目前的传统的机器翻译模型 是无法确定哪个翻译结果是最优的。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。 为此,本专利技术的一个目的在于提出一种机器翻译方法,该方法可以提高翻译结果 的准确度。 本专利技术的另一个目的在于提出一种机器翻译装置。 为达到上述目的,本专利技术第一方面实施例提出的机器翻译方法,包括:获取待翻译 的文本;获取预先建立的机器翻译模型,其中,所述机器翻译模型是根据外部世界场景信息 建立的;采用所述机器翻译模型,对所述待翻译的文本进行翻译,得到翻译结果。 本专利技术第一方面实施例提出的机器翻译方法,通过采用基于外部世界场景信息确 定的机器翻译模型进行翻译,可以在翻译时考虑外部世界场景信息因素,得到更符合外部 世界场景的翻译结合,提高翻译结果的准确度。 为达到上述目的,本专利技术第二方面实施例提出的机器翻译装置,包括:第一获取模 块,用于获取待翻译的文本;第二获取模块,用于获取预先建立的机器翻译模型,其中,所述 机器翻译模型是根据外部世界场景信息建立的;翻译模块,用于采用所述机器翻译模型,对 所述待翻译的文本进行翻译,得到翻译结果。 本专利技术第二方面实施例提出的机器翻译装置,通过采用基于外部世界场景信息确 定的机器翻译模型进行翻译,可以在翻译时考虑外部世界场景信息因素,得到更符合外部 世界场景的翻译结合,提高翻译结果的准确度。 本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本专利技术的实践了解到。 【附图说明】 本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解,其中: 图1是本专利技术一实施例提出的机器翻译方法的流程示意图; 图2是本专利技术实施例中建立机器翻译模型的流程示意图; 图3是本专利技术实施例中翻译结果的示意图; 图4是本专利技术另一实施例提出的机器翻译方法的流程示意图; 图5是本专利技术实施例中采用一种用户设备时的机器翻译方法的流程示意图; 图6是本专利技术实施例中采用另一种用户设备时的机器翻译方法的流程示意图; 图7是本专利技术实施例中一种应用场景示意图; 图8是本专利技术另一实施例提出的机器翻译方法的流程示意图; 图9是本专利技术另一实施例提出的机器翻译装置的结构示意图; 图10是本专利技术另一实施例提出的机器翻译装置的结构示意图; 图11是本专利技术另一实施例提出的机器翻译装置的结构示意图。 【具体实施方式】 下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考 附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反, 本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同 物。 图1是本专利技术一实施例提出的机器翻译方法的流程示意图,该方法包括: Sll :获取待翻译的文本。 可选的,所述获取待翻译的文本,包括: 接收文本信息,将所述文本确定为待翻译的文本;或者, 接收语音信息,对所述语音信息进行语音识别,将语音识别结果确定为待翻译的 文本;或者, 接收图片信息,对该图片信息进行光学字符识别(Optical Character Recognition,OCR)识别,将OCR识别结果确定为待翻译的文本。 待翻译的文本可以包括至少一个字符,例如,待翻译的文本是字,词或者句子。 S12:获取预先建立的机器翻译模型,其中,所述机器翻译模型是根据外部世界场 景信息建立的。 可选的,Sll之前还可以包括:建立机器翻译模型。 参见图2,所述建立机器翻译模型可以包括: S21 :获取外部世界场景信息。 其中,可以采用用户使用的设备,对所述用户所在外部世界场景进行识别,得到所 述外部世界场景信息,所述用户使用的设备包括:可穿戴设备,或者,移动设备。移动设备例 如智能手机,平板电脑等。 例如,采用用户使用的设备上的摄像头,对外部世界场景进行拍摄,得到图片,之 后对图片进行识别,可以得到外部世界场景信息,外部世界场景信息例如为外部世界场景 中包含的事物的分类信息,例如,外部世界场景中包括人脸,相机等信息时,可以确定分类 信息是摄影;或者,外部世界场景中包括枪械,军服等信息时,可以确定分类信息是军事; 或者,外部世界场景中包括球拍,球棒等信息时,可以确定分类信息是体育运动。 S22 :建立语言模型以及建立短语翻译模型,其中,所述语言模型和/或所述短语 翻译模型是根据所述外部世界场景信息建立的。 其中,语音模型可以是对传统的n元(n-gram)语言模型进行处理后得到的。为了 更好的理解本专利技术,首先对现有技术中的传统n元语言模型进行说明。 n-gram语言模型(n元语言模型)中当前词出现的概率仅和其左边的n-1个词有 关系。当n取1、2、3时,n-gram模型分别称为unigram( -元语言模型)、bigram(二元语 言模型)和trigram语言模型(三元语言模型)。n越大,语言模型越准确,计算也越复杂, 计算量也越大。最常用的是bigram,其次是unigram和trigram,n取大于等于4的情况较 少。当n-gram语言模型用到中文网页的时候,得到汉语n元语言模型;当n-gram语言模型 用到英文网页的时候,得到英语n元语言模型。例如当n取值为2的时候,当前词的出现的 概率仅和其前一个词有关系。例如对于句子: S =张三董事长发表了四个优先重要指示的讲话。 在2元语言模型下,该句子的概率(衡量该句子的正确性的度量)为: P⑶=P(张三|〈s>)P(董事长I张三)P(发表I董事长)P(了 I发表)P(四个 了)P(优先I四个)P(重要I优先)P(指示I重要)P(的I指示)P(讲话I的)P(。I讲 话)P(〈/s>|。) 这里<s>和</s>,是两个人工构造的词,分别代表了句子的开始和结尾。其目的是 判断张三作为句子开头词的概率,和。句号作为句子接尾词的概率。 如果是在3元语言模型下,该句子的概率是: P (S) = P (张三I <s>) P (董事长I <s>,张三)P (发表I张三,董事长)P (了 I董 事长,发表)P(四个I发表,了)P(优先I 了,三个)P(重要I四个,优先)P(指示I优 先,重要)P(的I重要,指示)P(本文档来自技高网...

【技术保护点】
一种机器翻译方法,其特征在于,包括:获取待翻译的文本;获取预先建立的机器翻译模型,其中,所述机器翻译模型是根据外部世界场景信息建立的;采用所述机器翻译模型,对所述待翻译的文本进行翻译,得到翻译结果。

【技术特征摘要】
1. 一种机器翻译方法,其特征在于,包括: 获取待翻译的文本; 获取预先建立的机器翻译模型,其中,所述机器翻译模型是根据外部世界场景信息建 立的; 采用所述机器翻译模型,对所述待翻译的文本进行翻译,得到翻译结果。2. 根据权利要求1所述的方法,其特征在于,还包括:建立所述机器翻译模型,所述建 立所述机器翻译模型,包括: 获取外部世界场景信息; 建立语言模型以及建立短语翻译模型,其中,所述语言模型和/或所述短语翻译模型 是根据所述外部世界场景信息建立的; 根据所述语言模型和所述短语翻译模型,建立所述机器翻译模型。3. 根据权利要求2所述的方法,其特征在于,当所述语言模型是根据所述外部世界场 景信息建立时,所述建立语言模型,包括: 根据所述外部世界场景信息建立基于外部世界场景信息的语言模型,并将所述基于外 部世界场景信息的语言模型确定为用于建立机器翻译模型的语言模型;或者, 根据所述外部世界场景信息建立基于外部世界场景信息的语言模型,以及,获取传统 的语言模型,根据所述基于外部世界场景信息的语言模型和所述传统的语言模型,确定用 于建立机器翻译模型的语言模型。4. 根据权利要求3所述的方法,其特征在于,所述根据所述基于外部世界场景信息的 语言模型和所述传统的语言模型,确定用于建立机器翻译模型的语言模型,包括: 对所述基于外部世界场景信息的语言模型和所述传统的语言模型进行线性对数处理, 将线性对数处理后的模型确定为用于建立机器翻译模型的语言模型。5. 根据权利要求2所述的方法,其特征在于,所述获取外部世界场景信息,包括: 采用所述用户使用的设备,对所述用户所在外部世界场景进行识别,得到所述外部世 界场景信息,所述用户使用的设备包括:可穿戴设备,或者,移动设备。6. 根据权利要求1-5任一项所述的方法,其特征在于,所述获取待翻译的文本,包括:接收文本信息,将所述文本确定为待翻译的文本;或者, 接收语音信息,对所述语音信息进行语音识别,将语音识别结果确定为待翻译的文本; 或者, 接收图片信息,对所述图片信息进行OCR识别,将OCR识别结果确定为待翻译的文本。7. 根据权利要求6所述的方法,其特征在于,所述待翻译的文本是非用户语言,翻译结 果是用户语言,所述方法还包括: 获取用户输入的用户语言的输入语音,所述输入语音包括:当前输入的输入语音,和/ 或,历史输入的输入语音; 对所述用户语言的输入语音进行语音识别,得到语音识别结果; 根据所述语音识别结果和所述翻译结果,对所述机器翻译模型进行修正。8. -种机器...

【专利技术属性】
技术研发人员:吴先超
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1