【技术实现步骤摘要】
机器翻译方法及系统
本专利技术涉及自然语言处理研究领域,特别涉及一种机器翻译方法及系统。
技术介绍
当前,机器翻译的主流方法大致可以分为基于规则和基于语料库两种方法,基于 语料库的方法又可以细分为基于实例的方法和基于统计的方法。基于统计的机器翻译方法 能够以双语平行语料库为学习数据,通过训练自动获取翻译规则,同时,结合语言模型对测 试语句进行翻译。随着统计机器翻译模型的不断改良,先后出现了基于词的、基于短语和基 于句法结构的统计模型,译文质量得到不断改善。 但是,传统的统计机器翻译模型,更多地利用句子的层次结构片段和属性进行建 模,要提高统计机器翻译系统的性能,则要求在建模的过程中增加更多的句法结构和语义 信息。 既有的统计机器翻译模型,在源语言和目标语言之间的句法结构存在较大的差异 性时,调序显得极其重要却又相当困难。既有统计模型在建模时,充分考虑了解决局部调 序的对策。但是,这些传统技术,在解决诸如日语句法的主宾谓(SOV,Subject-Object-verb) 结构和汉语的主谓宾 (SVO, Subject-Verb-Object) 结构之间的差异性问题时,遭 遇困难。很多研究人员,采用前处理和后处理的方式,对句法机构进行调整,以降低语言结 构上的差异性。此类方法并没有从统计建模的角度,对句法结构的全局调序给予合理的解 决方案。因此,融合更多的句法结构和语义信息,对统计建模进行改良是一种良好的解决方 案。该方案可以有效地推动统计机器翻译理论的发展,实现真正意义上的统计和规则相融 合的机器翻译方法,达到降低获取的冗 ...
【技术保护点】
一种机器翻译方法,其特征在于,所述方法包括翻译步骤,所述翻译步骤包括:获取输入的源语言测试句子;对所述源语言测试句子进行词法分析,得到所述源语言测试句子的词法分析结果;对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试句子的句法分析结果;利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元结构;利用所述谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对所述源语言测试句子进行翻译解码处理,输出语言为所述目标语言的翻译结果。
【技术特征摘要】
1. 一种机器翻译方法,其特征在于,所述方法包括翻译步骤, 所述翻译步骤包括: 获取输入的源语言测试句子; 对所述源语言测试句子进行词法分析,得到所述源语言测试句子的词法分析结果; 对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试句子 的句法分析结果; 利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元结 构; 利用所述谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对所述源语言测 试句子进行翻译解码处理,输出语言为所述目标语言的翻译结果。2. 根据权利要求1所述的方法,其特征在于,所述方法还包括训练步骤, 所述训练步骤包括: 获取输入的双语平行语料的源语言训练句子和目标语言训练句子; 分别对所述源语言训练句子和所述目标语言训练句子进行词法分析,得到所述源语言 训练句子的词法分析结果和所述目标语言训练句子的词法分析结果; 利用所述源语言训练句子的词法分析结果,对所述源语言训练句子进行句法结构分 析,得到所述源语言训练句子的句法分析结果; 利用所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果 进行词对齐处理,得到词对齐处理结果; 利用所述源语言训练句子的句法分析结果和所述词对齐处理结果,进行树到串对齐处 理,生成树到串对齐双语语料,得到树到串对齐双语语料库; 利用所述源语言训练句子的句法分析结果,抽取所述源语言训练句子的谓词论元结 构; 利用所述源语言训练句子的谓词论元结构以及所述树到串对齐双语语料库,抽取翻译 规则,将所述翻译规则放入所述翻译规则库中。3. 根据权利要求1所述的方法,其特征在于,所述对所述源语言测试句子的词法分析 结果进行句法结构分析,得到所述源语言测试句子的句法分析结果,包括: 采用依存结构分析或短语结构分析的方法,对所述源语言测试句子的词法分析结果进 行句法结构分析,得到所述句法分析结果; 或, 采用依存结构树和短语结构树相互转化的方法,对所述源语言测试句子的词法分析结 果进行句法结构分析,得到所述句法分析结果。4. 根据权利要求2所述的方法,其特征在于,所述利用所述源语言训练句子的句法分 析结果和所述词对齐处理结果,进行树到串对齐处理,生成树到串对齐双语语料,得到树到 串对齐双语语料库,包括: 根据依存树到串或短语结构树到串对齐的方法,对所述源语言句法分析结果和所述词 对齐处理结果进行树到串对齐处理,生成树到串对齐双语语料,得到所述树到串对齐双语 语料库。5. 根据权利要求2所述的方法,其特征在于,在所述抽取所述源语言训练句子的谓词 论元结构之后,还包括: 对所述源语言训练句子的谓词论元结构中的构成元素分别进行泛化扩展; 在所述抽取翻译规则之后,还包括: 对抽取的所述翻译规则进行泛化扩展,利用泛化扩展后的所述翻译规则生成所述翻译 规则库。6. 根据权利要求1至5中任一所述的方法,其特征在于,所述利用所述源语言测试句子 的句法分析结果,抽取所述源语言测试句子的谓词论元结构,包括: 采用谓词格框架,从所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句 子的谓词论元结构; 或, 采用格语法或依存文法,从所述句法分析结果中抽取谓词论元结构,得到所述源语言 训练句子的谓词论元结构; 或, 采用所述源语言训练句子的依存树或短语结构树,从所述句法分析结果中抽取谓词论 元结构,得到所述源语言训练句子的谓词论元结构。7. -种机器翻译系统,其特征在于,所述系统包括翻译子系统, 所述翻译子系统包括: 第一获取模块,用于获取输入的源语言测试句子; 第一词法分析模块,用于对所述第一获取模块获取到的所述源语言测试句子进行词法 分析,得到所述源语言测试句子的词法分析结果; 第一句法分析模块,用于对所述第一词法分析模块...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。