机器翻译方法及系统技术方案

技术编号:10868822 阅读:181 留言:0更新日期:2015-01-07 10:16
本发明专利技术公开了一种机器翻译方法及系统,属于自然语言处理研究领域。所述方法包括:训练过程和翻译过程,通过抽取源语言句子的谓词论元结构,结合目标语言的词法分析结果的词串,形成树到串双语对齐语料,再利用谓词论元结构信息指导树到串机器翻译规则的抽取和解码过程,从而直接将谓词论元结构建模到树到串机器翻译中。本发明专利技术通过将谓词论元结构建模到树到串机器翻译中,解决了现有技术中被抽取的统计翻译规则的冗余规则数量非常大的问题,达到了降低冗余规则数量,改善语义结构和语义相关性,提高长距离调序性能,提高翻译质量的效果。

【技术实现步骤摘要】
机器翻译方法及系统
本专利技术涉及自然语言处理研究领域,特别涉及一种机器翻译方法及系统。
技术介绍
当前,机器翻译的主流方法大致可以分为基于规则和基于语料库两种方法,基于 语料库的方法又可以细分为基于实例的方法和基于统计的方法。基于统计的机器翻译方法 能够以双语平行语料库为学习数据,通过训练自动获取翻译规则,同时,结合语言模型对测 试语句进行翻译。随着统计机器翻译模型的不断改良,先后出现了基于词的、基于短语和基 于句法结构的统计模型,译文质量得到不断改善。 但是,传统的统计机器翻译模型,更多地利用句子的层次结构片段和属性进行建 模,要提高统计机器翻译系统的性能,则要求在建模的过程中增加更多的句法结构和语义 信息。 既有的统计机器翻译模型,在源语言和目标语言之间的句法结构存在较大的差异 性时,调序显得极其重要却又相当困难。既有统计模型在建模时,充分考虑了解决局部调 序的对策。但是,这些传统技术,在解决诸如日语句法的主宾谓(SOV,Subject-Object-verb) 结构和汉语的主谓宾 (SVO, Subject-Verb-Object) 结构之间的差异性问题时,遭 遇困难。很多研究人员,采用前处理和后处理的方式,对句法机构进行调整,以降低语言结 构上的差异性。此类方法并没有从统计建模的角度,对句法结构的全局调序给予合理的解 决方案。因此,融合更多的句法结构和语义信息,对统计建模进行改良是一种良好的解决方 案。该方案可以有效地推动统计机器翻译理论的发展,实现真正意义上的统计和规则相融 合的机器翻译方法,达到降低获取的冗余规则数量,改善语义结构和语义相关性,提高长距 尚调序性能,提商翻译质量。 谓词论元结构(PAS,Predicate Argument Structure)是一种浅层语义结构,用来 表示谓词和句子成分的论元之间的谓词逻辑关系,通过使用施事、受事及谓词等表现句子 成分的浅层语义关系,它从某种程度上就表示出句子的主体框架结构及其语义属性。另一 方面,句法结构包含主谓宾等成分。谓词论元结构和句法结构,可以结合句子的中心谓词的 句型特点进行融合,在句法结构的词位和语义结构的义位基本一致的前提下,可以把施事 和受事作为主语或宾语等句法结构成份的特征属性,来实现句法结构和语义结构的融合。 如使用格语法中的格框架和依存结构分析树,是一个很好地融合句法结构和语义结构的方 案。 谓词论元结构是构式语法理论的基础,构式语法理论是对转换生成语法理论的批 判、继承和发展的结果。构式语法(Construction Grammar),也称为构件语法、框架语 法、构块式语法、架构语法等。 构式语法继承了费尔默提出的框架语义学的理论。框架语义学注重研究如何有效 解决话语整体的语义理解和描写问题,通过词汇意义与语法模式之间的联系,实现对概念 结构和语义-句法映射关系的描写。因此,框架语义学是格语法理论的系统化、具体化,是 格语法发展的第三个阶段。 通常,框架语义学以谓词为中心,通过使用谓词的框架及其框架元素(即在谓 词-论元结构中的论元)之间的语义关系实现框架语义描述。在其描述过程中,动词与具 体的框架角色相联,通过构式实现各个论元的角色功能(例如施事、受事、目标),各个论元 则具有相应的语法功能项,如主语(Sub),直接宾语(Ob j)或者间接宾语(Ob j2)等。 因此,利用谓词论元结构和句法结构信息作为全局调序的关键有效特征进行统计 机器翻译建模,可有助于实现真正意义上的基于语义的统计机器翻译模型,推动统计机器 翻译理论的发展,提高翻译质量。 一种基于谓词论元结构的层次机器翻译方法:将句子中所有的谓词论元结构有机 的组织成图状结构,再将此结构作为改进层次短语机器翻译的顶层语义骨架结构,从而直 接将谓词论元结构建模到层次短语机器翻译中。直接在谓词语义结构上对翻译过程进行建 模,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文,由此得到的译文 可以有效地解决长距离调序问题,提高机器翻译的译文质量。 在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:在进行层次机 器翻译方法的建模过程中,并行抽取层次短语翻译规则和谓词语义结构规则,由于没有有 效地使用句法结构或谓词语义结构规则指导层次短语翻译规则的抽取,使得被抽取的层次 短语翻译规则的冗余规则数量非常大,从而致使机器翻译性能非常差。
技术实现思路
为了解决现有技术中被抽取的层次短语翻译规则的冗余规则数量非常大,从而致 使机器翻译性能非常差的问题,本专利技术实施例提供了一种机器翻译方法及系统。所述技术 方案如下: 第一方面,提供了一种机器翻译方法,所述方法包括翻译步骤, 所述翻译步骤包括: 获取输入的源语言测试句子; 对所述源语言测试句子进行词法分析,得到所述源语言测试句子的词法分析结 果; 对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试 句子的句法分析结果; 利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元 结构; 利用所述谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对所述源语 言测试句子进行翻译解码处理,输出语言为所述目标语言的翻译结果。 可选的,所述方法还包括训练步骤, 所述训练步骤包括: 获取输入的双语平行语料的源语言训练句子和目标语言训练句子; 分别对所述源语言训练句子和所述目标语言训练句子进行词法分析,得到所述源 语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果; 利用所述源语言训练句子的词法分析结果,对所述源语言训练句子进行句法结构 分析,得到所述源语言训练句子的句法分析结果; 利用所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析 结果进行词对齐处理,得到词对齐处理结果; 利用所述源语言训练句子的句法分析结果和所述词对齐处理结果,进行树到串对 齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库; 利用所述源语言训练句子的句法分析结果,抽取所述源语言训练句子的谓词论元 结构; 利用所述源语言训练句子的谓词论元结构以及所述树到串对齐双语语料库,抽取 翻译规则,将所述翻译规则放入所述翻译规则库中。 可选的,所述对所述源语言测试句子的词法分析结果进行句法结构分析,得到所 述源语言测试句子的句法分析结果,包括: 采用依存结构分析或短语结构分析的方法,对所述源语言测试句子的词法分析结 果进行句法结构分析,得到所述句法分析结果; 或, 采用依存结构树和短语结构树相互转化的方法,对所述源语言测试句子的词法分 析结果进行句法结构分析,得到所述句法分析结果。 可选的,所述利用所述源语言训练句子的句法分析结果和所述词对齐处理结果, 进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库,包括: 根据依存树到串或短语结构树到串对齐的方法,对所述源语言句法分析结果和所 述词对齐处理结果进行树到串对齐处理,生成树到串对齐双语语料,得到所述树到串对齐 双语语料库。 可选的,在所述抽取所述源语言训练句本文档来自技高网
...
机器翻译方法及系统

【技术保护点】
一种机器翻译方法,其特征在于,所述方法包括翻译步骤,所述翻译步骤包括:获取输入的源语言测试句子;对所述源语言测试句子进行词法分析,得到所述源语言测试句子的词法分析结果;对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试句子的句法分析结果;利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元结构;利用所述谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对所述源语言测试句子进行翻译解码处理,输出语言为所述目标语言的翻译结果。

【技术特征摘要】
1. 一种机器翻译方法,其特征在于,所述方法包括翻译步骤, 所述翻译步骤包括: 获取输入的源语言测试句子; 对所述源语言测试句子进行词法分析,得到所述源语言测试句子的词法分析结果; 对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试句子 的句法分析结果; 利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元结 构; 利用所述谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对所述源语言测 试句子进行翻译解码处理,输出语言为所述目标语言的翻译结果。2. 根据权利要求1所述的方法,其特征在于,所述方法还包括训练步骤, 所述训练步骤包括: 获取输入的双语平行语料的源语言训练句子和目标语言训练句子; 分别对所述源语言训练句子和所述目标语言训练句子进行词法分析,得到所述源语言 训练句子的词法分析结果和所述目标语言训练句子的词法分析结果; 利用所述源语言训练句子的词法分析结果,对所述源语言训练句子进行句法结构分 析,得到所述源语言训练句子的句法分析结果; 利用所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果 进行词对齐处理,得到词对齐处理结果; 利用所述源语言训练句子的句法分析结果和所述词对齐处理结果,进行树到串对齐处 理,生成树到串对齐双语语料,得到树到串对齐双语语料库; 利用所述源语言训练句子的句法分析结果,抽取所述源语言训练句子的谓词论元结 构; 利用所述源语言训练句子的谓词论元结构以及所述树到串对齐双语语料库,抽取翻译 规则,将所述翻译规则放入所述翻译规则库中。3. 根据权利要求1所述的方法,其特征在于,所述对所述源语言测试句子的词法分析 结果进行句法结构分析,得到所述源语言测试句子的句法分析结果,包括: 采用依存结构分析或短语结构分析的方法,对所述源语言测试句子的词法分析结果进 行句法结构分析,得到所述句法分析结果; 或, 采用依存结构树和短语结构树相互转化的方法,对所述源语言测试句子的词法分析结 果进行句法结构分析,得到所述句法分析结果。4. 根据权利要求2所述的方法,其特征在于,所述利用所述源语言训练句子的句法分 析结果和所述词对齐处理结果,进行树到串对齐处理,生成树到串对齐双语语料,得到树到 串对齐双语语料库,包括: 根据依存树到串或短语结构树到串对齐的方法,对所述源语言句法分析结果和所述词 对齐处理结果进行树到串对齐处理,生成树到串对齐双语语料,得到所述树到串对齐双语 语料库。5. 根据权利要求2所述的方法,其特征在于,在所述抽取所述源语言训练句子的谓词 论元结构之后,还包括: 对所述源语言训练句子的谓词论元结构中的构成元素分别进行泛化扩展; 在所述抽取翻译规则之后,还包括: 对抽取的所述翻译规则进行泛化扩展,利用泛化扩展后的所述翻译规则生成所述翻译 规则库。6. 根据权利要求1至5中任一所述的方法,其特征在于,所述利用所述源语言测试句子 的句法分析结果,抽取所述源语言测试句子的谓词论元结构,包括: 采用谓词格框架,从所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句 子的谓词论元结构; 或, 采用格语法或依存文法,从所述句法分析结果中抽取谓词论元结构,得到所述源语言 训练句子的谓词论元结构; 或, 采用所述源语言训练句子的依存树或短语结构树,从所述句法分析结果中抽取谓词论 元结构,得到所述源语言训练句子的谓词论元结构。7. -种机器翻译系统,其特征在于,所述系统包括翻译子系统, 所述翻译子系统包括: 第一获取模块,用于获取输入的源语言测试句子; 第一词法分析模块,用于对所述第一获取模块获取到的所述源语言测试句子进行词法 分析,得到所述源语言测试句子的词法分析结果; 第一句法分析模块,用于对所述第一词法分析模块...

【专利技术属性】
技术研发人员:徐金安吴培昊
申请(专利权)人:北京交通大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1