机器翻译方法及系统技术方案

技术编号：10868822 阅读：191 留言：0更新日期：2015-01-07 10:16

本发明专利技术公开了一种机器翻译方法及系统，属于自然语言处理研究领域。所述方法包括：训练过程和翻译过程，通过抽取源语言句子的谓词论元结构，结合目标语言的词法分析结果的词串，形成树到串双语对齐语料，再利用谓词论元结构信息指导树到串机器翻译规则的抽取和解码过程，从而直接将谓词论元结构建模到树到串机器翻译中。本发明专利技术通过将谓词论元结构建模到树到串机器翻译中，解决了现有技术中被抽取的统计翻译规则的冗余规则数量非常大的问题，达到了降低冗余规则数量，改善语义结构和语义相关性，提高长距离调序性能，提高翻译质量的效果。

全部详细技术资料下载

【技术实现步骤摘要】
机器翻译方法及系统
本专利技术涉及自然语言处理研究领域，特别涉及一种机器翻译方法及系统。
技术介绍
当前，机器翻译的主流方法大致可以分为基于规则和基于语料库两种方法，基于语料库的方法又可以细分为基于实例的方法和基于统计的方法。基于统计的机器翻译方法能够以双语平行语料库为学习数据，通过训练自动获取翻译规则，同时，结合语言模型对测试语句进行翻译。随着统计机器翻译模型的不断改良，先后出现了基于词的、基于短语和基于句法结构的统计模型，译文质量得到不断改善。但是，传统的统计机器翻译模型，更多地利用句子的层次结构片段和属性进行建模，要提高统计机器翻译系统的性能，则要求在建模的过程中增加更多的句法结构和语义信息。既有的统计机器翻译模型，在源语言和目标语言之间的句法结构存在较大的差异性时，调序显得极其重要却又相当困难。既有统计模型在建模时，充分考虑了解决局部调序的对策。但是，这些传统技术，在解决诸如日语句法的主宾谓（SOV，Subject-Object-verb) 结构和汉语的主谓宾（SVO， Subject-Verb-Object) 结构之间的差异性问题时，遭遇困难。很多研究人员，采用前处理和后处理的方式，对句法机构进行调整，以降低语言结构上的差异性。此类方法并没有从统计建模的角度，对句法结构的全局调序给予合理的解决方案。因此，融合更多的句法结构和语义信息，对统计建模进行改良是一种良好的解决方案。该方案可以有效地推动统计机器翻译理论的发展，实现真正意义上的统计和规则相融合的机器翻译方法，达到降低获取的冗...
机器翻译方法及系统

【技术保护点】
一种机器翻译方法，其特征在于，所述方法包括翻译步骤，所述翻译步骤包括：获取输入的源语言测试句子；对所述源语言测试句子进行词法分析，得到所述源语言测试句子的词法分析结果；对所述源语言测试句子的词法分析结果进行句法结构分析，得到所述源语言测试句子的句法分析结果；利用所述源语言测试句子的句法分析结果，抽取所述源语言测试句子的谓词论元结构；利用所述谓语论元结构以及翻译规则库中预先训练得到的翻译规则，对所述源语言测试句子进行翻译解码处理，输出语言为所述目标语言的翻译结果。

【技术特征摘要】
1. 一种机器翻译方法，其特征在于，所述方法包括翻译步骤，所述翻译步骤包括：获取输入的源语言测试句子；对所述源语言测试句子进行词法分析，得到所述源语言测试句子的词法分析结果；对所述源语言测试句子的词法分析结果进行句法结构分析，得到所述源语言测试句子的句法分析结果；利用所述源语言测试句子的句法分析结果，抽取所述源语言测试句子的谓词论元结构；利用所述谓语论元结构以及翻译规则库中预先训练得到的翻译规则，对所述源语言测试句子进行翻译解码处理，输出语言为所述目标语言的翻译结果。2. 根据权利要求1所述的方法，其特征在于，所述方法还包括训练步骤，所述训练步骤包括：获取输入的双语平行语料的源语言训练句子和目标语言训练句子；分别对所述源语言训练句子和所述目标语言训练句子进行词法分析，得到所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果；利用所述源语言训练句子的词法分析结果，对所述源语言训练句子进行句法结构分析，得到所述源语言训练句子的句法分析结果；利用所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果进行词对齐处理，得到词对齐处理结果；利用所述源语言训练句子的句法分析结果和所述词对齐处理结果，进行树到串对齐处理，生成树到串对齐双语语料，得到树到串对齐双语语料库；利用所述源语言训练句子的句法分析结果，抽取所述源语言训练句子的谓词论元结构；利用所述源语言训练句子的谓词论元结构以及所述树到串对齐双语语料库，抽取翻译规则，将所述翻译规则放入所述翻译规则库中。3. 根据权利要求1所述的方法，其特征在于，所述对所述源语言测试句子的词法分析结果进行句法结构分析，得到所述源语言测试句子的句法分析结果，包括：采用依存结构分析或短语结构分析的方法，对所述源语言测试句子的词法分析结果进行句法结构分析，得到所述句法分析结果；或，采用依存结构树和短语结构树相互转化的方法，对所述源语言测试句子的词法分析结果进行句法结构分析，得到所述句法分析结果。4. 根据权利要求2所述的方法，其特征在于，所述利用所述源语言训练句子的句法分析结果和所述词对齐处理结果，进行树到串对齐处理，生成树到串对齐双语语料，得到树到串对齐双语语料库，包括：根据依存树到串或短语结构树到串对齐的方法，对所述源语言句法分析结果和所述词对齐处理结果进行树到串对齐处理，生成树到串对齐双语语料，得到所述树到串对齐双语语料库。5. 根据权利要求2所述的方法，其特征在于，在所述抽取所述源语言训练句子的谓词论元结构之后，还包括：对所述源语言训练句子的谓词论元结构中的构成元素分别进行泛化扩展；在所述抽取翻译规则之后，还包括：对抽取的所述翻译规则进行泛化扩展，利用泛化扩展后的所述翻译规则生成所述翻译规则库。6. 根据权利要求1至5中任一所述的方法，其特征在于，所述利用所述源语言测试句子的句法分析结果，抽取所述源语言测试句子的谓词论元结构，包括：采用谓词格框架，从所述句法分析结果中抽取谓词论元结构，得到所述源语言训练句子的谓词论元结构；或，采用格语法或依存文法，从所述句法分析结果中抽取谓词论元结构，得到所述源语言训练句子的谓词论元结构；或，采用所述源语言训练句子的依存树或短语结构树，从所述句法分析结果中抽取谓词论元结构，得到所述源语言训练句子的谓词论元结构。7. -种机器翻译系统，其特征在于，所述系统包括翻译子系统，所述翻译子系统包括：第一获取模块，用于获取输入的源语言测试句子；第一词法分析模块，用于对所述第一获取模块获取到的所述源语言测试句子进行词法分析，得到所述源语言测试句子的词法分析结果；第一句法分析模块，用于对所述第一词法分析模块...

【专利技术属性】
技术研发人员：徐金安，吴培昊，
申请(专利权)人：北京交通大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人