当前位置: 首页 > 专利查询>复旦大学专利>正文

融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法技术

技术编号:7759111 阅读:194 留言:0更新日期:2012-09-14 01:02
本发明专利技术属于多媒体信息处理技术领域,具体为一种融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法。本发明专利技术包含四个步骤:预处理和参数估计、基于Web的翻译候选获取、基于多特征的翻译候选表示、翻译结果的排序与评估。本发明专利技术采用Web挖掘获取语料,多特征表示翻译候选以及基于有监督学习的翻译候选排序相结合的方法。与传统方法相比较,本发明专利技术的优势在于:语料获取方法及预处理简单、表示翻译候选的特征全面、翻译结果准确率高。未登录词翻译一直是文本处理的重点和难点之一,本发明专利技术提出较为有效的汉英未登录词翻译方法,这对于机器翻译及跨语言信息检索领域具有重要的应用价值。

【技术实现步骤摘要】

本专利技术属于多媒体信息处理
,具体涉及ー种汉英未登录词翻译方法。
技术介绍
随着社会信息化和Internet的飞速发展,网络上出现层出不穷的新词、术语、流行用语等,这些新的命名实体数量庞大且不断更新,无法在现有的双语词典中一一找到,即所谓的未登录词。未登录词翻译是指输入源语未登录词,输出其目标语翻译。随着机器翻译(Machine Translation)和跨I音-目 1目息检索(Cross-language Information Retrieval,CLIR)的不断发展,能够快速准确地翻译未登录词显得极其重要,未登录词的翻译一直是机器翻译和跨语言信息检索中的重点和难点之一。 有关传统的未登录词翻译方法,主要包括基于音译、并行语料库和可比语料库的翻译方法m 。其中,音译是未登录词翻译最直接的方法之一,特别是对于人名、地名、机构名等专有名词;而基于语料库的翻译方法主要在于语料库的全面性以及对齐方法;并行语料库要求原文文本与译文文本之间具有并行对应关系,要求较高;可比语料库是由多种语言写成的相似文本。基于语料库的方法受到语料库资源匮乏的限制,使得翻译准确率也受到一定的限制,并且随着新词的不断出现,这种限制越来越明显。随着Web信息的不断增长,网络上多种文本信息越来越丰富,也逐渐弥补了传统方法中语料库资源匮乏的缺点。因此,近年来,研究者们逐渐将目光转向越来越丰富的网络信息资源,将其用于未登录词翻译的研究M。现有方法中,或者将Web信息与传统方法相结合,或者直接采用Web信息进行翻译μμμμ。但是,网络信息形式多祥化,内容混杂,表达方式各异,能够用于未登录词翻译研究的语料非常有限。针对基于Web挖掘的未登录词翻译,其中主要问题表现为三个方面,即如何准确快速地定位并抽取翻译候选、翻译候选的表示问题和翻译结果的评估问题。近年来,很多研究者利用Web信息来寻找未登录词的翻译候选。基于Web挖掘的未登录词翻译方法的一般过程是给定ー个未登录词,获取网页中相关的信息资源,然后抽取翻译候选,再按照一定的方法从翻译候选中找出正确的翻译。在使用Web资源方面,根据使用的信息类别和使用信息的方式,主要有以下几种方法(I)直接利用Web上的资源来统计特征信息获得翻译候选的方法,这些信息包括锚文本信息ΜΜ、点击数据(Click-through data) > Wikipedia、人立方等;(2)基于搜索结果结合共现频率等统计特征信息获取翻译候选的方法M(3)通过查询扩展以提高翻译候选覆盖率的方法;(4)通过学习翻译对模式挖掘翻译对的方法这些方法都是利用网络上现有的信息资源作为提取翻译候选的语料,其重点在于如何快速准确地定位双语信息、以及在返回的搜索结果中尽可能多地包含翻译候选。这些双语信息包括锚文本等现有信息和搜索引擎获得的結果。锚文本(Anchor Text)是指网络上的链接文本,一个锚文本可能与一个URL对应,如“新浪”与http.· //www. sina. com. cn/对应。另夕卜,同一个网页不同语言的描述也可能相互对应,根据锚文本的相互对应关系,就可找到翻译对。Wikipedia和人立方等资源中不同语言间对应的网页也是寻找翻译对的重要资源。随着等搜索引擎的发展,利用捜索结果作为获取翻译候选的语料的方法也越来越普遍。这种语料简单易得,主要是将未登录词作为查询词在搜索引擎中搜索,所得到的查询结果作为源语料。但这种语料存在ー个主要问题,就是翻译候选的覆盖率,因此而提出跨语言查询扩展等方法来提高翻译候选的覆盖率。另外,翻译对在网页中一般会以相同或相似的形式出现,基于这种观察,挖掘翻译对的出现模式,然后根据学习得到的模式获取翻译对也是ー种重要可行的方法。另ー个很重要的问题是翻译候选的表示和评估问题。对于翻译候选的表示,采用一些统计特征信息,如频率、共现、距离等;而对于翻译候选的评估,按照频率、共现等简单的排序,或者采用ー些简单的统计特征,或者采用ー些半监瞀的方法M,或者采用最大熵、支持向量机(Support Vector Machine, SVM)、AdaBoost 等有监瞀的方法。尽管上述基于Web挖掘的未登录词翻译方法已取得一定的效果,但仍存在ー些问题,即用于表示翻译候选的特征信息不够全面,仅采用ー些频率、共现或者音译等部分特征;以及用于评估未登录词和翻译候选相关性的衡量方法也过于简单,有些只是单纯的按频率或共现信息排序。因此,本专利技术根据以上分析,针对目前已有方法存在的一些问题,提出ー种新的设计框架,即结合Web挖掘、多特征表示和Ranking SVM的未登录词翻译方法。在Web挖掘中,对搜索引擎进行设置以提高翻译候选的覆盖率,即在汉英未登录词翻译中,对于输入的中文未登录词,捜索其英文网页。在翻译候选的表示中,结合全局特征、局部特征和布尔特征进行全面表示。最后,采用Ranking SVM的方法对翻译候选进行评估,得到较为准确的翻译。參考文献Paola Virga and Sanjeev Khudanpur.し iransI iteration of Proper Namesin Cross-Language Applications,,· In Proceedings of SIGIR 2003, 365-366,2003.C. J. Lee, J. S. Chang, and J. R. Jang. “Alignment of Bilingual NamedEntities in Parallel Corpora Using Statistical Models and Multiple KnowledgeSources”. ACM Transactions on Asian Language Processing, 5 (2):121-145, 2006.L. Shao and H. T. Ng. “Mining New Word Translations from ComparableCorpora”. In Proceedings of COLING 2004, 618-624,2004.ff. H. Lu and L. F. Chien. “Anchor Text Mining for Translation of WebQueries: A Transitive Translation Approach,,· ACM Transactions on InformationSystems, 22 (2):242-269, 2004. ff. H. Lu, L. F. Chien, and H. J. Lee. “Anchor Text Mining forTranslation of Web Queries”. In Proceedings of ICDM2001, pp.401-408, 2001.ff. H. Lu, L. F. Chien, and H. J. Lee. “Translation of Web Queriesusing Anchor Text Mining”. ACM Transactions on Asian Language InformationProc本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:张玥杰苏艳霞金城薛向阳
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1