本发明专利技术公开了一种基于上下文的译文自动调序方法,包括以下步骤:获取由包含多义词的第一预设语种句子组成的训练语料库,在该语料库的每个句子中标注了其中多义词的第二预设语种译文;提取所述训练语料库的每个句子中同一多义词的相邻词作为特征,然后对该多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式;将向量表示形式的句子所形成的文件,训练一个用于分类的数学模型,利用该数学模型预测待测句子中多义词的各个译文的正确概率,然后将各个译文按正确概率从大到小排列输出。本发明专利技术实现了对多义词译文顺序的即时自动调整。适用于现有的全文翻译系统,例如在线词典,可以提高此类系统的性能。
【技术实现步骤摘要】
本专利技术涉及模式识别和自然语言处理
,特别涉及一种基于上下文的译文 自动调序方法。
技术介绍
现有的在线电子词典,如金山词霸,采用的技术是存储已有的纸版词典,如“简明 英汉词典”、“现代英汉综合大词典”等。该方法存在的问题是,当实现“即指即译”功能时, 只是简单的按照词典罗列出的英语单词所对应汉语翻译词顺序,而无法根据当前英语单词 所在的上下文,动态的调整翻译词的顺序。下面以英语名词bank为例,进行说明Welcome to Bank of America.This walk follows the Thames west from B arnes bridge,keeping tothe north bank of the Thames.很显然,在一句话中,bank应指“银行”,而第二句话则为“河岸”。但现有的技术没 有实现自动的调整翻译词顺序。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是如何实现对多义词译文的顺序、即时自动调整。( 二 )技术方案为了达到上述目的,本专利技术提供了一种,包括以 下步骤Si,获取由包含多义词的第一预设语种句子组成的训练语料库,在每个句子中标 注了其中多义词的第二预设语种译文;S2,提取所述训练语料库的每个句子中同一多义词的相邻词作为特征,然后对该 多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式;S3,将向量表示形式的句子所形成的文件训练一个用于分类的数学模型;S4,利用该数学模型预测待测句子中多义词的各个译文的正确概率,然后将各个 译文按正确概率从大到小排列输出。其中,所述用于分类的数学模型为带概率输出的数学模型。其中,所述带概率输出的数学模型为支持向量机。其中,利用核函数进行步骤S3的训练过程,所述核函数为支持向量机中的线性 核。其中,所述相邻词为与多义词紧挨的前后各三个词。其中,所述第一预设语种为英文,第二预设语种为中文。(三)有益效果本专利技术的技术方案通过将动态调序问题视作分类问题,利用多义词出现的上下文的单词为特征对数学模型进行训练,实现了对多义词译文顺序的即时自动调整。适用于现 有的全文翻译系统,例如在线词典,可以提高此类系统的性能。附图说明图1是本专利技术实施例的方法流程图。 具体实施例方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施 例用于说明本专利技术,但不用来限制本专利技术的范围。本专利技术的主要思想是将动态调序问题视作分类问题,利用多义词出现的上下文的 单词为特征,来实现对翻译词顺序的自动调整。本专利技术实施例的方法的步骤如图1所示Si、获得训练语料库。搜集大量的多义词出现的句子。对多义词在句子中的每一 次出现,由人工标注好正确的翻译词。经过人工标注的这些句子构成训练语料库。可以将 针对现代英语,主要选择新闻文章(比如1999-2009,共计10年的纽约时报;或者英国国家 语料库、英文网站的文章等),对文章中的每一个多义词标注正确的中文翻译。这里涉及的 一个问题是词典的选择,第一可以选择任何一部已有的英汉词典;第二可以选择多部英汉 词典,综合其中的翻译词。S2、特征提取。根据这些训练语料库,提取每个多义词每次出现的相邻词作为特 征。之所以这么做,其语言学原理是“观其伴,知其意”(You shall know a word by the company it ke印s)(参见文献)。其实除了多义词出现的周围的词外,还可 以提取许多特征,比如周围词的词性;若多义词是动词,则往往需要判断在当前句子中是否 有宾语和主语,如果有是哪个词等等。但本专利技术主要适用于在线词典,它能够获得的上下文 很短,且需要很快的响应时间(秒级),而得到动词的主语和宾语,需要获得比较长的上下 文,且需要花费额外时间对上下文进行句法分析,因此这里仅选择相邻词作为特征。这也是 我们的一个特色。然后对同一多义词的所有特征顺序编号,根据这些编号将每个句子转化 为向量表示形式以bank为例,bank出现的一句话,对应下面的一行16:142:1 521 59:1 63167:116:124:1 301 42:1 43159:121291 146:1148:1 1611202:…其中,每一行行首的数字表示类别号码(比如“1”对应“河岸”,“2”对应“银行”)。 “x:l”表示第X个特征在当前句子中出现。这些向量表示,构成多义名词bank的训练文件。 可将该文件命名为bank_n_train. txt。S3、训练模型。针对每个多义词,利用这些特征,训练一个用于分类的数学模型。准 确的说,是训练这些模型的参数,我们可以对所有的多义词都使用相同的数学模型,比如支 持向量机(Support VectorMachines, SVM)。但不同的多义词,所用特征不同,训练出的参 数各不相同。目前可以用于分类的数学模型非常多,比如贝叶斯、决策表、最大熵、支持向量 机。在此需要一个带概率输出的数学模型,上述几个模型都带概率输出,但实验表明支持向量机效果最好,所以选择使用它。SVM的数学原理可以参考文献。目前已经有许多开源软件实现了 SVM。在此采用一种实现版本lib-svm(参见文献)。训练时,只需输入步骤S2中的文件bank_n_train. txt,然后调用lib-svm的命 令svmtrain-tO-bl bank_n_train. txt bank_n. model其中“-t0”表示使用的是SVM中的线性核,“-bl”表示预测时需要概率信息。bank_ η. model是执行该命令后,为名词bank得到的模型文件。使用什么样的核函数,将对预测结 果产生很大影响。可以选择的核函数很多,比如高斯核、多项式核,实验表明线性核效果最 好。关于核函数可以参考文献。S4、完成调序。利用此分类模型,对多义词在一个句子中的出现,预测各个翻译词 可能为正确翻译的概率,并按照概率从大到小顺序排列。仍以bank为例,有了模型文件bank_n. model以后,我们就可以对bank的任意一 次出现,进行翻译词预测了。当鼠标指向bank时,获取bank出现前后各三个词,并用向量 表示,不妨表示为1 8:1 12:1 13:1 46:1 53:1 69:1存入 bank_test. txt 然后调用1 ib-svm的命令svm-predict. exe~bl bank_test.txt bank_n. model bank_n. out则bank_n. out中就会存放bank的翻译词1和2对应的概率,如1 0. 32 0. 7我们将根据这个结果进行显示“1.银行2河岸”而不是词典中默认的顺序“1.河 岸2银行”。因为判定为类别1的概率(0.3)(译成“河岸”的概率)小于判定为2的概率 (0.7)(译成“银行”的概率)。如果两个概率相等,都是0.5,可以仍然保持词典顺序不变。以上提到的参考文献如下John R. Firth, A synopsis of linguistic theory 1930-55. In Studies in Linguistic Analysis (Special Volume of the PhilologicalSociety), Oxford. T本文档来自技高网...
【技术保护点】
一种基于上下文的译文自动调序方法,其特征在于,包括以下步骤:S1,获取由包含多义词的第一预设语种句子组成的训练语料库,在每个句子中标注了其中多义词的第二预设语种译文;S2,提取所述训练语料库的每个句子中同一多义词的相邻词作为特征,然后对该多义词的所有特征顺序编号,根据这些编号将每个句子转化为向量表示形式;S3,将向量表示形式的句子所形成的文件训练一个用于分类的数学模型;S4,利用该数学模型预测待测句子中多义词的各个译文的正确概率,然后将各个译文按正确概率从大到小排列输出。
【技术特征摘要】
【专利技术属性】
技术研发人员:宋刚,
申请(专利权)人:河南约克信息技术有限公司,
类型:发明
国别省市:41[中国|河南]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。