【技术实现步骤摘要】
本专利技术涉及翻译
,具体涉及一种原文和译文的对齐方法和装置。
技术介绍
原文和译文进行对齐是文本翻译完成后的一项基础工作。原文和译文的对齐是建立平行语料库的基础,也是翻译错误定位的基础。一般而言,如果是按段落对齐,可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句进行对齐则无法这样简单处理,由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因,段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以往这种基于句子的原译文对齐工作往往需要人工来处理,既费时费力,效率也很低。
技术实现思路
本专利技术实施例的目的在于克服现有技术的上述不足,提供一种原文和译文的对齐方法,该方法基于实义词的相似度,解决了译后处理的原译文对齐问题。本专利技术实施例的另一目的在于克服现有技术的上述不足,提供一种原文和译文的对齐装置,该装置基于实义词的相似度,解决了译后处理的原译文对齐问题。为了实现上述专利技术目的,本专利技术实施例的技术方案如下:一种原文和译文的对齐方法,包括:对所有原文语句分词,去除其中的停用词,获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和 ...
【技术保护点】
一种原文和译文的对齐方法,其特征在于,包括:对所有原文语句分词,去除其中的停用词,获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。
【技术特征摘要】
1.一种原文和译文的对齐方法,其特征在于,包括:
对所有原文语句分词,去除其中的停用词,获得实义词;
获取所述原文语句的每个实义词的所有译项;
将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹
配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;
根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所
述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句
的相似度;
将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对
齐。
2.如权利要求1所述的原文和译文的对齐方法,其特征在于,所述将每个
所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配,获得
每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括:
根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个
实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度;
根据sim(nwjl,TRi)=maxr=1,2,...,p(sim(nwjl,TRinwr))]]>获得所述原文语句OR的第j个
实义词的第l个译项nwjl与所述译文语句TRi的相似度;
根据获得所述原文语句OR的第j个实
义词nwj和第i个所述译文语句TRi的相似度;
其中,所述原文语句OR具有m个实义词,所述译文中共有n个所述译文
语句,所述译文语句TRi具有p个实义词,第j个实义词具有k个译项,L表示
调节参数,dis(nwjl,TRinwr)表示所述原文语句OR的第j个实义词的第l个译项
nwjl和第i个所述译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,
\ti=1,2,…,n,j=1,2,…,m,l=1,2,…,k,r=1,2,…,p。
3.如权利要求2所述的原文和译文的对齐方法,其特征在于,所述根据每
个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句
和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度的
过程包括:
根据获得所述原文语句OR与所述译文语
句TRi的相似度。
4.如权利要求3所述的原文和译文的对齐方法,其特征在于,所述将与所
述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包
括:
根据maxi=1,2,...,n(sim(OR,TRi))=maxi=1,2,...,n(Πj=1,2,...,msim(nwj,TRi))]...
【专利技术属性】
技术研发人员:江潮,张芃,蔺伟,陈钰清,
申请(专利权)人:武汉传神信息技术有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。