原文和译文的对齐方法和装置制造方法及图纸

技术编号:13082539 阅读:42 留言:0更新日期:2016-03-30 14:42
一种原文和译文的对齐方法,包括:对所有原文语句分词,去除其中的停用词,获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。本发明专利技术公开一种原文和译文的对齐装置。该方法和装置解决原文和译文对齐问题。

【技术实现步骤摘要】

本专利技术涉及翻译
,具体涉及一种原文和译文的对齐方法和装置
技术介绍
原文和译文进行对齐是文本翻译完成后的一项基础工作。原文和译文的对齐是建立平行语料库的基础,也是翻译错误定位的基础。一般而言,如果是按段落对齐,可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句进行对齐则无法这样简单处理,由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因,段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以往这种基于句子的原译文对齐工作往往需要人工来处理,既费时费力,效率也很低。
技术实现思路
本专利技术实施例的目的在于克服现有技术的上述不足,提供一种原文和译文的对齐方法,该方法基于实义词的相似度,解决了译后处理的原译文对齐问题。本专利技术实施例的另一目的在于克服现有技术的上述不足,提供一种原文和译文的对齐装置,该装置基于实义词的相似度,解决了译后处理的原译文对齐问题。为了实现上述专利技术目的,本专利技术实施例的技术方案如下:一种原文和译文的对齐方法,包括:对所有原文语句分词,去除其中的停用词,获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。进一步,所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括:根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度;根据获得所述原文语句OR的第j个实义词的第l个译项nwjl与所述译文语句TRi的相似度;根据获得所述原文语句OR的第j个实义词nwj和第i个所述译文语句TRi的相似度;其中,所述原文语句OR具有m个实义词,所述译文中共有n个所述译文语句,所述译文语句TRi具有p个实义词,第j个实义词具有k个译项,L表示调节参数,dis(nwjl,TRinwr)表示所述原文语句OR的第j个实义词的第l个译项nwjl和第i个所述译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,i=1,2,…,n,j=1,2,…,m,l=1,2,…,k,r=1,2,…,p。进一步,所述根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度的过程包括:根据获得所述原文语句OR与所述译文语句TRi的相似度。进一步,所述将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包括:根据maxi=1,2,...,n(sim(OR,TRi))=maxi=1,2,...,n(Πj=1,2,...,msim(nwj,TRi))]]>获得与所述原文语句OR的相似度最高的所述译文语句;将与所述原文语句OR的相似度最高的所述译文语句和所述原文语句OR匹配,并对齐所述原文语句OR和所述译文语句。进一步,还包括:对原文中的所述原文语句按顺序进行编号;对译文中的所述译文语句按顺序进行编号;如果同一所述译文语句和多个所述原文语句的相似度均为最高,则获取多个所述原文语句在所述原文中的所述编号,以及所述译文语句在所述译文中的所述编号;如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近,则将该一个所述原文语句与所述译文语句匹配并对齐;如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近,则将所述编号较小的所述原文语句与所述译文语句匹配并对齐;比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低,将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐;重复上述过程,直到每个所述原文语句均与每个所述译文语句匹配并对齐。进一步:所述词典为按树形结构编码的同义词分类词典。进一步:所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。进一步:所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。进一步,所述实义词包括:名词、动词、形容词和副词。以及,一种原文和译文的对齐装置,包括:第一单元,用于对所有原文语句分词,去除其中的停用词,获得实义词;第二单元,用于获取所述原文语句的每个实义词的所有译项;第三单元,用于将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;第四单元,用于根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;第五单元,用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。本专利技术实施例的有益效果如下:1、本专利技术实施例的原文和译文的对齐方法,基于实义词的相似度,解决了译后处理的原译文对齐问题。2、本专利技术实施例的原文和译文的对齐方法,不需要通过人工处理,节省了时间,提高了效率。3、本专利技术实施例的原文和译文的对齐装置,基于实义词的相似度,解决了译后处理的原译文对齐问题。4、本专利技术实施例的原文和译文的对齐装置,实现了自动化,节省了时间,提高了效率。附图说明图1是本专利技术实施例的原文和译文的对齐方法的流程图;图2是本专利技术实施例的原文和译文的对齐装置的流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例提供了一种原文和译文的对齐方法。如图1所示,为本专利技术实施例的原文和译文的对齐方法的流程图。该原文和译文的对齐方法的具体过程如下:步骤S10:对所有原文语句分词,去除其中的停用词,本文档来自技高网...

【技术保护点】
一种原文和译文的对齐方法,其特征在于,包括:对所有原文语句分词,去除其中的停用词,获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。

【技术特征摘要】
1.一种原文和译文的对齐方法,其特征在于,包括:
对所有原文语句分词,去除其中的停用词,获得实义词;
获取所述原文语句的每个实义词的所有译项;
将每个所述原文语句的每个实义词的所有译项在所有译文语句中进行匹
配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;
根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所
述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句
的相似度;
将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对
齐。
2.如权利要求1所述的原文和译文的对齐方法,其特征在于,所述将每个
所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配,获得
每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括:
根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个
实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度;
根据sim(nwjl,TRi)=maxr=1,2,...,p(sim(nwjl,TRinwr))]]>获得所述原文语句OR的第j个
实义词的第l个译项nwjl与所述译文语句TRi的相似度;
根据获得所述原文语句OR的第j个实
义词nwj和第i个所述译文语句TRi的相似度;
其中,所述原文语句OR具有m个实义词,所述译文中共有n个所述译文
语句,所述译文语句TRi具有p个实义词,第j个实义词具有k个译项,L表示
调节参数,dis(nwjl,TRinwr)表示所述原文语句OR的第j个实义词的第l个译项
nwjl和第i个所述译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,

\ti=1,2,…,n,j=1,2,…,m,l=1,2,…,k,r=1,2,…,p。
3.如权利要求2所述的原文和译文的对齐方法,其特征在于,所述根据每
个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句
和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度的
过程包括:
根据获得所述原文语句OR与所述译文语
句TRi的相似度。
4.如权利要求3所述的原文和译文的对齐方法,其特征在于,所述将与所
述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包
括:
根据maxi=1,2,...,n(sim(OR,TRi))=maxi=1,2,...,n(Πj=1,2,...,msim(nwj,TRi))]...

【专利技术属性】
技术研发人员:江潮张芃蔺伟陈钰清
申请(专利权)人:武汉传神信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1