System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种重复句标记和翻译的方法技术_技高网

一种重复句标记和翻译的方法技术

技术编号:44634650 阅读:2 留言:0更新日期:2025-03-17 18:28
本发明专利技术公开了一种重复句标记和翻译的方法,包括:获取原文,规整原文的空格和非译内容并获取原文的特征信息;基于原文的特征信息筛选出特征信息一致的句子作为重复句,并构建重复句判定标准;基于所述重复句判定标准判定得到重复句的文本模式;分析重复句的重复率,基于重复句的文本模式设置重复句标记;对标记处理后的重复句进行翻译得到目标重复句译文。本发明专利技术通过构建重复句判定标准判定文本模式并对应进行处理,同时将对原文样式信息的处理及对句子空格、非译内容的规整处理相结合,保证重复句在标记及翻译阶段的一致性和准确性,极大缩减翻译时间和翻译成本。

【技术实现步骤摘要】

本专利技术涉及重复句处理领域,具体来说,涉及一种重复句标记和翻译的方法


技术介绍

1、随着计算机辅助翻译技术的进步,系统中处理的内容也在不断的增加。在需要处理的文档中往往会重复句出现,尤其是说明性的文档。目前重复句的处理过程中没有将不同的文本模式分开进行处理,也没有将对原文样式信息的处理及对句子空格、非译内容的规整处理相结合,不能保证重复句在标记及翻译阶段的一致性和准确性,极大增加翻译时间和翻译成本。


技术实现思路

1、为了解决上述存在的技术问题,本专利技术提供一种重复句标记和翻译的方法,通过构建重复句判定标准判定文本模式并对应进行处理,同时将对原文样式信息的处理及对句子空格、非译内容的规整处理相结合,保证重复句在标记及翻译阶段的一致性和准确性,极大缩减翻译时间和翻译成本。

2、本专利技术所采取的技术方案是:

3、一种重复句标记和翻译的方法,包括具体如下步骤:

4、s1、获取原文,规整原文的空格和非译内容并获取原文的特征信息;

5、s2、基于原文的特征信息筛选出特征信息一致的句子作为重复句,并构建重复句判定标准;

6、s3、基于所述重复句判定标准判定得到重复句的文本模式;

7、s4、分析重复句的重复率,基于重复句的文本模式设置重复句标记;

8、s5、对标记处理后的重复句进行翻译得到目标重复句译文。

9、进一步地,所述原文的特征信息包括:source sim hash、source urt hash、source repeat hash和source placeholder urt hash;

10、对所述特征信息进行定义,具体过程如下:

11、1)计算句子文本的md5值作为特征信息,将md5值相等即特征信息一致的句子作为重复句;

12、2)判断文本类型并进行相对应的处理:

13、①若为纯文本,则只处理规整空格后的信息,具体如下:

14、a.不做规整:不处理;

15、b.规整空格:source sim hash;

16、c.规整非译内容:不处理;

17、d.规整空格并规整非译内容:source urt hash;

18、②若为富文本,则只处理未规整空格的内容,具体如下:

19、a.不做规整:source repeat hash;

20、b.规整空格:不处理;

21、c.规整非译内容:source placeholder urt hash;

22、d.规整空格并规整非译内容:不处理。

23、进一步地,所述构建重复句判定标准包括:

24、1)source sim hash相等或者source urt hash相等;

25、2)source repeat hash相等或者source placeholder urt hash相等。

26、进一步地,所述步骤s3具体包括:

27、当原文的特征信息source sim hash相等或者source urt hash相等时,则判定重复句为文本模式;

28、当原文的特征信息source repeat hash相等或者source placeholder urt hash相等时,则判定重复句为文本与样式模式。

29、进一步地,所述步骤s5具体包括:

30、1)机翻前,基于重复句判定标准获取所有没有译文的重复句并组成重复句集合,记作[a1,a2…][b1,b2…][c1,c2][d1,d2…]…;

31、提取重复句集合的特征信息,记作[a,b,c…];

32、将提取到的重复句集合的特征信息作为查询条件,查询得到有译文的重复句,记作[a0,c0…];

33、使用a0的译文填充重复句集合中的集合[a1,a2…],使用c0的译文填充重复句集合中的集合[c1,c2…]…直至全部完成重复句译文填充;

34、2)对没有查询到已有的译文即集合[b1,b2…]、集合[d1,d2…]…,将这些集合中的第一条记录即[b1,d1…]进行机翻;

35、3)机翻后,使用b1的译文更新集合[b1,b2…]的译文,使用d1的译文更新集合[d1,d2…]的译文…,直至更新完成;

36、4)将填充和机翻完成的重复句译文送至人工翻译;

37、5)人工对重复句译文进行分组查看及检查以保证重复句译文翻译一致得到目标重复句译文。

38、本专利技术与现有技术相比具有以下有益效果:

39、1)基于重复句的判定标准选用文本模式,最大限度缩减翻译工作量同时缩减排版工作量;其中,纯文本模式能够更多地匹配上重复句;文本与样式模式在重复句填充时连带样式信息一起填充,提高重复句处理效率;

40、2)本专利技术不仅可以实现对原文样式信息的处理,也实现对句子空格、非译内容的规整处理,保证重复句在标记及翻译阶段的一致性和准确性。

本文档来自技高网...

【技术保护点】

1.一种重复句标记和翻译的方法,其特征在于,包括具体如下步骤:

2.根据权利要求1所述的一种重复句标记和翻译的方法,其特征在于,所述原文的特征信息包括:source Sim Hash、source Urt Hash、source Repeat Hash和sourcePlaceholder Urt Hash;

3.根据权利要求1所述的一种重复句标记和翻译的方法,其特征在于,所述构建重复句判定标准包括:

4.根据权利要求1所述的一种重复句标记和翻译的方法,其特征在于,所述步骤S3具体包括:

5.根据权利要求1所述的一种重复句标记和翻译的方法,其特征在于,所述步骤S5具体包括:

【技术特征摘要】

1.一种重复句标记和翻译的方法,其特征在于,包括具体如下步骤:

2.根据权利要求1所述的一种重复句标记和翻译的方法,其特征在于,所述原文的特征信息包括:source sim hash、source urt hash、source repeat hash和sourceplaceholder urt ha...

【专利技术属性】
技术研发人员:王鑫
申请(专利权)人:传神语联网网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1