翻译文件的拆分和分配方法组成比例

技术编号:7643574 阅读:297 留言:0更新日期:2012-08-04 23:29
本发明专利技术公开了一种翻译文件的拆分和分配方法,包括以下步骤:开始;导入文件;进行处理前需要的参数设置或采用默认设置,包括设置误差值D;预处理,得到导入文件格式,打开文件,检测里面的内容,分析出可分成的份数最大值;判断用户是否需要隐藏相同段落,遍历文件找出相同段落,去除相同段落;确定需要拆分成的份数N;导出拆分文件选择路径;根据用户所选的需要拆分成的份数N和用户自定义参数设置或默认参数设置进行拆分,根据误差值D进行以段为主,字数为辅的拆分法。本发明专利技术设置了满足字数拆分的合理拆分,既解决了以往由于断句不完整无法翻译的问题,同时也满足了拆分精度的要求。解决了人为拆分耗时过大,加大项目成本的问题。

【技术实现步骤摘要】

本专利技术涉及一种办公文件拆分和分配方法,具体涉及。
技术介绍
对于现在的社会,国际交上的交流成家常便饭。随之带来的翻译量越来越大,文件 字数越来越多。以现在CAT技术的流行,翻译速度大大提升。但是在翻译前的准备过程往往占据了相当长的时间。例如对于翻译公司来说,一份约3万字的文件分别给10个人做,在前期需要用时半天甚至更久的时间来完成文件拆分和分配。更严重的事,犹豫文字过多,很容易导致分割时视觉混淆导致拆分有误。许多文件中会有很多段落是完全相同的,这样翻译只是多了一些无用的事。这样无形的增加了翻译成本。而目前市面上所有的拆分工具器目的是为了将文件化整为零,方便携带,其算法按字节流分割。此方法对文字的分割基本是无用的。所以翻译界在翻译文字过多文件时往往需要多个人同时进行翻译,翻译前都会花大量时间用于文字的拆分。
技术实现思路
本专利技术克服了现有技术的不足,提供一种对需要翻译的文件进行拆分和分配的方法,该方法将多种办公文件按段算字数的方法直接拆分成指定份数,再分发给译员进行翻译,而且在拆分之前先对是否有隐藏文件进行处理,该方法从文件的分割,隐藏相同段落,到分配可以将整个时间减少到3-10分钟。这样就提高了翻译效率,避免了重复翻译,解决了现有技术中存在的技术问题。为解决上述的技术问题,本专利技术采用以下技术方案 一种,包括以下步骤 步骤1,开始; 步骤2,导入文件; 步骤3,进行处理前需要的参数设置或采用默认设置,包括设置误差值D ;步骤4,预处理,得到导入文件格式,打开文件,检测里面的内容,分析出可分成的份数 步骤5,判断用户是否需要隐藏相同段落,如果是进入步骤6,如果不是直接进入步骤7 ; 步骤6 :遍历文件找出相同段落,去除相同段落;步骤7 :根据步骤4或步骤6的处理后得到的可拆分份数进行选择,确定分成的份数为N;步骤8 :导出拆分文件选择路径; 步骤9 :根据用户所选份数N和用户自定义参数设置或默认参数设置进行拆分,根据误差百分比进行以段为主,字数为辅的拆分法,具体包括 步骤9-1,算出总字数M和找出总段数G,用总字数除以份数得到平均字数A ; 步骤9-2,拆分出第一份依次遍历第一至第G段,从第一段开始,若第一段的字数大于或等于A-A*D,则将第一段作为第一份拆分出来,若第一段的字数小于A-A*D,则计算第一段和第二段的总字数,若总字数次大于或等于A-A*D,则将第一、二段作为第一份拆分出来,若不是,则再计算第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第一份拆分出来; 步骤9-3,拆分出第二份依次遍历步骤9-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第二份拆分出来; 步骤9-4,拆分出第三份依次遍历步骤9-3拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第三份拆分出来; 以此类推直至步骤9-N,拆分出第N-I份依次遍历步骤9-N-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第N-I份拆分出来; 步骤9-N+1,如果余下段落数目大于零,则将余下的段落拆分成第N份并进入步骤10 ;如果当进行完步骤9-N后,余下段落数目为零时,则提示客户由于总字数和总段数过少,需要将调整误差值D调大,之后再回到步骤9-1重新开始步骤9-1至步骤9-N+1,直至满足拆成N份为止再进入步骤10 ;或不计较拆分的份数少一份,而进入步骤10 ; 步骤10,将拆分好的文件保存到用户指定的路径。更进一步的技术方案是 所述的误差值D的选择范围为4%-40%,当文件字数越多时,误差值就越小,而当文件字数越少时,误差值D应越大。所述的步骤9-N+1中,若余下段落的总字数低于平均字数的4%时,则提示客户拆分数量过分不均,需要将调整误差值D调大,需要回到步骤3将调整误差值D调大,之后再回到步骤9-1重新开始至步骤9-N+1,直至满足拆成的第N份大于或等于平均字数的4%为止。所述的总字数包括标点和文字。所述的总字数仅包括文字,不包括标点。所述的误差值D可以通过公式70/A-N/G/10来进行计算,若算出来的D小于4%,则将D设置为4%,若算出来的D大于40%,则将D设置为40%。 与现有技术相比,本专利技术的有益效果是 I、本申请涉及的翻译文件拆分方法效率高,相同段隐藏可以节约翻译成本。2、本申请涉及的翻译文件拆分方法采用以段为主,字数为辅的拆分法,并设置了满足字数拆分的合理拆分,既解决了以往由于断句不完整 无法翻译的问题,同时也满足了拆分精度的要求。解决了人为拆分耗时过大,加大项目成本的问题。具体实施例方式本专利技术涉及一种,包括以下步骤 步骤1,开始; 步骤2,导入文件; 步骤3,进行处理前需要的参数设置或采用默认设置,包括设置误差值D ; 步骤4,预处理,得到导入文件格式,打开文件,检测里面的内容,分析出可分成的份数最大值;此最大值不能大于总段数; 步骤5,判断用户是否需要隐藏相同段落,如果是进入步骤6,如果不是直接进入步骤7 ; 步骤6 :遍历文件找出相同段落,去除相同段落; 步骤7 :根据步骤4或步骤6的处理后得到的可拆分份数进行选择,确定分成的份数为N; 步骤8 :导出拆分文件选择路径; 步骤9 :根据用户所选份数N和用户自定义参数设置或默认参数设置进行拆分,根据误差百分比进行以段为主,字数为辅的拆分法,具体包括 步骤9-1,算出总字数M和找出总段数G,用总字数除以份数得到平均字数A ; 步骤9-2,拆分出第一份依次遍历第一至第G段,从第一段开始,若第一段的字数大于或等于A-A*D,则将第一段作为第一份拆分出来,若第一段的字数小于A-A*D,则计算第一段和第二段的总字数,若总字数次大于或等于A-A*D,则将第一、二段作为第一份拆分出来,若不是,则再计算第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第一份拆分出来; 步骤9-3,拆分出第二份依次遍历步骤9-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种翻译文件的拆分和分配方法,其特征在于包括以下步骤 步骤1,开始; 步骤2,导入文件; 步骤3,进行处理前需要的参数设置或采用默认设置,包括设置误差值D ; 步骤4,预处理,得到导入文件格式,打开文件,检测里面的内容,分析出可分成的份数最大值; 步骤5,判断用户是否需要隐藏相同段落,如果是进入步骤6,如果不是直接进入步骤7 ; 步骤6 :遍历文件找出相同段落,去除相同段落; 步骤7 :根据步骤4或步骤6的处理后得到的可拆分份数进行选择,确定需要拆分成的份数N ; 步骤8 :导出拆分文件选择路径; 步骤9 :根据用户所选的需要拆分成的份数N和用户自定义参数设置或默认参数设置进行拆分,根据误差值D进行以段为主,字数为辅的拆分法,具体包括 步骤9-1,算出总字数M和找出总段数G,用总字数除以份数得到平均字数A ; 步骤9-2,拆分出第一份依次遍历第一至第G段,从第一段开始,若第一段的字数大于或等于A-A*D,则将第一段作为第一份拆分出来,若第一段的字数小于A-A*D,则计算第一段和第二段的总字数,若总字数次大于或等于A-A*D,则将第一、二段作为第一份拆分出来,若不是,则再计算第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第一份拆分出来; 步骤9-3,拆分出第二份依次遍历步骤9-2拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总字数大于或等于A-A*D,则将余下的第一、二段作为第一份拆分出来,若不是,则再计算余下的第一、第二、第三段的总字数……直到各段总字数满足大于或等于A-A*D,就可以将第二份拆分出来; 步骤9-4,拆分出第三份依次遍历步骤9-3拆分之后余下的段落,从余下的第一段开始,若余下第一段的字数大于或等于A-A*D,则将余下的第一段作为第一份拆分出来,若余下的第一段的字数小于A-A*D,则计算余下的第一段和余下的第二段的总字数,若总...

【专利技术属性】
技术研发人员:张马成王兴强伍华杨明王小龙
申请(专利权)人:成都优译信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术