本发明专利技术公开了一种文件拆分的方法及装置,涉及机器翻译技术领域;解决了一般拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置的技术问题;该技术方案包括:读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。
【技术实现步骤摘要】
本专利技术涉及机器翻译
,特别涉及一种文件拆分的方法及装置。
技术介绍
机器翻译(MachineTranslation,经常简写为MT)属于计算语言学(ComputationalLinguistics)的范畴,其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。简单来说,机器翻译是通过将一个自然语言的字辞取代成另一个语言的字辞。借由使用语料库的技术,可达成更加复杂的自动翻译,包含可更佳的处理不同的文法结构、词汇辨识、惯用语的对应等。用户在使用机器翻译时,上传的文件过大,语句很多,此时需要多人同时翻译,那么就需要将文件拆分后分给不同的人来翻译。现有的拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置。
技术实现思路
本专利技术要解决的技术问题是:一般拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置的问题。为了解决上述问题,本专利技术提供了一种文件拆分的方法,读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。本专利技术还提供了一种文件拆分的装置,包括:拆分单元,用于读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。本专利技术的技术方案实现了一种文件拆分的方法,读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。可以准确的知道某句话拆分到哪个文件及所在的位置。附图说明图1按字数拆分流程示意图;图2按份数拆分流程示意图;图3一种文件拆分的装置框图。具体实施方式下面将结合附图及实施例对本专利技术的技术方案进行更详细的说明。需要说明的是,如果不冲突,本专利技术实施例以及实施例中的各个特征可以相互结合,均在本专利技术的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。实施例一,一种文件拆分的方法,读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。具体的,将文件M按照文件内容的前后顺序拆分成一个个小文件C1、C2、C3、C4…,每个小文件包含文件M的一部分内容,即每个小文件包含文件M中的L个句子(L是正整数),每个小文件包含的句子都是完整的句子(以句号、问好、叹号等终结)。本专利技术的技术方案可以准确的知道某句话拆分到哪个小文件及所其在小文件中的位置,便于翻译人员翻译。本专利技术的技术方案可以按照不同需求拆分文件。如图1所示,进一步地,按照字数拆分,将文件的每个句子的字数从第一个句子开始依次叠加,每次叠加完毕与要求拆分的字数进行比对,如果叠加后的字数小于要求拆分的字数时,继续叠加下一句,直到叠加的字数等于要求拆分的字数,将叠加的所有语句拆分成一个小文件。具体的,首先将文件的每句话的字数依次叠加与要求拆分的字数进行比对,如果叠加到刚好等于要求拆分的字数时,那么叠加的所有语句就是新拆分出来的小文件,然后依此原理继续对比,直到文件全部拆分完。要求拆分的字数S为一个正整数或一个正整数范围,如果为一个正整数范围,则只要每句话的字数依次叠加到正整数范围内的一个数即可。进一步地,如果叠加到刚好等于要求拆分的字数时,那么将叠加的所有语句拆分成一个小文件;如果叠加的字数大于要求拆分的字数时,那么将叠加的语句的前一句及所述叠加的语句的前一句之前本次叠加的所有语句拆分成一个小文件;从最后拆分的小文件所包含的最后一个句子的下一句开始依次叠加句子的字数与要求拆分的字数进行比对拆分,直到文件全部拆分完。按字数拆分的过程如下:(1)将文件M中的第一句话S1的字数N1与第二句S2的字数N2叠加得到字数Ns;(2)将叠加的字数Ns与要拆分文件的第一份字数S相比;(3)如果Ns<S,那么就将第一句、第二句和第三句S3的字数N3都加在一起得到新的Ns,再去与S比较,依次类推;(4)如果Ns=S,则可以将之前所有叠加的语句Sn算作一个新的小文件内容C1,然后将叠加的最后一句话的下一句(第Sn+1句)当做下个拆分小文件部分的第一句话,继续执行(1)(2)(3);(5)如果Ns>S,则将第Sn-1句话前的所有语句算作一个新的小文件内容,并且返回Sn-1句话的总字数Ns-1;直到将文件的最后一句话归到最后一份拆分的小文件后,拆分结束。到第Sn句话时,此前叠加的字数超过了要拆分的字数,因为在做文件拆分时我们不能把一句话拆分成两句,那么目前我们可以肯定第Sn-1句话之前的所有语句叠加的字数少于S,而加上第Sn句话后又大于S,我们只能将第Sn-1句话之前的语句(包括第Sn-1句话)算作一个新的文件,或者是可以给用户提示满足字数拆分的最优总字数。按照字数拆分的好处是可以满足用户可以指定翻译人员的工作量(就是翻译的字数量),并且可以根据字数很快的计算出翻译的费用。进一步地,如图2所示,按照份数拆分,统计要拆分文件的总语句数,将总语句数按照要求拆分的份数平均分开。具体的,统计要拆分文件的总语句数,将总数按照要求拆分的份数平均分开,然后统计每份文件的语句总字数。进一步地,要求拆分的份数或每份的语句数是一个正整数或者一个允许的正整数范围,如果不能按照要求拆分的一个整数份数内平均等份分开,在所述允许拆分的份数整数范围内的一个整数内平均等分分开或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可。具体的,如果不能按照要求拆分的一个整数份数内平均等份分开,在所述允许拆分的份数整数范围内的一个整数内平均等分分开,比如,总语句数为200,要求分成11份,不能在一个11份内平均等份分开;允许拆分的份数整数范围为10-12份,那么拆分为10份;或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可;比如,总语句数为200,要求分成11份,不能在一个11份内平均等份分开;每份的允许语句数的整数范围为17-10句,那么可以分为前10份小文件18句,最后一个小文件20句。按份数拆分的过程如下:(1)计算要拆分文件的总语句数A;(2)按照要求将文件平均拆分成B份,则每份的语句数为:A/B=D;(3)如果B能被A整除,则第一份小文件的语句到第D句,第二份 小文件到2D位置,依次类推;(4)如果不能,本文档来自技高网...
【技术保护点】
一种文件拆分的方法,其特征在于,读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。
【技术特征摘要】
1.一种文件拆分的方法,其特征在于,读取要拆分的文件的相
关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。
2.如权利要求1所述的方法,其特征在于,按照字数拆分,将
文件的每个句子的字数从第一个句子开始依次叠加,每次叠加完毕与
要求拆分的字数进行比对,如果叠加后的字数小于要求拆分的字数时,
继续叠加下一句,直到叠加的字数等于要求拆分的字数,将叠加的所
有语句拆分成一个小文件。
3.如权利要求2所述的方法,其特征在于,如果叠加到刚好等
于要求拆分的字数时,那么将叠加的所有语句拆分成一个小文件;如
果叠加的字数大于要求拆分的字数时,那么将叠加的语句的前一句及
所述叠加的语句的前一句之前本次叠加的所有语句拆分成一个小文
件;从最后拆分的小文件所包含的最后一个句子的下一句开始依次叠
加句子的字数与要求拆分的字数进行比对拆分,直到文件全部拆分完。
4.如权利要求1所述的方法,其特征在于,按照份数拆分,统
计要拆分文件的总语句数,将总语句数按照要求拆分的份数平均分开。
5.如权利要求4所述的方法,其特征在于,要求拆分的份数或
每份的语句数是一个正整数或者一个允许的正整数范围,如果不能按
照要求拆分的一个整数份数内平均等份分开,在所述允许拆分的份数
整数范围内的一个整数内平均等分分开或者按照要求拆分的一个整
数份数内每份的语句数在每份的允许语句数的整数范围内即可。
6.一种文件拆分的装置,其特征在于,包括:拆分单元,用于
读取要拆分的文件的相关内容,将文件逐次拆分成一个个...
【专利技术属性】
技术研发人员:田亮,程国艮,袁翔宇,王宇晨,
申请(专利权)人:中译语通科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。