一种文件拆分的方法及装置制造方法及图纸

技术编号：11587920 阅读：86 留言：0更新日期：2015-06-10 21:01

本发明专利技术公开了一种文件拆分的方法及装置，涉及机器翻译技术领域；解决了一般拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置的技术问题；该技术方案包括：读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器翻译
，特别涉及一种文件拆分的方法及装置。
技术介绍
机器翻译(MachineTranslation，经常简写为MT)属于计算语言学(ComputationalLinguistics)的范畴，其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。简单来说，机器翻译是通过将一个自然语言的字辞取代成另一个语言的字辞。借由使用语料库的技术，可达成更加复杂的自动翻译，包含可更佳的处理不同的文法结构、词汇辨识、惯用语的对应等。用户在使用机器翻译时，上传的文件过大，语句很多，此时需要多人同时翻译，那么就需要将文件拆分后分给不同的人来翻译。现有的拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置。
技术实现思路
本专利技术要解决的技术问题是：一般拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置的问题。为了解决上述问题，本专利技术提供了一种文件拆分的方法，读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。本专利技术还提供了一种文件拆分的装置，包括：拆分单元，用于读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。本专利技术的技术方案实现了一种文件拆分的方法，读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。可以准确的知道某句话...

【技术保护点】
一种文件拆分的方法，其特征在于，读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。

【技术特征摘要】
1.一种文件拆分的方法，其特征在于，读取要拆分的文件的相
关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。
2.如权利要求1所述的方法，其特征在于，按照字数拆分，将
文件的每个句子的字数从第一个句子开始依次叠加，每次叠加完毕与
要求拆分的字数进行比对，如果叠加后的字数小于要求拆分的字数时，
继续叠加下一句，直到叠加的字数等于要求拆分的字数，将叠加的所
有语句拆分成一个小文件。
3.如权利要求2所述的方法，其特征在于，如果叠加到刚好等
于要求拆分的字数时，那么将叠加的所有语句拆分成一个小文件；如
果叠加的字数大于要求拆分的字数时，那么将叠加的语句的前一句及
所述叠加的语句的前一句之前本次叠加的所有语句拆分成一个小文
件；从最后拆分的小文件所包含的最后一个句子的下一句开始依次叠
加句子的字数与要求拆分的字数进行比对拆分，直到文件全部拆分完。
4.如权利要求1所述的方法，其特征在于，按照份数拆分，统
计要拆分文件的总语句数，将总语句数按照要求拆分的份数平均分开。
5.如权利要求4所述的方法，其特征在于，要求拆分的份数或
每份的语句数是一个正整数或者一个允许的正整数范围，如果不能按
照要求拆分的一个整数份数内平均等份分开，在所述允许拆分的份数
整数范围内的一个整数内平均等分分开或者按照要求拆分的一个整
数份数内每份的语句数在每份的允许语句数的整数范围内即可。
6.一种文件拆分的装置，其特征在于，包括：拆分单元，用于
读取要拆分的文件的相关内容，将文件逐次拆分成一个个...

【专利技术属性】
技术研发人员：田亮，程国艮，袁翔宇，王宇晨，
申请(专利权)人：中译语通科技北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人