System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,特别是涉及一种文本分片方法、文本翻译方法、装置及电子设备。
技术介绍
1、随着经济全球化的高速发展,世界各国人民的交流往来日益频繁,各个国家之间语言的翻译转换需求也随着日益增加,据统计,目前全世界存在着7000多种语言,人类每掌握一种不同的语言都需要投入大量的时间去学习。而且大量文献、资料、书籍等内容靠人类翻译,不仅效率低,而且极大的消耗人类的精力。伴随着人类第三次信息技术工业革命的到来,计算机网络技术地高速发展,通过将强大的算法和大量的训练数据相结合诞生了机器翻译,机器翻译可以快速的处理大量文本数据,同时可以消除翻译过程中部分人为错误,但是,由于人类文化、语境、习俗背景和学科专业术语等不同,机器翻译的准确性受到了很大的限制,很多方面机器翻译的质量无法达到预期。
2、目前,ai(artificial intelligence,人工智能)领域进入一个新的快速发展阶段,同时,将ai应用于翻译领域,相较机器翻译,又是一次技术方面的重大突破,不仅速度更快,涉及语种更多,ai翻译系统可以通过大量的翻译数据训练和持续性学习,可以不断改进翻译质量和准确性。
3、然而,目前的ai翻译模型,存在文本数据长度的限制,因此在将源文本输入翻译模型之前,需要对源文本进行分片,以满足文本数据长度的限制。
4、目前ai翻译的方案主要是获取待翻译的源文本数据,根据模型可接收数据长度,使用一个固定长度对源文本进行分片,将分片数据依次传递给ai模型,模型处理翻译内容,模型返回翻译的目标语言。
5、
技术实现思路
1、本申请实施例的目的在于提供一种文本分片方法、文本翻译方法、装置及电子设备,通过遗传算法获取全局最优解的能力,对待翻译的源文本进行合理的分片,从而提高翻译的准确度和质量。具体技术方案如下:
2、本申请提供了一种文本分片方法,所述方法包括:
3、确定源文本,根据所述源文本、预设的语料库模型,利用遗传算法生成针对所述源文本的目标分片策略,其中,针对所述源文本的目标分片策略包括分片位置信息;所述语料库模型用于根据语义场景信息和长度限制信息评估所述分片位置信息的适应度;所述语义场景信息包括:所述源文本所属的学科信息、所述源文本的使用区域信息;所述长度限制信息表征翻译模型可接收的最大字符长度;
4、基于所述目标分片策略中包含的分片位置信息,对所述源文本进行分片。
5、可选的,所述根据所述源文本、预设的语料库模型,利用遗传算法生成针对所述源文本的目标分片策略的步骤,包括:
6、获取初始的种群,所述种群包括多个个体,每个个体代表一个分片策略,所述分片策略包括分片位置信息、语义场景信息和长度限制信息,每个个体代表的分片策略是从预设分片策略集合内随机选择的;
7、根据所述种群中每个所述个体代表的分片策略、所述源文本、所述语料库模型,计算每个所述个体的适应度;根据每个所述个体的适应度,对所述种群中的个体进行筛选,得到目标个体;利用所述目标个体进行交叉繁殖及变异,得到下一轮种群;响应于检测到当前未满足遗传算法的终止条件,针对下一轮种群,返回执行所述根据所述种群中每个所述个体代表的分片策略、所述源文本、所述语料库模型,计算每个所述个体的适应度的步骤;响应于检测到当前满足遗传算法的终止条件,将满足遗传算法的终止条件时得到的分片策略确定为所述目标分片策略。
8、可选的,所述根据所述种群中每个所述个体代表的分片策略、所述源文本、所述语料库模型,计算每个所述个体的适应度,包括:
9、将每个所述个体代表的分片策略、该分片策略下得到的分片源文本输入所述语料库模型,以使所述语料库模型在该分片策略包含的语义场景信息下,基于所述分片源文本生成预测文本,并输出基于所述分片源文本和所述预测文本运算得到的交叉熵、所述分片源文本和所述预测文本之间的第一长度差值;
10、根据所述交叉熵、所述第一长度差值、所述分片源文本的第一长度,计算基础适应度;所述基础适应度与所述交叉熵、所述第一长度差值负相关;所述基础适应度与所述第一长度正相关;
11、基于预设的第一加权权重、第二加权权重和第三加权权重,对所述基础适应度进行加权运算,得到所述个体的适应度;所述第一加权权重用于表征所述学科信息对所述适应度的影响程度,所述第二加权权重用于表征所述使用区域信息对所述适应度的影响程度,所述第三加权权重用于表征所述长度限制信息对所述适应度的影响程度。
12、可选的,在根据所述交叉熵、所述长度差值、所述分片源文本的第一长度,计算基础适应度之后,还包括:
13、在所述基础适应度的基础上叠加长度影响因子,所述长度影响因子与第二长度差值负相关;所述第二长度差值为翻译模型可接收的最大字符长度与所述第一长度的差值;
14、所述基于预设的第一加权权重、第二加权权重和第三加权权重,对所述基础适应度进行加权运算,得到所述个体的适应度的步骤,包括:
15、基于所述第一加权权重和所述第二加权权重对所述基础适应度进行加权运算,并基于所述第三加权权重对叠加所述长度影响因子后的基础适应度进行加权运算,得到所述个体的适应度。
16、本申请还提供了一种文本翻译方法,所述方法包括:将分片后的源文本输入翻译模型,得到翻译结果,所述源文本是根据上述任一文本分片方法进行分片得到的。
17、本申请还提供了一种文本分片装置,所述装置包括:
18、生成模块,用于确定源文本,根据所述源文本、预设的语料库模型,利用遗传算法生成针对所述源文本的目标分片策略,其中,针对所述源文本的目标分片策略包括分片位置信息;所述语料库模型用于根据语义场景信息和长度限制信息评估所述分片位置信息的适应度;所述语义场景信息包括:所述源文本所属的学科信息、所述源文本的使用区域信息;所述长度限制信息表征翻译模型可接收的最大字符长度;
19、分片模块,用于基于所述目标分片策略中包含的分片位置信息,对所述源文本进行分片。
20、可选的,所述生成模块,包括:
21、获取子模块,用于获取初始的种群,所述种群包括多个个体,每个个体代表一个分片策略,所述分片策略包括分片位置信息、语义场景信息和长度限制信息,每个个体代表的分片策略是从预设分片策略集合内随机选择的;
22、计算子模块,用于根据种群中每个所述个体代表的分片策略、所述源文本、所述语料库模型,计算每个所述个体的适应度;
23、筛选子模块,用于根据每个所述个体的适应度,对所述种群中的个体进行筛选,得到目标个体;
24、变异子模块,用于利用所述目标个体进行交叉繁殖及变异,得到下一轮种群;
25、返回子模块,用于响应于检测到当前未满足遗传算法的终止条件,针对下一轮种群,返回执行所述根据每个所述本文档来自技高网...
【技术保护点】
1.一种文本分片方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述源文本、预设的语料库模型,利用遗传算法生成针对所述源文本的目标分片策略的步骤,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述种群中每个所述个体代表的分片策略、所述源文本、所述语料库模型,计算每个所述个体的适应度,包括:
4.根据权利要求3所述的方法,其特征在于,
5.一种文本翻译方法,其特征在于,所述方法包括:将分片后的源文本输入翻译模型,得到翻译结果,所述源文本是根据权利要求1-4中任一项所述的方法进行分片得到的。
6.一种文本分片装置,其特征在于,所述装置包括:
7.一种文本翻译装置,其特征在于,所述装置包括:翻译模块,用于将分片后的源文本输入翻译模型,得到翻译结果,所述源文本是根据权利要求1-4中任一项所述的方法进行分片得到的。
8.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
9
10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5任一项所述的方法步骤。
...【技术特征摘要】
1.一种文本分片方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述源文本、预设的语料库模型,利用遗传算法生成针对所述源文本的目标分片策略的步骤,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述种群中每个所述个体代表的分片策略、所述源文本、所述语料库模型,计算每个所述个体的适应度,包括:
4.根据权利要求3所述的方法,其特征在于,
5.一种文本翻译方法,其特征在于,所述方法包括:将分片后的源文本输入翻译模型,得到翻译结果,所述源文本是根据权利要求1-4中任一项所述的方法进行分片得到的。
6.一种文本分片装置,其特征在于,所述装...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。