一种机器翻译中的一次剪枝压缩方法技术

技术编号:24800230 阅读:27 留言:0更新日期:2020-07-07 21:09
本发明专利技术公开一种机器翻译中的一次剪枝压缩方法,包括以下步骤:1)对机器翻译模型中自注意力部分的参数点乘一个值为0或1的矩阵c,矩阵c的值表示是否对其对应的模型连接进行剪枝操作;2)通过损失函数对矩阵c求导,对导数值进行由大到小的排序,保留前κ个导数值的路径连接,其中κ是模型稀疏度;3)在一个批次的训练数据上进行一次前馈与反馈过程,从中学习到适应翻译模型的矩阵c;4)使用求得的矩阵c优化后续的模型计算,并达到更少的存储消耗。本发明专利技术剪枝方法在机器翻译上凭借连接敏感度进行一次剪枝的压缩方法,克服了以往剪枝方法需要多次迭代的弊端,只需要在一个批次的训练数据上使用一次前馈与反馈就可以得到最终的剪枝结构。

【技术实现步骤摘要】
一种机器翻译中的一次剪枝压缩方法
本专利技术涉及一种神经机器翻译压缩技术,具体为一种机器翻译中的一次剪枝压缩方法。
技术介绍
机器翻译(MachineTranslation或MT)又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。纵观机器翻译的发展历程,机器翻译使用技术经历了几次变化,最早使用的是规则法(rulebasedmachinetranslation,RBMT)通过制定大量的语法规则来进行双语翻译,这种方式虽然取得了一定的成果,但是其中的某些方法实现很困难,基于规则的翻译器在翻译结果上的表现也很单一,对于语言在多种语境下的处理不够灵活。同时此方法逐渐暴露出了一些其他的问题,比如,人工书写的规则覆盖度有限、规则数量增加导致的冲突、语种扩充困难等问题。虽然随后兴起的基于实例的方法可以一定程度上缓解以上问题,但是问题仍然没有得到根本解决。在上世纪九十年代初,统计法(statisticalmachinetranslation,SMT)的出现取代了传统的规则法。统计方法对大量平行句对分析,构建统计翻译模型,这种通过数学手段对翻译问题建模的方式改善了需要使用大量规则的弊端,所以系统的鲁棒性和扩展性都大大增强了。但是基于统计的方法对建模方式以及数据都有很强的依赖,虽然相较于规则的方法来说基于统计的方法变得灵活了许多,但是一个好的模型仍然对许多先验的设置存在较高的要求。相比传统的基于统计的机器翻译方法,神经机器翻译系统只需要将模型与一部分超参数设置好就能取得较好的效果,如果模型的表示能力够强,并且由足够的设备,那么神经机器翻译系统将会自动地把数据中的特征抽取出来。相较于基于规则的方法与基于统计的方法,神经机器翻译具有更好的鲁棒性,并且算法会自动学习数据中的知识,而不是通过预先的规则设定。但由于神经网络本身的特点,其内部存在着大量的矩阵运算,因此其在使用的过程中会更加耗时。并且对于资源受限的小型设备,计算与存储的优化更为关键,因此神经机器翻译系统的解码优化也成为翻译系统能否实用化的关键。传统的机器翻译剪枝方法在实际使用中解码速度慢,模型存储消耗大,实用性差,不能满足翻译软件实时响应的需求。尽管大网络具有良好的性能,但是随着移动设备越来越普及,小设备移动性强,消耗低的有点渐渐显露,能否在资源受限设备上使用机器翻译方法变成了机器翻译技术应用的关键问题,在传统的剪枝方法中,剪枝需要在模型上进行反复的迭代才能取得最好的剪枝结果,这限制了机器翻译技术的应用,阻碍了机器翻译技术的发展。
技术实现思路
针对现有技术中机器翻译的方法在实际使用中解码速度慢,模型存储消耗大,不能满足翻译软件实时响应的需求等不足,本专利技术要将解决的技术问题是提供一种在机器翻译上凭借连接敏感度进行一次剪枝的压缩方法,能够在快速推理的最新实现基础上,且在模型性能几乎没有下降的前提下,降低存储消耗。为解决上述技术问题,本专利技术采用的技术方案是:本专利技术一种机器翻译中的一次剪枝压缩方法,于包括以下步骤:1)对机器翻译模型中自注意力部分的参数点乘一个值为0或1的矩阵c,矩阵c的值表示是否对其对应的模型连接进行剪枝操作;2)通过损失函数对矩阵c求导,对导数值进行由大到小的排序,保留前κ个导数值更大的路径连接,其中κ是模型稀疏度;3)在一个批次的训练数据上进行一次前馈与反馈过程,从中学习到适应翻译模型的矩阵c;4)使用求得的矩阵c优化后续的模型计算,并达到更少的存储消耗。矩阵c与机器翻译模型中自注意力部分的参数和损失函数的关系为:c∈{0,1}m,‖c‖0≤κ矩阵c与自注意力部分的参数ω维度相同,当矩阵c对应元素取值为1时表示该路径保留,当矩阵c对应元素取值为0时表示该路径被剪枝,D为机器翻译模型学习剪枝结构过程所需要的训练数据集,通常为一个批次大小的数据集,(xi,yi)为训练数据集D中的第i个数据对,n为训练数据集D的总数据对个数,i为训练数据集D的第i个数据对,表示求出使得L最小的c和ω,l为第i个数据的损失函数,m表示参数ω是m维的,κ是模型稀疏度;上述公式表示使用n个句对对损失函数训练,在训练过程中得到令损失函数最小的矩阵c。步骤2)中通过损失函数对矩阵c求导,对导数值进行由大到小的排序,进而对通过自动微分学习模型最优矩阵c,具体为:201)通过下述公式衡量第j个连接在模型中的有效程度,公式为:ΔLj(ω;D)=L(1⊙ω;D)-L((1-ej)⊙ω;D)其中ej表示一个除列索引号j为1以外元素全部为0的列向量,该公式中L(1⊙ω;D)计算了模型自注意力部分的损失函数值,L((1-ej)⊙ω;D)计算了模型对连接j剪枝之后的损失函数值;202)通过连接敏感度gj(ω;D)代替ΔLj(ω;D)的计算,通过下述公式,使得模型可以通过自动微分在一次前馈与反馈中学习得到矩阵c,公式为:上述公式将不可微分的离散形式用可微分的连续形势近似代替,通过该公式可以使用自动微分,使用部分数据进行一次前馈与反馈得到矩阵c,δ为一个极小值;203)选取所有连接的gj(ω;D)中最大的κ个保留,公式为:是向量s中第κ大的元素,1[·]是示性函数。步骤3)中,使用一次前馈与反馈在部分数据上完成矩阵c的训练,只需要在一个批次的训练数据上使用一次前馈与反馈即可。步骤4)中,训练得到矩阵c后,矩阵c使矩阵ω成为稀疏矩阵,在剪枝后的训练过程中使用稀疏矩阵进行训练与存储,使得模型更为高效。本专利技术具有以下有益效果及优点:1.本专利技术方法在机器翻译上凭借连接敏感度进行一次剪枝压缩,通过度量一个连接在未剪枝时损失函数的值与剪枝后损失函数的值的差值大小,来定义该连接对于模型整体结构的重要性,当剪枝前与剪枝后损失函数的差值较大时,说明该连接的表示能力更强,对于该模型来说更加重要。不同于以往的剪枝方法,该剪枝方法通过优化连接敏感度计算公式,可以一次剪枝模型,并且不需要多次迭代。2.本专利技术提出的在机器翻译上凭借连接敏感度进行一次剪枝的压缩方法,克服了以往剪枝方法需要多次迭代的弊端,本方法只需要在一个批次的训练数据上使用一次前馈与反馈就可以得到最终的剪枝结构。3.本专利技术提出的在机器翻译上凭借连接敏感度进行一次剪枝的压缩方法,学习到对于模型结构合适的矩阵c,该矩阵c对于不同的数据以及不同的任务均有较好的鲁棒性。4.本专利技术提出在机器翻译上凭借连接敏感度进行一次剪枝的压缩方法,该算法预计取得50%的压缩效果,同时模型性能几乎没有下降。附图说明图1为本专利技术方法涉及的自注意力计算图示;图2为本专利技术方法涉及的一次剪枝计算示意图;图3为本专利技术方法涉及的训练网络的流程图。具体实施方式下面结合说明书附图对本专利技术作进一本文档来自技高网
...

【技术保护点】
1.一种机器翻译中的一次剪枝压缩方法,其特征在于包括以下步骤:/n1)对机器翻译模型中自注意力部分的参数点乘一个值为0或1的矩阵c,矩阵c的值表示是否对其对应的模型连接进行剪枝操作;/n2)通过损失函数对矩阵c求导,对导数值进行由大到小的排序,保留前κ个导数值的路径连接,其中κ是模型稀疏度;/n3)在一个批次的训练数据上进行一次前馈与反馈过程,从中学习到适应翻译模型的矩阵c;/n4)使用求得的矩阵c优化后续的模型计算,并达到更少的存储消耗。/n

【技术特征摘要】
1.一种机器翻译中的一次剪枝压缩方法,其特征在于包括以下步骤:
1)对机器翻译模型中自注意力部分的参数点乘一个值为0或1的矩阵c,矩阵c的值表示是否对其对应的模型连接进行剪枝操作;
2)通过损失函数对矩阵c求导,对导数值进行由大到小的排序,保留前κ个导数值的路径连接,其中κ是模型稀疏度;
3)在一个批次的训练数据上进行一次前馈与反馈过程,从中学习到适应翻译模型的矩阵c;
4)使用求得的矩阵c优化后续的模型计算,并达到更少的存储消耗。


2.按权利要求1所述的一种机器翻译中的一次剪枝压缩方法,其特征在于:矩阵c与机器翻译模型中自注意力部分的参数和损失函数的关系为:




c∈{0,1}m,‖c‖0≤κ
矩阵c与自注意力部分的参数ω维度相同,当矩阵c对应元素取值为1时表示该路径保留,当矩阵c对应元素取值为0时表示该路径被剪枝,D为机器翻译模型学习剪枝结构过程所需要的训练数据集,通常为一个批次大小的数据集,(xi,yi)为训练数据集D中的第i个数据对,n为训练数据集D的总数据对个数,i为训练数据集D的第i个数据对,表示求出使得L最小的c和ω,l为第i个数据的损失函数,m表示参数ω是m维的,κ是模型稀疏度;
上述公式表示使用n个句对对损失函数训练,在训练过程中得到令损失函数最小的矩阵c。


3.按权利要求1所述的一种机器翻译中的一次剪枝压缩方法,其特征在于:步骤2)中通过损失函数对矩阵c求导,对导数值...

【专利技术属性】
技术研发人员:宁义明朱靖波肖桐张春良
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1