一种机器翻译中的一次剪枝压缩方法技术

技术编号：24800230 阅读：27 留言：0更新日期：2020-07-07 21:09

本发明专利技术公开一种机器翻译中的一次剪枝压缩方法，包括以下步骤：1)对机器翻译模型中自注意力部分的参数点乘一个值为0或1的矩阵c，矩阵c的值表示是否对其对应的模型连接进行剪枝操作；2)通过损失函数对矩阵c求导，对导数值进行由大到小的排序，保留前κ个导数值的路径连接，其中κ是模型稀疏度；3)在一个批次的训练数据上进行一次前馈与反馈过程，从中学习到适应翻译模型的矩阵c；4)使用求得的矩阵c优化后续的模型计算，并达到更少的存储消耗。本发明专利技术剪枝方法在机器翻译上凭借连接敏感度进行一次剪枝的压缩方法，克服了以往剪枝方法需要多次迭代的弊端，只需要在一个批次的训练数据上使用一次前馈与反馈就可以得到最终的剪枝结构。

全部详细技术资料下载

【技术实现步骤摘要】
一种机器翻译中的一次剪枝压缩方法
本专利技术涉及一种神经机器翻译压缩技术，具体为一种机器翻译中的一次剪枝压缩方法。
技术介绍
机器翻译(MachineTranslation或MT)又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。纵观机器翻译的发展历程，机器翻译使用技术经历了几次变化，最早使用的是规则法(rulebasedmachinetranslation,RBMT)通过制定大量的语法规则来进行双语翻译，这种方式虽然取得了一定的成果，但是其中的某些方法实现很困难，基于规则的翻译器在翻译结果上的表现也很单一，对于语言在多种语境下的处理不够灵活。同时此方法逐渐暴露出了一些其他的问题，比如，人工书写的规则覆盖度有限、规则数量增加导致的冲突、语种扩充困难等问题。虽然随后兴起的基于实例的方法可以一定程度上缓解以上问题，但是问题仍然没有得到根本解决。在上世纪九十年代初，统计法(statisticalmachinetranslation,SMT)的出现取代了传统的规则法。统计方法对大量平行句对分析，构建统计翻译模型，这种通过数学手段对翻译问题建模的方式改善了需要使用大量规则的弊端，所以系统的鲁棒性和扩展性都大大增强了。但是基于统计的方法对建模方式以及数据都有很强的依赖，虽然相较于规则的方法来说基于统计的方法变得灵活了许多，但是一个好的模型仍然对许多先验的设置存在较高的要求。相比传统的基于统计的机器...

【技术保护点】
1.一种机器翻译中的一次剪枝压缩方法，其特征在于包括以下步骤：/n1)对机器翻译模型中自注意力部分的参数点乘一个值为0或1的矩阵c，矩阵c的值表示是否对其对应的模型连接进行剪枝操作；/n2)通过损失函数对矩阵c求导，对导数值进行由大到小的排序，保留前κ个导数值的路径连接，其中κ是模型稀疏度；/n3)在一个批次的训练数据上进行一次前馈与反馈过程，从中学习到适应翻译模型的矩阵c；/n4)使用求得的矩阵c优化后续的模型计算，并达到更少的存储消耗。/n

【技术特征摘要】
1.一种机器翻译中的一次剪枝压缩方法，其特征在于包括以下步骤：
1)对机器翻译模型中自注意力部分的参数点乘一个值为0或1的矩阵c，矩阵c的值表示是否对其对应的模型连接进行剪枝操作；
2)通过损失函数对矩阵c求导，对导数值进行由大到小的排序，保留前κ个导数值的路径连接，其中κ是模型稀疏度；
3)在一个批次的训练数据上进行一次前馈与反馈过程，从中学习到适应翻译模型的矩阵c；
4)使用求得的矩阵c优化后续的模型计算，并达到更少的存储消耗。

2.按权利要求1所述的一种机器翻译中的一次剪枝压缩方法，其特征在于：矩阵c与机器翻译模型中自注意力部分的参数和损失函数的关系为：

c∈{0,1}m,‖c‖0≤κ
矩阵c与自注意力部分的参数ω维度相同，当矩阵c对应元素取值为1时表示该路径保留，当矩阵c对应元素取值为0时表示该路径被剪枝，D为机器翻译模型学习剪枝结构过程所需要的训练数据集，通常为一个批次大小的数据集，(xi,yi)为训练数据集D中的第i个数据对，n为训练数据集D的总数据对个数，i为训练数据集D的第i个数据对，表示求出使得L最小的c和ω，l为第i个数据的损失函数，m表示参数ω是m维的，κ是模型稀疏度；
上述公式表示使用n个句对对损失函数训练，在训练过程中得到令损失函数最小的矩阵c。

3.按权利要求1所述的一种机器翻译中的一次剪枝压缩方法，其特征在于：步骤2)中通过损失函数对矩阵c求导，对导数值...

【专利技术属性】
技术研发人员：宁义明，朱靖波，肖桐，张春良，
申请(专利权)人：沈阳雅译网络技术有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人