一种基于序列到序列预训练语言模型的楹联生成算法制造技术

技术编号:36380188 阅读:52 留言:0更新日期:2023-01-18 09:41
本发明专利技术公开了一种基于序列到序列预训练语言模型的楹联生成算法,包括步骤一.首先利用Transformer神经网络建立楹联模型的模型结构及损失函数,即初始化的楹联模型;步骤二.利用降噪序列到序列方法对楹联模型进行预训练,提高楹联模型的泛化性能;步骤三.再对预训练后的楹联模型在楹联数据集上进行序列到序列任务微调,得到楹联生成模型;本算法通过将楹联应对任务建模为一个序列到序列的生成问题,将楹联的上联作为输入,并能够自递归地生成出符合楹联标准要求的下联,具有楹联生成效果好、准确性高和计算快捷的特点。准确性高和计算快捷的特点。准确性高和计算快捷的特点。

【技术实现步骤摘要】
一种基于序列到序列预训练语言模型的楹联生成算法


[0001]本专利技术自然语言处理
,具体涉及一种基于序列到序列预训练语言模型的楹联生成算法。

技术介绍

[0002]楹联,也称对联,是中华传统文化的独特结晶;楹联和楹联文化出现在人们生活的方方面面;作为楹联文化的活动形式之一,楹联应对是一种受到群众喜爱的游戏;其形式为,出题者给出上联,应对者根据上联给出适当的下联;要求下联与给定的上联在文字上整齐对仗、意义上对照呼应、音律讲究平仄有节奏;楹联应对在文字、意义以及音律上的要求,使楹联艺术具有形式美、意义美及声律美的审美体验的同时,也为楹联艺术在年轻人中传播,以及初学者的学习,带来了一定阻碍;如果能开发一套楹联应对的算法系统,输入上联,机器自动给出符合要求的下联,则可以帮助楹联文化的初学者、爱好者更好地学习、交流楹联文化,从而对中国的传统文化进行有效传承;
[0003]关于自动楹联生成,研究者尝试了多种方法来完成该任务。文献“张开旭,孙茂松.统计与规则相结合的古文对联应对模型[J].中文信息学报,2009”提出了一种统计与规则相结合的古文对联应对模型,该方法使用统计方法建立软规则模型,同时在候选搜索阶段通过硬规则排除不合理的解;文献“LongJiang,MingZhou.GeneratingChineseCoupletsusingaStatisticalMTApproach[J].Proceedingsofthe22ndInternationalConferenceonComputationalLinguistics(Coling2008)”提出了一种基于统计机器翻译(StatisticalMachineTranslation,SMT)的对联生成算法;该方法将对联生成转化成了一种翻译问题:输入上联,利用机器翻译技术,将上联“翻译”为符合要求的下联,这一方法为后来的研究者提供了新的思路;
[0004]近年来,随着深度学习技术的发展,神经网络技术在自然语言处理领域的多种任务上都取得了成功;相关的研究者也开始尝试将神经网络技术用于对联生成任务;文献“卫万成,黄文明,王晶,邓珍荣.基于多任务学习的古诗和对联自动生成[J].中文信息学报,2019”提出了一种基于多任务的古诗和对联自动生成算法,该方法通过同时学习古诗和对联生成任务,使两个任务的部分数据和参数共享,从而提升最终的生成效果;
[0005]基于神经网络的对联生成模型,相对传统基于规则和统计的方法,效果上有了明显提升;然而,由于自然语言本身语法、语义上的复杂性,加上楹联中上下联需要满足文字、音律以及意义上的要求,机器自动生成的楹联效果仍难以达到高水平的楹联爱好者的水平;尤其是当楹联中涉及历史典故及世界知识时,仅利用少量的楹联数据训练的神经网络模型,通常难以生成出理想的下联;
[0006]因此,亟需设计一种新的楹联生成算法,来解决上述现有技术存在的问题。

技术实现思路

[0007]针对上述存在的问题,本专利技术旨在提供一种基于序列到序列预训练语言模型的楹
联生成算法,本算法通过将楹联应对任务建模为一个序列到序列的生成问题,将楹联的上联作为输入,并能够自递归地生成出符合楹联标准要求的下联,具有楹联生成效果好、准确性高和计算快捷的特点。
[0008]为了实现上述目的,本专利技术所采用的技术方案如下:
[0009]一种基于序列到序列预训练语言模型的楹联生成算法,包括
[0010]步骤一.首先利用Transformer神经网络建立楹联模型的模型结构及损失函数;
[0011]步骤二.利用降噪序列到序列方法对楹联模型进行预训练,提高楹联模型泛化性能;
[0012]步骤三.对预训练后的楹联模型在楹联数据集上进行序列到序列任务微调,得到楹联生成模型。
[0013]优选的,步骤一所述的Transformer神经网络包括编码器和解码器,其中所述编码器和解码器各由6层Transformer组成。
[0014]优选的,步骤一所述的初始化的楹联模型的建立过程包括步骤
[0015]S1.1在Transformer神经网络中,对输入序列X=[x1,x2,...,x
n
],生成对应序列Y=[y1,y2,...,y
m
];
[0016]S1.2根据步骤S1.1的序列转换要求,基于统计的n

gram语言模型计算输入序列X转化为对应输出序列Y的条件概率
[0017][0018]其中,P(y
i
|y1,...,y
i
‑1,X)由对应序列在训练数据集上出现的频数之比得到;
[0019]S1.3通过Transformer神经网络的双向自注意力机制对输入序列 X=[x1,x2,...,x
n
]进行编码,得到每个位置的向量表示:
[0020]H
enc
=Encoder(X)=[h1,h2,...,h
n
][0021]在解码阶段,模型自递归地自左向右逐个进行解码;
[0022]S1.4当生成第i个词时,模型将上次预测的输出作为输入,并利用注意力机制考虑全部的编码器输出及第i个词之前的解码器输出来计算第步的解码器输出,并生成出第i个词,得到:
[0023][0024][0025]其中,MLP为多层感知机;
[0026]训练阶段模型的损失函数为:
[0027][0028]其中,|V|为语言的词汇大小阈值。
[0029]优选的,步骤二所述的对楹联模型进行预训练的阶段,楹联模型需要学习如何恢复被破坏的文本片段,输入经过人为破坏的文本,输入该文本破坏前的原始文本,具体的破坏方式包括:
[0030]遮挡:随机替换原始词为[MASK];
[0031]删除:随机删除原始词,相比较于遮挡,模型必须学习到哪个位置是缺失的;
[0032]填充:取连续的原始词用[MASK]替换;
[0033]句子重排:打乱文中句子顺序;
[0034]文本旋转:随机选择一个词,旋转文本使新的文本以这个词开头。
[0035]优选的,经步骤三微调后建立的楹联生成模型为
[0036]上联作为输入序列X=[x1,x2,...,x
n
];下联作为Y=[y1,y2,...,y
m
];
[0037]其中,楹联要求上下联字数相等,即m=n;
[0038]训练的损失函数形式为:
[0039][0040]优选的,所述楹联生成算法的应用过程包括
[0041](1)通过Transformer神经网络的双向自注意力机制对输入序列 X=[x1,x2,...,x
n
]进行编码,得到每个位置的向量表示:
[0042]H
enc
=Encoder(X)=[h1,h2,...,h
n
][0043]在解码阶段,模型自递归地自左向右本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于序列到序列预训练语言模型的楹联生成算法,其特征在于:包括步骤一.首先利用Transformer神经网络建立楹联模型的模型结构及损失函数;步骤二.利用降噪序列到序列方法对楹联模型进行预训练,提高楹联模型泛化性能;步骤三.对预训练后的楹联模型在楹联数据集上进行序列到序列任务微调,得到楹联生成模型。2.根据权利要求1所述的一种基于序列到序列预训练语言模型的楹联生成算法,其特征在于:步骤一所述的Transformer神经网络包括编码器和解码器,其中所述编码器和解码器各由6层Transformer组成。3.根据权利要求2所述的一种基于序列到序列预训练语言模型的楹联生成算法,其特征在于:步骤一所述的初始化的楹联模型的建立过程包括步骤S1.1在Transformer神经网络中,对输入序列X=[x1,x2,...,x
n
],生成对应序列Y=[y1,y2,...,y
m
];S1.2根据步骤S1.1的序列转换要求,基于统计的n

gram语言模型计算输入序列X转化为对应输出序列Y的条件概率其中,P(y
i
|y1,...,y
i
‑1,X)由对应序列在训练数据集上出现的频数之比得到;S1.3通过Transformer神经网络的双向自注意力机制对输入序列X=[x1,x2,...,x
n
]进行编码,得到每个位置的向量表示:H
enc
=Encoder(X)=[h1,h2,

,h
n
]在解码阶段,模型自递归地自左向右逐个进行解码;S1.4当生成第i个词时,模型将上次预测的输出作为输入,并利用注意力机制考虑全部的编码器输出及第i个词之前的解码器输出来计算第步的解码器输出,并生成出第i个...

【专利技术属性】
技术研发人员:乔露乔超宋晓焕占琦薛茹张静于小婷贺雯静
申请(专利权)人:西北大学现代学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1