一种用于多种编辑意图的文本修订方法及装置制造方法及图纸

技术编号:38332830 阅读:39 留言:0更新日期:2023-07-29 09:15
本发明专利技术公开了一种用于多种编辑意图的文本修订方法及装置,涉及自然语言处理技术领域。包括:获取包含多种修订需求且无编辑意图的待修订的句子文本;将句子文本输入到训练好的文本修订任务模型;根据句子文本以及文本修订任务模型进行编辑意图预测,并生成满足多种修订需求的句子文本。本发明专利技术具有逻辑清晰、适配性强、准确率高、效率高的优点,妥善解决了现有技术在进行文本修订时只能进行单需求的修订、无法兼顾多种修订意图进行综合修订的问题。题。题。

【技术实现步骤摘要】
一种用于多种编辑意图的文本修订方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种用于多种编辑意图的文本修订方法及装置。

技术介绍

[0002]修订是提高文本质量的重要过程,写作者以不同的编辑意图对文本进行各种编辑操作,使句子更加符合需求。编辑意图包括但不限于连贯性、一致性、简明性、风格等类别。
[0003]现有的文本修订技术一般基于深度学习,采用基于序列到序列(Seq2Seq)模型的方法,一般使用基于Transformer的生成模型进行自回归地生成。
[0004]现有的工作主要只集中在对特定编辑意图的修改上,没有考虑到在现实中的文本修订有多方面的需求。举例来说,在一篇文本中,可能存在连贯性弱、一致性差、不够简明等多方面问题,现有的方法往往只针对其中某个特定的问题进行修订,当面对多种修订意图的情况时,往往采用多个任务模型分别解决。
[0005]用多个任务模型分别解决的方式需要训练多个不同的生成模型,训练的参数量大且耗费时间长,保存模型也需要更大的存储空间,实用性相对较差。
[0006]由于现有的不同类型的修订意图数据集在数据量上存在很大的差异,一些小规模的数据集往往不足以训练整个生成模型。且多修订意图的数据欠缺,这便导致用某些修订意图数据训练的生成模型效果不理想。
[0007]现有专利(CN115906815A)公开了一种用于修改一种或多种类型错误句子的纠错方法及装置,在训练过程中需要任务向量和样例向量。
[0008]其次,现有专利(N115906815A、CN115358217A、CN115204151A)公开了几种针对于句子文本的纠错装置,他们的输入文本都是包含某种语法错误的句子,对于不包含语法错误的句子,上述几种专利中的方法无法修改。
[0009]此外,现有专利只能对句子进行一种意图的修改。

技术实现思路

[0010]本专利技术针对现有一些小规模的数据集往往不足以训练整个生成模型。且多修订意图的数据欠缺,这便导致用某些修订意图数据训练的生成模型效果不理想的问题,提出了本专利技术。
[0011]为解决上述技术问题,本专利技术提供如下技术方案:
[0012]一方面,本专利技术提供了一种用于多种编辑意图的文本修订方法,该方法由电子设备实现,该方法包括:
[0013]S1、获取包含多种修订需求且无编辑意图的待修订的句子文本。
[0014]S2、将句子文本输入到训练好的文本修订任务模型。
[0015]S3、根据句子文本以及文本修订任务模型进行编辑意图预测,并生成满足多种修订需求的句子文本。
[0016]可选地,S2中的文本修订任务模型的训练过程,包括:
[0017]S21、获取训练数据集;其中,训练数据集包括带有多种编辑意图的数据集以及不带有编辑意图的数据集。
[0018]其中,带有多种编辑意图的数据集中的带有任一编辑意图的数据集包括:带有任一编辑意图的待修订的句子样本数据、满足编辑意图的修订后的句子样本数据以及标记编辑意图的类别标签。
[0019]不带有编辑意图的数据集包括:不带有编辑意图的待修订的句子样本数据以及修订后的句子样本数据。
[0020]S22、使用训练数据集对文本修订任务模型进行训练,得到训练好的文本修订任务模型。
[0021]可选地,文本修订任务模型包括主干模型和模型前缀。
[0022]S22中的对文本修订任务模型进行训练,包括:模型前缀调优阶段以及模型前缀迁移阶段。
[0023]S221、采用带有多种编辑意图的数据集进行模型前缀调优;其中,每种编辑意图对应一个模型前缀,模型前缀为可训练的提示向量。
[0024]S222、采用不带有编辑意图的数据集进行模型前缀迁移。
[0025]可选地,S221中的采用带有多种编辑意图的数据集进行模型前缀调优,包括:
[0026]S2211、对带有多种编辑意图的数据集,使用未添加提示向量的预训练模型获取Key键和Value值。
[0027]S2212、对于每种编辑意图,训练提示向量和,并将提示向量和添加于主干模型的每层注意力机制的Key键和Value值之前。
[0028]S2213、添加提示向量后,得到每个注意力机制头的计算方法,如下式(1)所示:
[0029](1)
[0030]其中,Attention表示多头注意力机制;Q为注意力机制中的Query查询,K为注意力机制中的Key键,V为注意力机制中的Value向量;e表示任一种编辑意图,和为提示向量。
[0031]可选地,S222中的采用不带有编辑意图的数据集进行模型前缀迁移,包括:
[0032]S2221、对不带有编辑意图的数据集,获取Key键和Value值。
[0033]S2222、用Key键和Value值对模型前缀调优阶段获得的各个模型前缀进行注意力计算,得到不带有编辑意图的数据集对应的模型前缀。
[0034]可选地,S2222中的注意力计算,如下式(2)

(5)所示:
[0035](2)
[0036](3)
[0037](4)
[0038](5)
[0039]其中,H为一个全连接层,SiLU为激活函数,W为在训练过程中更新的转移矩阵,T为注意力机制中的温度系数,K为注意力机制中的键Key,将K做最大池化操作之后得到,LayerNorm为一个归一化层,e表示任一种编辑意图,为提示向量,E为包含多种编辑意图的集合,为当前任务的键对应的模型前缀,为提示向量。
[0040]可选地,S2中的文本修订任务模型的主干模型为天马模型PEGASUS或基于自回归和自编码的预训练模型BART。
[0041]可选地,S3中的根据句子文本以及文本修订任务模型进行编辑意图预测,并生成满足多种修订需求的句子文本,包括:
[0042]S31、根据句子文本以及文本修订任务模型进行编辑意图预测,根据预测得到的编辑意图计算不同模型前缀的权重,并将计算好的模型前缀配置于文本修订任务模型的主干模型,构成推理模型。
[0043]S32、根据句子文本以及推理模型,生成满足多种修订需求的句子文本。
[0044]另一方面,本专利技术提供了一种用于多种编辑意图的文本修订装置,该装置应用于实现用于多种编辑意图的文本修订方法,该装置包括:
[0045]获取模块,用于获取包含多种修订需求且无编辑意图的待修订的句子文本。
[0046]输入模块,用于将句子文本输入到训练好的文本修订任务模型。
[0047]输出模块,用于根据句子文本以及文本修订任务模型进行编辑意图预测,并生成满足多种修订需求的句子文本。
[0048]可选地,输入模块,进一步用于:
[0049]S21、获取训练数据集;其中,训练数据集包括带有多种编辑意图的数据集以及不带有编辑意图的数据集。
[0050]其中,带有多种编辑意图的数据集中的带本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于多种编辑意图的文本修订方法,其特征在于,所述方法包括:S1、获取包含多种修订需求且无编辑意图的待修订的句子文本;S2、将所述句子文本输入到训练好的文本修订任务模型;S3、根据所述句子文本以及文本修订任务模型进行编辑意图预测,并生成满足所述多种修订需求的句子文本。2.根据权利要求1所述的方法,其特征在于,所述S2中的文本修订任务模型的训练过程,包括:S21、获取训练数据集;其中,所述训练数据集包括带有多种编辑意图的数据集以及不带有编辑意图的数据集;其中,带有多种编辑意图的数据集中的带有任一编辑意图的数据集包括:带有任一编辑意图的待修订的句子样本数据、满足所述编辑意图的修订后的句子样本数据以及标记所述编辑意图的类别标签;不带有编辑意图的数据集包括:不带有编辑意图的待修订的句子样本数据以及修订后的句子样本数据;S22、使用所述训练数据集对所述文本修订任务模型进行训练,得到训练好的文本修订任务模型。3.根据权利要求2所述的方法,其特征在于,所述文本修订任务模型包括主干模型和模型前缀;所述S22中的对所述文本修订任务模型进行训练,包括:模型前缀调优阶段以及模型前缀迁移阶段;S221、采用所述带有多种编辑意图的数据集进行模型前缀调优;其中,每种编辑意图对应一个模型前缀,所述模型前缀为可训练的提示向量;S222、采用所述不带有编辑意图的数据集进行模型前缀迁移。4.根据权利要求3所述的方法,其特征在于,所述S221中的采用所述带有多种编辑意图的数据集进行模型前缀调优,包括:S2211、对所述带有多种编辑意图的数据集,使用未添加提示向量的预训练模型获取Key键和Value值;S2212、对于每种编辑意图,训练提示向量和,并将所述提示向量和添加于主干模型的每层注意力机制的Key键和Value值之前;S2213、添加提示向量后,得到每个注意力机制头的计算方法,如下式(1)所示:(1)其中,Attention表示多头注意力机制;Q为注意力机制中的Query查询,K为注意力机制中的Key键,V为注意力机制中的Value向量;e表示任一种编辑意图,和为提示向量。5.根据权利要求3所述的方法,其特征在于,所述S222中的采用所述不带有编辑意图的数据集进行模型前缀迁移,包括:S2221、对所述不带有编辑意图的数据集,获取Key键和Value值;S2222、用所...

【专利技术属性】
技术研发人员:杨麟儿崇瑞宁刘洋常鸿翔王梦焰孔存良岳岩杨尔弘
申请(专利权)人:北京语言大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1