一种用于多种编辑意图的文本修订方法及装置制造方法及图纸

技术编号：38332830 阅读：39 留言：0更新日期：2023-07-29 09:15

本发明专利技术公开了一种用于多种编辑意图的文本修订方法及装置，涉及自然语言处理技术领域。包括：获取包含多种修订需求且无编辑意图的待修订的句子文本；将句子文本输入到训练好的文本修订任务模型；根据句子文本以及文本修订任务模型进行编辑意图预测，并生成满足多种修订需求的句子文本。本发明专利技术具有逻辑清晰、适配性强、准确率高、效率高的优点，妥善解决了现有技术在进行文本修订时只能进行单需求的修订、无法兼顾多种修订意图进行综合修订的问题。题。题。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于多种编辑意图的文本修订方法及装置

[0001]本专利技术涉及自然语言处理
，尤其涉及一种用于多种编辑意图的文本修订方法及装置。

技术介绍

[0002]修订是提高文本质量的重要过程，写作者以不同的编辑意图对文本进行各种编辑操作，使句子更加符合需求。编辑意图包括但不限于连贯性、一致性、简明性、风格等类别。
[0003]现有的文本修订技术一般基于深度学习，采用基于序列到序列（Seq2Seq）模型的方法，一般使用基于Transformer的生成模型进行自回归地生成。
[0004]现有的工作主要只集中在对特定编辑意图的修改上，没有考虑到在现实中的文本修订有多方面的需求。举例来说，在一篇文本中，可能存在连贯性弱、一致性差、不够简明等多方面问题，现有的方法往往只针对其中某个特定的问题进行修订，当面对多种修订意图的情况时，往往采用多个任务模型分别解决。
[0005]用多个任务模型分别解决的方式需要训练多个不同的生成模型，训练的参数量大且耗费时间长，保存模型也需要更大的存储空间，实用性相对较差。
[0006]由于现有的不同类型的修订意图数据集在数据量上存在很大的差异，一些小规模的数据集往往不足以训练整个生成模型。且多修订意图的数据欠缺，这便导致用某些修订意图数据训练的生成模型效果不理想。
[0007]现有专利（CN115906815A）公开了一种用于修改一种或多种类型错误句子的纠错方法及装置，在训练过程中需要任务向量和样例向量。
[0008]其次，现有专利（N1159068...

【技术保护点】

【技术特征摘要】
1.一种用于多种编辑意图的文本修订方法，其特征在于，所述方法包括：S1、获取包含多种修订需求且无编辑意图的待修订的句子文本；S2、将所述句子文本输入到训练好的文本修订任务模型；S3、根据所述句子文本以及文本修订任务模型进行编辑意图预测，并生成满足所述多种修订需求的句子文本。2.根据权利要求1所述的方法，其特征在于，所述S2中的文本修订任务模型的训练过程，包括：S21、获取训练数据集；其中，所述训练数据集包括带有多种编辑意图的数据集以及不带有编辑意图的数据集；其中，带有多种编辑意图的数据集中的带有任一编辑意图的数据集包括：带有任一编辑意图的待修订的句子样本数据、满足所述编辑意图的修订后的句子样本数据以及标记所述编辑意图的类别标签；不带有编辑意图的数据集包括：不带有编辑意图的待修订的句子样本数据以及修订后的句子样本数据；S22、使用所述训练数据集对所述文本修订任务模型进行训练，得到训练好的文本修订任务模型。3.根据权利要求2所述的方法，其特征在于，所述文本修订任务模型包括主干模型和模型前缀；所述S22中的对所述文本修订任务模型进行训练，包括：模型前缀调优阶段以及模型前缀迁移阶段；S221、采用所述带有多种编辑意图的数据集进行模型前缀调优；其中，每种编辑意图对应一个模型前缀，所述模型前缀为可训练的提示向量；S222、采用所述不带有编辑意图的数据集进行模型前缀迁移。4.根据权利要求3所述的方法，其特征在于，所述S221中的采用所述带有多种编辑意图的数据集进行模型前缀调优，包括：S2211、对所述带有多种编辑意图的数据集，使用未添加提示向量的预训练模型获取Key键和Value值；S2212、对于每种编辑意图，训练提示向量和，并将所述提示向量和添加于主干模型的每层注意力机制的Key键和Value值之前；S2213、添加提示向量后，得到每个注意力机制头的计算方法，如下式（1）所示：（1）其中，Attention表示多头注意力机制；Q为注意力机制中的Query查询，K为注意力机制中的Key键，V为注意力机制中的Value向量；e表示任一种编辑意图，和为提示向量。5.根据权利要求3所述的方法，其特征在于，所述S222中的采用所述不带有编辑意图的数据集进行模型前缀迁移，包括：S2221、对所述不带有编辑意图的数据集，获取Key键和Value值；S2222、用所...

【专利技术属性】
技术研发人员：杨麟儿，崇瑞宁，刘洋，常鸿翔，王梦焰，孔存良，岳岩，杨尔弘，
申请(专利权)人：北京语言大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人