文本润色方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37293123 阅读:27 留言:0更新日期:2023-04-21 03:24
本发明专利技术公开了一种文本润色方法、装置、电子设备和存储介质,属于自然语言处理技术领域,其中,文本润色方法包括:获取待润色文本;对所述待润色文本进行编码,得到所述待润色文本对应的向量表示,并获取所述待润色文本对应的技法差异向量,基于所述待润色文本对应的向量表示和所述技法差异向量,得到所述待润色文本对应的润色文本;其中,所述技法差异向量用于控制对所述待润色文本进行技法润色的方向和程度。本发明专利技术可以对待润色文本进行多技法润色,能够自适应控制多技法润色文本生成。能够自适应控制多技法润色文本生成。能够自适应控制多技法润色文本生成。

【技术实现步骤摘要】
文本润色方法、装置、电子设备和存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本润色方法、装置、电子设备和存储介质。

技术介绍

[0002]文本润色是指在文本上添加包含修辞、描写等常用技法,从而使得润色后的文本更加优美且符合原始文本的语义。文本润色系统可以应用于智能写作助手类智能教育产品中,从而帮助学生学习和掌握常用写作技法,激发学生写作灵感,提升学生写作水平。现有的文本润色技术具有一定的局限性,不便于进行多技法润色,在进行可控文本生成时,自适应控制能力和多技法控制能力较差。

技术实现思路

[0003]本专利技术提供一种文本润色方法、装置、电子设备和存储介质,用以解决现有的文本润色技术不便于进行多技法润色,在进行可控文本生成时,自适应控制能力和多技法控制能力较差的问题。
[0004]本专利技术提供了一种文本润色方法,包括:
[0005]获取待润色文本;
[0006]对所述待润色文本进行编码,得到所述待润色文本对应的向量表示,并获取所述待润色文本对应的技法差异向量,基于所述待润色文本对应的向量表示和所述技法差异向量,得到所述待润色文本对应的润色文本;
[0007]其中,所述技法差异向量用于控制对所述待润色文本进行技法润色的方向和程度。
[0008]在一些实施例中,所述对所述待润色文本进行编码,得到所述待润色文本对应的向量表示,并获取所述待润色文本对应的技法差异向量,基于所述待润色文本对应的向量表示和所述技法差异向量,得到所述待润色文本对应的润色文本,包括:
[0009]对所述待润色文本进行编码,得到所述待润色文本对应的向量表示;
[0010]预测所述待润色文本对应的技法差异信号;
[0011]对所述待润色文本对应的技法差异信号进行编码,得到所述待润色文本对应的技法差异向量;
[0012]将所述待润色文本对应的向量表示和所述待润色文本对应的技法差异向量输入技法润色模型进行文本解码,得到所述待润色文本对应的润色文本;
[0013]其中,所述技法润色模型是基于伪平行句对和所述伪平行句对中的原句与破坏句在各个技法上的差异信号进行训练得到。
[0014]在一些实施例中,所述技法润色模型的训练过程包括:
[0015]构建技法语料库,所述技法语料库包括多个包含技法的原句;
[0016]基于所述技法语料库,构建多个伪平行句对,每一所述伪平行句对包括:一个原句
以及所述原句对应的多个时间步上的破坏句;
[0017]确定所述原句对应的各个时间步上的破坏句与所述原句在各个技法上的差异信号;
[0018]基于所述多个伪平行句对和所述差异信号训练初始技法润色模型,得到技法润色模型。
[0019]在一些实施例中,所述基于所述技法语料库,构建多个伪平行句对,包括:
[0020]对于构建所述多个伪平行句对的过程中的每一时间步,选择破坏操作的一种操作对所述技法语料库中的原句进行破坏;
[0021]经过多个时间步后,得到所述原句对应的一条破坏路径。
[0022]在一些实施例中,所述确定所述原句对应的各个时间步上的破坏句与所述原句在各个技法上的差异信号,包括:
[0023]基于技法识别器,计算所述原句对应的技法置信度,以及所述破坏路径中每一时间步上的破坏句对应的技法置信度;
[0024]基于所述原句对应的技法置信度和每一时间步上的破坏句对应的技法置信度,计算所述原句对应的各个时间步上的破坏句与所述原句在各个技法上的差异信号。
[0025]在一些实施例中,所述基于所述多个伪平行句对和所述差异信号训练初始技法润色模型,得到技法润色模型,包括:
[0026]针对每一所述伪平行句对,从所述多个时间步上的破坏句中抽取部分时间步上的破坏句,并将抽取出的破坏句输入至初始技法润色模型,获取所述初始技法润色模型输出的预测差异信号和预测向量表示;
[0027]基于所述预测差异信号和所述抽取出的破坏句对应的差异信号,计算差异预测损失,基于所述预测向量表示和所述抽取出的破坏句对应的原句的向量表示,计算文本预测损失;
[0028]基于所述差异预测损失和文本预测损失,对所述初始技法润色模型进行参数迭代,得到所述技法润色模型。
[0029]在一些实施例中,所述将抽取出的破坏句输入至初始技法润色模型,获取所述初始技法润色模型输出的预测差异信号和预测向量表示,包括:
[0030]对所述抽取出的破坏句进行编码,得到所述抽取出的破坏句对应的向量表示;
[0031]预测所述抽取出的破坏句与所述抽取出的破坏句对应的原句在各个技法上的差异信号,得到所述抽取出的破坏句对应的预测差异信号;
[0032]对所述预测差异信号进行编码,得到所述抽取出的破坏句对应的技法差异向量;
[0033]基于所述抽取出的破坏句对应的向量表示和所述抽取出的破坏句对应的技法差异向量,得到所述抽取出的破坏句对应的预测向量表示。
[0034]在一些实施例中,所述对所述预测差异信号进行编码,得到所述抽取出的破坏句对应的技法差异向量,包括:
[0035]确定每个技法标签的向量表示;
[0036]使用所述预测差异信号作为每个技法标签的向量表示的权重,对所有技法标签的向量表示进行加权求和,得到所述抽取出的破坏句对应的技法差异向量。
[0037]在一些实施例中,所述基于所述抽取出的破坏句对应的向量表示和所述抽取出的
破坏句对应的技法差异向量,得到所述抽取出的破坏句对应的预测向量表示,包括;
[0038]基于所述抽取出的破坏句对应的向量表示和所述抽取出的破坏句对应的技法差异向量,生成第一个时间步的向量表示;
[0039]对于第i个时间步,基于所述第i个时间步之前的所有时间步的向量表示,以及所述抽取出的破坏句对应的向量表示,生成所述第i个时间步的向量表示,i大于等于2;
[0040]基于当前时间步的向量表示和词表分布,确定所述抽取出的破坏句对应的预测向量表示,所述当前时间步为所述抽取出的破坏句对应的时间步。
[0041]本专利技术还提供一种文本润色装置,包括:
[0042]文本获取单元,用于获取待润色文本;
[0043]润色单元,用于对所述待润色文本进行编码,得到所述待润色文本对应的向量表示,并获取所述待润色文本对应的技法差异向量,基于所述待润色文本对应的向量表示和所述技法差异向量,得到所述待润色文本对应的润色文本;
[0044]其中,所述技法差异向量用于表征对所述待润色文本进行技法润色的方向和程度。
[0045]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的方法。
[0046]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的方法。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本润色方法,其特征在于,包括:获取待润色文本;对所述待润色文本进行编码,得到所述待润色文本对应的向量表示,并获取所述待润色文本对应的技法差异向量,基于所述待润色文本对应的向量表示和所述技法差异向量,得到所述待润色文本对应的润色文本;其中,所述技法差异向量用于控制对所述待润色文本进行技法润色的方向和程度。2.根据权利要求1所述的文本润色方法,其特征在于,所述对所述待润色文本进行编码,得到所述待润色文本对应的向量表示,并获取所述待润色文本对应的技法差异向量,基于所述待润色文本对应的向量表示和所述技法差异向量,得到所述待润色文本对应的润色文本,包括:对所述待润色文本进行编码,得到所述待润色文本对应的向量表示;预测所述待润色文本对应的技法差异信号;对所述待润色文本对应的技法差异信号进行编码,得到所述待润色文本对应的技法差异向量;将所述待润色文本对应的向量表示和所述待润色文本对应的技法差异向量输入技法润色模型进行文本解码,得到所述待润色文本对应的润色文本;其中,所述技法润色模型是基于伪平行句对和所述伪平行句对中的原句与破坏句在各个技法上的差异信号进行训练得到。3.根据权利要求2所述的文本润色方法,其特征在于,所述技法润色模型的训练过程包括:构建技法语料库,所述技法语料库包括多个包含技法的原句;基于所述技法语料库,构建多个伪平行句对,每一所述伪平行句对包括:一个原句以及所述原句对应的多个时间步上的破坏句;确定所述原句对应的各个时间步上的破坏句与所述原句在各个技法上的差异信号;基于所述多个伪平行句对和所述差异信号训练初始技法润色模型,得到技法润色模型。4.根据权利要求3所述的文本润色方法,其特征在于,所述基于所述技法语料库,构建多个伪平行句对,包括:对于构建所述多个伪平行句对的过程中的每一时间步,选择破坏操作的一种操作对所述技法语料库中的原句进行破坏;经过多个时间步后,得到所述原句对应的一条破坏路径。5.根据权利要求4所述的文本润色方法,其特征在于,所述确定所述原句对应的各个时间步上的破坏句与所述原句在各个技法上的差异信号,包括:基于技法识别器,计算所述原句对应的技法置信度,以及所述破坏路径中每一时间步上的破坏句对应的技法置信度;基于所述原句对应的技法置信度和每一时间步上的破坏句对应的技法置信度,计算所述原句对应的各个时间步上的破坏句与所述原句在各个技法上的差异信号。6.根据权利要求3

5中任一项所述的文本润色方法,其特征在于,所述基于所述多个伪平行句对和所述差异信号训练初始技法润色模型,得到技法润色模型,包括:
针对每一所述伪平行句对,从所述多个时间步上的破坏句中抽取部分时间步上的破坏句,并将抽取出的破坏句输入至初始技法润色模型,获取所述初始技法润色模型输出的预测差异信...

【专利技术属性】
技术研发人员:申资卓巩捷甫盛志超宋巍章继东王士进秦兵刘挺
申请(专利权)人:河北省讯飞人工智能研究院科大讯飞北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1