文本写作风格处理方法、装置、设备及存储介质制造方法及图纸

技术编号:25836569 阅读:33 留言:0更新日期:2020-10-02 14:17
本申请提供一种文本写作风格处理方法、装置、设备及存储介质,涉及计算机技术领域。该包括:获取目标应用场景的第一写作风格的输入文本;采用预先训练的目标应用场景的写作风格迁移模型,对输入文本进行处理,得到与输入文本语义相同的第二写作风格的文本。其中,写作风格迁移模型为:采用目标应用场景的语料文本,以及预先构造的伪平行数据集进行训练得到的模型;伪平行数据集包括:多个数据对,每个数据对包括:一个第二写作风格的语料文本,以及第一写作风格的回译文本,回译文本为对第二写作风格的语料进行回译得到的文本。本方案可以有效解决文本写作风格转换领域自适应问题,提高了文本写作风格转换的准确性。

【技术实现步骤摘要】
文本写作风格处理方法、装置、设备及存储介质
本专利技术涉及计算机
,具体而言,涉及一种文本写作风格处理方法、装置、设备及存储介质。
技术介绍
文本风格迁移指的是,在不改变原文语义的情况下,改变其风格。实现文本风格的自动化转换,可以有效提高文本创作效率。现有技术中,通常采用无监督方法实现文本风格的转换,具体通过分离文本风格和内容,对文本的风格和内容分开建模,将目标风格与内容进行融合以达到控制目标文本风格转换的目的。但是,现有的方法,并未考虑场景自适应问题,从而导致文本风格转换准确性较差。
技术实现思路
本专利技术的目的在于,针对上述现有技术中的不足,提供一种文本写作风格处理方法、装置、设备及存储介质,以便于解决现有技术中存在的文本风格转换准确性较差的问题。为实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供了一种文本写作风格处理方法,包括:获取目标应用场景的第一写作风格的输入文本;采用预先训练的所述目标应用场景的写作风格迁移模型,对所述输入文本进行处理,得到与所述输入文本语义相同的第二写作风格的文本;其中,所述写作风格迁移模型为:采用所述目标应用场景的语料文本,以及预先构造的伪平行数据集进行训练得到的模型;所述伪平行数据集包括:多个数据对,每个数据对包括:一个所述第二写作风格的语料文本,以及所述第一写作风格的回译文本,所述回译文本为对所述第二写作风格的语料进行回译得到的文本。可选地,所述写作风格迁移模型为采用下述方式进行训练得到的模型:采用所述目标应用场景的语料文本进行预训练,得到自编码器;所述自编码器的参数为与所述自编码器架构相同的所述写作风格迁移模型的初始化参数;根据所述伪平行数据集对所述初始化参数进行调整,得到所述写作风格迁移模型。可选地,所述根据所述伪平行数据集对所述初始化参数进行调整,得到所述写作风格迁移模型,包括:采用所述写作风格迁移模型对所述伪平行数据集中每个第一写作风格的回译文本进行处理,得到目标写作风格的语料文本;根据所述伪平行数据集中所述每个第一写作风格的回译文本对应的语料文本,以及所述目标写作风格的语料文本,对所述初始化参数进行调整,直至收敛,得到所述写作风格迁移模型。可选地,所述伪平行数据集为采用下述方法进行构造得到的数据集:获取所述第二写作风格的语料文本集;采用至少一个翻译源,对所述语料文本集中每个语料文本进行回译,得到所述每个语料文本的至少一个候选回译文本;从所述至少一个候选回译文本中确定所述每个语料文本的目标回译文本;根据所述每个语料文本以及所述目标回译文本,得到所述伪平行数据集。可选地,所述从所述至少一个候选回译文本中确定所述每个语料文本的目标回译文本,包括:根据所述每个候选回译文本的回译质量参数,从所述至少一个候选回译文本中确定所述目标回译文本。可选地,所述根据所述每个候选回译文本的回译质量参数,从所述至少一个候选回译文本中确定所述目标回译文本,包括:采用预先训练的回译文本筛选模型,对所述至少一个候选回译文本的回译质量参数进行处理,确定所述目标回译文本;其中,所述回译文本筛选模型为采用预设的样本语料文本对应的回译质量参数以及所述样本语料文本对应的目标回译文本进行训练得到的。可选地,所述样本语料文本为所述语料文本集中的部分语料文本。可选地,所述根据所述每个候选回译文本的回译质量参数,从所述至少一个候选回译文本中确定所述目标回译文本之前,所述方法还包括:根据至少一项回译指标的得分,确定所述每个候选回译文本的回译质量参数。可选地,所述至少一项回译指标包括如下中的至少一项:语义相似度、长度比、写作风格差异度。可选地,所述伪平行数据集中,所述每个数据对中所述第二写作风格的语料文本以及所述第一写作风格的回译文本中的预设实体采用所述预设实体对应的字符表示。可选地,所述自编码器包括:编码器和解码器,所述编码器包括:依次连接的至少两个编码层;所述解码器包括依次连接的至少两个解码层,最后一个所述编码层的输出作为第一个所述解码层的输入;所述至少两个编码层、以及所述至少两个解码层的学习率按照预设规则依次递减,所述学习率用于指示对所述写作风格迁移模型的初始化参数变化的学习率。第二方面,本申请实施例还提供了一种文本写作风格处理装置,包括:获取模块、处理模块;所述获取模块,用于获取目标应用场景的第一写作风格的输入文本;所述处理模块,用于采用预先训练的所述目标应用场景的写作风格迁移模型,对所述输入文本进行处理,得到与所述输入文本语义相同的第二写作风格的文本;其中,所述写作风格迁移模型为:采用所述目标应用场景的语料文本,以及预先构造的伪平行数据集进行训练得到的模型;所述伪平行数据集包括:多个数据对,每个数据对包括:一个所述第二写作风格的语料文本,以及所述第一写作风格的回译文本,所述回译文本为对所述第二写作风格的语料进行回译得到的文本。可选地,所述装置还包括:预训练模块、调整模块;所述写作风格迁移模型为采用下述方式进行训练得到的模型:所述预训练模块,用于采用所述目标应用场景的语料文本进行预训练,得到自编码器;所述自编码器的参数为与所述自编码器架构相同的所述写作风格迁移模型的初始化参数;所述调整模块,用于根据所述伪平行数据集对所述初始化参数进行调整,得到所述写作风格迁移模型。可选地,所述调整模块,具体用于采用所述写作风格迁移模型对所述伪平行数据集中每个第一写作风格的回译文本进行处理,得到目标写作风格的语料文本;根据所述伪平行数据集中所述每个第一写作风格的回译文本对应的语料文本,以及所述目标写作风格的语料文本,对所述初始化参数进行调整,直至收敛,得到所述写作风格迁移模型。可选地,所述装置还包括:回译模块、确定模块;所述伪平行数据集为采用下述方法进行构造得到的数据集:所述获取模块,还用于获取所述第二写作风格的语料文本集;所述回译模块,用于采用至少一个翻译源,对所述语料文本集中每个语料文本进行回译,得到所述每个语料文本的至少一个候选回译文本;所述确定模块,用于从所述至少一个候选回译文本中确定所述每个语料文本的目标回译文本;根据所述每个语料文本以及所述目标回译文本,得到所述伪平行数据集。可选地,所述确定模块,具体用于根据所述每个候选回译文本的回译质量参数,从所述至少一个候选回译文本中确定回译质量参数最高的一个候选回译文本为所述目标回译文本。可选地,所述确定模块,具体用于采用预先训练的回译文本筛选模型,对所述至少一个候选回译文本的回译质量参数进行处理,确定所述目标回译文本;其中,所述回译文本筛选模型为采用预设的样本语料文本对应的回译质量参数以及所述样本语料文本对应的目标回译文本进行训练得到的。可选地,所述样本语料文本为所述语料文本集中的部分语料文本。...

【技术保护点】
1.一种文本写作风格处理方法,其特征在于,包括:/n获取目标应用场景的第一写作风格的输入文本;/n采用预先训练的所述目标应用场景的写作风格迁移模型,对所述输入文本进行处理,得到与所述输入文本语义相同的第二写作风格的文本;/n其中,所述写作风格迁移模型为:采用所述目标应用场景的语料文本,以及预先构造的伪平行数据集进行训练得到的模型;所述伪平行数据集包括:多个数据对,每个数据对包括:一个所述第二写作风格的语料文本,以及所述第一写作风格的回译文本,所述回译文本为对所述第二写作风格的语料进行回译得到的文本。/n

【技术特征摘要】
1.一种文本写作风格处理方法,其特征在于,包括:
获取目标应用场景的第一写作风格的输入文本;
采用预先训练的所述目标应用场景的写作风格迁移模型,对所述输入文本进行处理,得到与所述输入文本语义相同的第二写作风格的文本;
其中,所述写作风格迁移模型为:采用所述目标应用场景的语料文本,以及预先构造的伪平行数据集进行训练得到的模型;所述伪平行数据集包括:多个数据对,每个数据对包括:一个所述第二写作风格的语料文本,以及所述第一写作风格的回译文本,所述回译文本为对所述第二写作风格的语料进行回译得到的文本。


2.根据权利要求1所述的方法,其特征在于,所述写作风格迁移模型为采用下述方式进行训练得到的模型:
采用所述目标应用场景的语料文本进行预训练,得到自编码器;所述自编码器的参数为与所述自编码器架构相同的所述写作风格迁移模型的初始化参数;
根据所述伪平行数据集对所述初始化参数进行调整,得到所述写作风格迁移模型。


3.根据权利要求2所述的方法,其特征在于,所述根据所述伪平行数据集对所述初始化参数进行调整,得到所述写作风格迁移模型,包括:
采用所述写作风格迁移模型对所述伪平行数据集中每个第一写作风格的回译文本进行处理,得到目标写作风格的语料文本;
根据所述伪平行数据集中所述每个第一写作风格的回译文本对应的语料文本,以及所述目标写作风格的语料文本,对所述初始化参数进行调整,直至收敛,得到所述写作风格迁移模型。


4.根据权利要求1所述的方法,其特征在于,所述伪平行数据集为采用下述方法进行构造得到的数据集:
获取所述第二写作风格的语料文本集;
采用至少一个翻译源,对所述语料文本集中每个语料文本进行回译,得到所述每个语料文本的至少一个候选回译文本;
从所述至少一个候选回译文本中确定所述每个语料文本的目标回译文本;
根据所述每个语料文本以及所述目标回译文本,得到所述伪平行数据集。


5.根据权利要求4所述的方法,其特征在于,所述从所述至少一个候选回译文本中确定所述每个语料文本的目标回译文本,包括:
根据所述每个候选回译文本的回译质量参数,从所述至少一个候选回译文本中确定所述目标回译文本。


6.根据权利要求5所述的方法,其特征在于,所述根据所述每个候选回译文本的回译质量参数,从所述至少一个候选回译文本中确定所述目标回译文本,包括:
采用预先训练的回译文本筛选模型,对所述至少一个候选回译文本的回译质量参数进行处理,确定所述目标回译文本;其中,所述回译文本筛选模型为采用预设...

【专利技术属性】
技术研发人员:黄诗磊张聪毛晓曦范长杰胡志鹏
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1