文本写作风格处理方法、装置、设备及存储介质制造方法及图纸

技术编号：25836569 阅读：33 留言：0更新日期：2020-10-02 14:17

本申请提供一种文本写作风格处理方法、装置、设备及存储介质，涉及计算机技术领域。该包括：获取目标应用场景的第一写作风格的输入文本；采用预先训练的目标应用场景的写作风格迁移模型，对输入文本进行处理，得到与输入文本语义相同的第二写作风格的文本。其中，写作风格迁移模型为：采用目标应用场景的语料文本，以及预先构造的伪平行数据集进行训练得到的模型；伪平行数据集包括：多个数据对，每个数据对包括：一个第二写作风格的语料文本，以及第一写作风格的回译文本，回译文本为对第二写作风格的语料进行回译得到的文本。本方案可以有效解决文本写作风格转换领域自适应问题，提高了文本写作风格转换的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本写作风格处理方法、装置、设备及存储介质
本专利技术涉及计算机
，具体而言，涉及一种文本写作风格处理方法、装置、设备及存储介质。
技术介绍
文本风格迁移指的是，在不改变原文语义的情况下，改变其风格。实现文本风格的自动化转换，可以有效提高文本创作效率。现有技术中，通常采用无监督方法实现文本风格的转换，具体通过分离文本风格和内容，对文本的风格和内容分开建模，将目标风格与内容进行融合以达到控制目标文本风格转换的目的。但是，现有的方法，并未考虑场景自适应问题，从而导致文本风格转换准确性较差。
技术实现思路
本专利技术的目的在于，针对上述现有技术中的不足，提供一种文本写作风格处理方法、装置、设备及存储介质，以便于解决现有技术中存在的文本风格转换准确性较差的问题。为实现上述目的，本申请实施例采用的技术方案如下：第一方面，本申请实施例提供了一种文本写作风格处理方法，包括：获取目标应用场景的第一写作风格的输入文本；采用预先训练的所述目标应用场景的写作风格迁移模型，对所述输入文本进行处理，得到与所述输入文本语义相同的第二写作风格的文本；其中，所述写作风格迁移模型为：采用所述目标应用场景的语料文本，以及预先构造的伪平行数据集进行训练得到的模型；所述伪平行数据集包括：多个数据对，每个数据对包括：一个所述第二写作风格的语料文本，以及所述第一写作风格的回译文本，所述回译文本为对所述第二写作风格的语料进行回译得到的文本。可选地，所述写作风格迁移模

【技术保护点】
1.一种文本写作风格处理方法，其特征在于，包括：/n获取目标应用场景的第一写作风格的输入文本；/n采用预先训练的所述目标应用场景的写作风格迁移模型，对所述输入文本进行处理，得到与所述输入文本语义相同的第二写作风格的文本；/n其中，所述写作风格迁移模型为：采用所述目标应用场景的语料文本，以及预先构造的伪平行数据集进行训练得到的模型；所述伪平行数据集包括：多个数据对，每个数据对包括：一个所述第二写作风格的语料文本，以及所述第一写作风格的回译文本，所述回译文本为对所述第二写作风格的语料进行回译得到的文本。/n

【技术特征摘要】
1.一种文本写作风格处理方法，其特征在于，包括：
获取目标应用场景的第一写作风格的输入文本；
采用预先训练的所述目标应用场景的写作风格迁移模型，对所述输入文本进行处理，得到与所述输入文本语义相同的第二写作风格的文本；
其中，所述写作风格迁移模型为：采用所述目标应用场景的语料文本，以及预先构造的伪平行数据集进行训练得到的模型；所述伪平行数据集包括：多个数据对，每个数据对包括：一个所述第二写作风格的语料文本，以及所述第一写作风格的回译文本，所述回译文本为对所述第二写作风格的语料进行回译得到的文本。

2.根据权利要求1所述的方法，其特征在于，所述写作风格迁移模型为采用下述方式进行训练得到的模型：
采用所述目标应用场景的语料文本进行预训练，得到自编码器；所述自编码器的参数为与所述自编码器架构相同的所述写作风格迁移模型的初始化参数；
根据所述伪平行数据集对所述初始化参数进行调整，得到所述写作风格迁移模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述伪平行数据集对所述初始化参数进行调整，得到所述写作风格迁移模型，包括：
采用所述写作风格迁移模型对所述伪平行数据集中每个第一写作风格的回译文本进行处理，得到目标写作风格的语料文本；
根据所述伪平行数据集中所述每个第一写作风格的回译文本对应的语料文本，以及所述目标写作风格的语料文本，对所述初始化参数进行调整，直至收敛，得到所述写作风格迁移模型。

4.根据权利要求1所述的方法，其特征在于，所述伪平行数据集为采用下述方法进行构造得到的数据集：
获取所述第二写作风格的语料文本集；
采用至少一个翻译源，对所述语料文本集中每个语料文本进行回译，得到所述每个语料文本的至少一个候选回译文本；
从所述至少一个候选回译文本中确定所述每个语料文本的目标回译文本；
根据所述每个语料文本以及所述目标回译文本，得到所述伪平行数据集。

5.根据权利要求4所述的方法，其特征在于，所述从所述至少一个候选回译文本中确定所述每个语料文本的目标回译文本，包括：
根据所述每个候选回译文本的回译质量参数，从所述至少一个候选回译文本中确定所述目标回译文本。

6.根据权利要求5所述的方法，其特征在于，所述根据所述每个候选回译文本的回译质量参数，从所述至少一个候选回译文本中确定所述目标回译文本，包括：
采用预先训练的回译文本筛选模型，对所述至少一个候选回译文本的回译质量参数进行处理，确定所述目标回译文本；其中，所述回译文本筛选模型为采用预设...

【专利技术属性】
技术研发人员：黄诗磊，张聪，毛晓曦，范长杰，胡志鹏，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人