一种可控性生成式的作文润色方法技术

技术编号:32828466 阅读:15 留言:0更新日期:2022-03-26 20:35
本发明专利技术公开了一种可控性生成式的作文润色方法。利用了多维度指标的作文评价模型,针对性找出文章的缺陷并给出解决方案,减少了直接生成完整作文的次数,从而降低自然语言生成的不可控性带来问题的概率。采用了融合规划的自然语言生成模型,进一步控制了自然语言生成得到内容。相较于传统计算机辅助写作技术,生成式方法修改后的文本在符合语言习惯的同时不失自然语言表达的多样性,给予写作人开拓思路的帮助。路的帮助。路的帮助。

【技术实现步骤摘要】
一种可控性生成式的作文润色方法


[0001]本专利技术涉及计算机辅助应用
,尤其涉及一种可控性生成式的作文润色方法。

技术介绍

[0002]自然语言生成,是在特定的交互目标下,从给定输入信息生成人类可读的语言文本的自动化过程。自然语言生成经历了由传统的模块化生成框架到现在主流的端到端的自然语言生成框架的发展变迁。自然语言生成在写作创作领域有着诸多运用,如诗歌创作、对对联、小说续写,辅助写作等。
[0003]自然语言生成方面的辅助写作方法,大多为依靠主题、关键词,直接生成一篇完整作文以供参考,有着可控性差,易生成无关内容、重复内容等缺点;而传统的计算机辅助写作方法,仅仅提供字、词等建议,形式单一化,提供的帮助有限。

技术实现思路

[0004]有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是提供一种可控性生成式的作文润色方法,用以辅助写作,融合了规划以解决自然语言生成可控性差的缺点,而生成式的方法具备多样性的特点解决了传统方法形式单一化的问题,提供了更具多样性,语言形式丰富多彩的写作思路。
[0005]为实现上述目的,本专利技术提供了一种可控性生成式的作文润色方法,包括以下步骤:
[0006]步骤1、作文修改开始,输入一篇准备修改的记叙文;
[0007]步骤2、作文评价模型计算作文总分及各项指标得分,即将记叙文输入至作文评价模型计算分数,所述作文评价模型是线性模型;
[0008]步骤3、判断作文总分是否大于阈值X,阈值X设为作文评价模型训练阶段使用数据集的评分最大值,若为是则返回原作文,算法终止,否则直接跳至下一步;
[0009]步骤4、判断作文总分是否低于阈值Y,阈值Y设为阈值X的10%,若为是则由基于文章骨架的生成模型,以原作文作为约束条件,生成一篇作文,且返回新作文后,算法终止,否则直接跳至下一步;
[0010]步骤5、判断属于篇章结构的指标得分是否低于阈值Z,阈值Z设为属于篇章结构的指标得分最大值的10%,若为是则由融合数据组合与排序规划的作文生成模型对作文进行重新规划生成记述文,返回生成的作文并终止算法,否则直接跳至下一步;
[0011]步骤6、判断属于情感主题的指标得分是否低于阈值A,阈值A设为属于篇章结构的指标得分最大值的10%,若为是则由句子分类模型提取待修改句子集合后,由基于循环神经网络LSTM的序列到序列模型生成情感表达丰富的句子集合,并一一替换原句子,否则直接跳至下一步;
[0012]步骤7、同步骤6,判断属于语言表达的指标得分是否低于设定阈值,若为是则按同
样的方法,生成运用多种修辞手法语言表达丰富的句子并一一替换原句子,否则直接跳至下一步;
[0013]步骤8、将作文输入基于Transformers的病句修改模型,修正语义、语法上的错误;
[0014]步骤9、结束,终止算法,返回经过修改的作文。
[0015]进一步的,所述步骤1的作文评价模型在训练阶段和应用阶段的步骤分别为:
[0016]在训练阶段:
[0017]步骤1

1:对包含人工评分的作文语料集作预处理,每篇作文按评分指标提取出特征向量x=(x1,x2,...,x
n
),对应这篇作文的人工评分y;
[0018]步骤1

2:将处理后的数据代入线性模型f(x;w)=w
T
x;
[0019]步骤1

3:利用梯度下降法来估计参数,先初始化w=0,然后通过下面公式进行迭代:
[0020]w

w+αX(y

X
T
ω)
[0021]在应用阶段:
[0022]步骤1

4:对输入的一篇作文进行与训练阶段同样的数据预处理,得到特征向量X=(x1,x2,...,x
n
);
[0023]步骤1

5:将详细评分指标总体分为情感主题、语言表达、篇章结构三个大项,同样利用线性模型f(x)=w
T
x,可以得到每项指标的得分;
[0024]步骤1

6:利用训练阶段求得的参数W=(w1,w2...,w
n
)分别计算作文总分及各项指标得分。
[0025]进一步的,所述步骤4基于文章骨架的生成模型的具体模型训练算法步骤如下:
[0026]步骤4

1:随机初始化序列生成模型G
φ
以及骨架抽取模型E
γ
的权重参数φ,γ,其中,G
φ
包含输入到骨架模块Q
α
和骨架到句子模块D
θ
;Q
α
、D
θ
均为序列到序列模型,其编码器和解码器均为带注意力机制的单层的LSTM循环神经网络结构;
[0027]步骤4

2:在句子压缩任务上预训练E
γ
,输入原始语料x及其压缩语料s={s1,...,s
i
,...,s
T
},采用交叉熵损失函数训练,如式(1)所示:
[0028][0029]步骤4

3:E
γ
生成一个句子的骨架s
j

[0030]步骤4

4:给定s
j
,计算G
φ
的损失函数,其中,输入约束c及骨架s={s1,...,s
i
,...,s
T
},Q
α
采用的交叉熵损失函数如式(2)所示:
[0031][0032]输入骨架s及句子y={y1,...,y
i
,...,y
M
},D
θ
采用的交叉熵损失函数如式(3)所示:
[0033][0034]步骤4

5:计算奖励函数R
c
,其中,E
γ
通过REINFORCE方法计算R
c
来优化参数,R
c
用式子(4)表示:
[0035][0036]步骤4

6:计算E
γ
的梯度函数,如式(5)所示:
[0037][0038]步骤4

7:更新模型参数γ,迭代时如果满足,停止条件则停止该算法;否则,返回到步骤3。
[0039]进一步的,所述步骤5作文生成模型对作文进行重新规划生成记述文的步骤为:
[0040]步骤5

1:记叙文输入;
[0041]步骤5

2:基于知识图谱理论抽取输入数据的信息,由数据编码器编码形成抽象数据集合
[0042]步骤5

3:规划过程开始,规划解码器对数据进行组合与排序,分别为文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可控性生成式的作文润色方法,其特征在于,包括以下步骤:步骤1、作文修改开始,输入一篇准备修改的记叙文;步骤2、作文评价模型计算作文总分及各项指标得分,即将记叙文输入至作文评价模型计算分数,所述作文评价模型是线性模型;步骤3、判断作文总分是否大于阈值X,阈值X设为作文评价模型训练阶段使用数据集的评分最大值,若为是则返回原作文,算法终止,否则直接跳至下一步;步骤4、判断作文总分是否低于阈值Y,阈值Y设为阈值X的10%,若为是则由基于文章骨架的生成模型,以原作文作为约束条件,生成一篇作文,且返回新作文后,算法终止,否则直接跳至下一步;步骤5、判断属于篇章结构的指标得分是否低于阈值Z,阈值Z设为属于篇章结构的指标得分最大值的10%,若为是则由融合数据组合与排序规划的作文生成模型对作文进行重新规划生成记述文,返回生成的作文并终止算法,否则直接跳至下一步;步骤6、判断属于情感主题的指标得分是否低于阈值A,阈值A设为属于篇章结构的指标得分最大值的10%,若为是则由句子分类模型提取待修改句子集合后,由基于循环神经网络LSTM的序列到序列模型生成情感表达丰富的句子集合,并一一替换原句子,否则直接跳至下一步;步骤7、同步骤6,判断属于语言表达的指标得分是否低于设定阈值,若为是则按同样的方法,生成运用多种修辞手法语言表达丰富的句子并一一替换原句子,否则直接跳至下一步;步骤8、将作文输入基于Transformers的病句修改模型,修正语义、语法上的错误;步骤9、结束,终止算法,返回经过修改的作文。2.如权利要求1所述的一种可控性生成式的作文润色方法,其特征在于:所述步骤1的作文评价模型在训练阶段和应用阶段的步骤分别为:在训练阶段:步骤1

1:对包含人工评分的作文语料集作预处理,每篇作文按评分指标提取出特征向量X=(x1,x2,...,x
n
),对应这篇作文的人工评分y;步骤1

2:将处理后的数据代入线性模型f(x;w)=w
T
x;步骤1

3:利用梯度下降法来估计参数,先初始化w=0,然后通过下面公式进行迭代:w

w+αX(y

X
T
w)在应用阶段:步骤1

4:对输入的一篇作文进行与训练阶段同样的数据预处理,得到特征向量X=(x1,x2,...,x
n
);步骤1

5:将详细评分指标总体分为情感主题、语言表达、篇章结构三个大项,同样利用线性模型f(x)=w
T
x,可以得到每项指标的得分;步骤1

6:利用训练阶段求得的参数W=(w1,w2,...,w
n
)分别计算作文总分及各项指标得分。3.如权利要求1所述的一种可控性生成式的作文润色方法,其特征在于:所述步骤4基于文章骨架的生成模型的具体模型训练算法步骤如下:步骤4

1:随机初始化序列生成模型G
φ
以及骨架抽取模型E
γ
的权重参数φ,γ,其中,G
φ
包含输入到骨架模块Q
α
和骨架到句子模块D
θ
;Q
α
、D
θ
均为序列到序列模型,其编码器和解码器均为带注意力机制的单层的LSTM循环神经网络结构;步骤4

2:在句子压缩任务上预训练E
γ
,输入原始语料x及其压缩语料s={s1,...,s
i
,...,s
T
},采用交叉熵损失函数训练,如式(1)所示:步骤4

3:E
γ
生成一个句子的骨架s
j
;步骤4

4:给定s
j
,计算G
φ
的损失函数,其中,输入约束c及骨架s={s1,...,s
i
,...,s
T
},Q
α
采用...

【专利技术属性】
技术研发人员:罗彦卓麦永钦林超纯张秀屏黎旭民董祖兰陈栩杰蓝文辉张博
申请(专利权)人:黑盒科技广州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1