一种基于文本语义理解的定向文本润色方法技术

技术编号:39843800 阅读:7 留言:0更新日期:2023-12-29 16:34
本发明专利技术旨在提供一种步骤简单

【技术实现步骤摘要】
一种基于文本语义理解的定向文本润色方法


[0001]本专利技术涉及人工智能

大数据

自然语言处理
、AIGC、
信息抽取领域,尤其涉及一种基于文本语义理解的定向文本润色方法


技术介绍

[0002]文本润色指的是对一段文本,在不改变其原意的情况下,调整其表达方式,使其在阅读起来更通顺

更高级且更有技巧

现有的自动文本润色技术多是采用规则匹配的方式对句子中的字或词汇进行替换

例如,可以预设规则:“负责
”→“
主导”,则机器会将一段话中全部的词汇“负责”替换为“主导”。
另一种现有的文本润色技术是直接将目标润色句投入大语言模型中,让语言模型自行理解
,
并进行最终生成

[0003]但词槽替换方式的文本优化,存在以下几点缺陷:
1.
词槽配置麻烦,词汇量太多,且各个词汇之间又多是多对多关系,配置需求量成指数级上升
。2.
直接进行词槽替换,存在导致句子混淆度骤升的潜在影响
。3.
灵活性低,只能进行词汇的替换,不能对句型进行替换
。4.
缺乏兼容性,有些时候文本中会包含错别字,这些错别字会导致先前配备的规则失效

[0004]而直接使用语言模型的润色方式,其最主要的缺点就是其内容的不可控性

语言模型生成的句子,在句子表达上通常符合“更通顺

更高级且更有技巧”这三条要求,但是在语义层面上却往往会出现与原句相背离的现象

其二,数据集难以获取

标准的有监督式的语言模型训练过程需要润色前和其润色后的文本语料及润色映射关系

而制作这部分数据的人工成本相当高


技术实现思路

[0005]本专利技术所要解决的技术问题是克服现有技术的不足,提供一种步骤简单

成本低

兼容性强且润色效果好的基于文本语义理解的定向文本润色方法

[0006]本专利技术所采用的技术方案是,本专利技术方法包括以下步骤:
a. 信息抽取:利用
BERT
类编码模型对目标句进行编码处理,输出其中蕴藏的信息数据;
b. 信息调整:上述步骤
a
输出的结果若存在信息缺失的情况,或者存在信息补充

信息删减的诉求,进行人工可侵入的信息量调整;
c. 定向生成:将步骤
b
的经过人为调整过后的信息数据及目标句原句一起投喂至语言模型中,由语言模型生成最后的润色的结果

[0007]上述方案可见,通过上述步骤,目标句子在进入语言模型之前先进行了信息的抽取,通过控制信息量的方式控制了语言模型的输出,同时还提供了人为友好的信息补充

删减方式,使得模型可对目标句基于语义层面的扩写

缩写式润色;所以,本专利技术方法步骤简单

成本低且润色效果好,另外,利用本专利技术方法能够实现不同的目标句子润色,其容错率高,兼容性强

[0008]进一步地,所述步骤
c
中的语言模型为
GPT
系列的语言模型

附图说明
[0009]图1是本专利技术方法的步骤流程图

具体实施方式
[0010]如图1所示,本专利技术方法包括以下步骤:
a. 信息抽取:利用
BERT
类编码模型对目标句进行编码处理,输出其中蕴藏的信息数据;
b. 信息调整:上述步骤
a
输出的结果若存在信息缺失的情况,或者存在信息补充

信息删减的诉求,进行人工可侵入的信息量调整;
c. 定向生成:将步骤
b
的经过人为调整过后的信息数据及目标句原句一起投喂至语言模型中,由语言模型生成最后的润色的结果;在该步骤中,述及的语言模型为
GPT
系列的语言模型

[0011]本专利技术通过上述步骤,目标句子在进入语言模型之前先进行了信息的抽取,通过控制信息量的方式控制了语言模型的输出,同时还提供了人为友好的信息补充

删减方式,使得模型可对目标句基于语义层面的扩写

缩写式润色

故本专利技术借用自然语言处理技术

信息抽取

以及大语言模型的能力实现了对于目标文本的可控文本润色能力

[0012]最后需要强调的是,以上所述仅为本专利技术的优选实施例,并不用于限制本专利技术,对于本领域的技术人员来说,本专利技术可以有各种变化和更改,凡在本专利技术的精神和原则之内,所做的任何修改

等同替换

改进等,均应包含在本专利技术的保护范围之内

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于文本语义理解的定向文本润色方法,其特征在于,该方法包括以下步骤:
a. 信息抽取:利用
BERT
类编码模型对目标句进行编码处理,输出其中蕴藏的信息数据;
b. 信息调整:上述步骤
a
输出的结果若存在信息缺失的情况,或者存在信息补充

信息删减的诉求,进行人工可侵入的信息量...

【专利技术属性】
技术研发人员:陈润天周泽安钟成
申请(专利权)人:珠海必优科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1