本公开提供了一种文本风格转换方法及装置,该方法首先获取待转换文本,从待转换文本中识别出目标名词及其类型,然后对目标名词进行标记,将标记后的待转换文本输入训练好的文本风格转换模型,得到转换后的文本,其中,文本风格转换模型在对标记后的待转换文本进行处理时,对标记的内容进行识别,并保持识别出的标记的内容不变,使得目标名词在模型进行风格转换的过程以及输出的转换后文本中保持不变,避免了文本在风格转换时被过度改写,实现了文本可控,转换后的文本与转换前的文本相比,既实现了风格转换,又避免了语义偏差,提高了文本润色效果。本润色效果。本润色效果。
【技术实现步骤摘要】
文本风格转换方法及装置
[0001]本公开涉及语言处理
,尤其涉及文本风格转换方法及装置。
技术介绍
[0002]现有的文本风格转换技术方案,主要是基于通用的模型进行文本转换。但是,目前在通过模型进行转换文本风格转换时,模型能够适用的语言场景较少,难以满足用户需求,并且在转换时可能将原文中的一些实体词转换掉,使得句子被过度改写,从而导致转换后和转换前相比出现较大的语义偏差。
技术实现思路
[0003]为了解决上述技术问题中的至少一个,本公开提供了文本风格转换方法及装置。
[0004]本公开第一方面提出了一种文本风格转换方法,包括:获取待转换文本;从所述待转换文本中识别出目标名词及其类型;对所述目标名词进行标记;将标记后的待转换文本输入训练好的文本风格转换模型,得到转换后的文本;其中,所述文本风格转换模型在对标记后的待转换文本进行处理时,对标记的内容进行识别,并保持识别出的所述标记的内容不变。
[0005]根据本公开的一个实施方式,所述目标名词的类型包括产品名称、组织名称、地名、人名中的一项或多项。
[0006]根据本公开的一个实施方式,对所述目标名词进行标记,包括:在所述目标名词的前端和后端插入预设的标识符,其中,所述标识符之间的内容为被标记的内容。
[0007]根据本公开的一个实施方式,在对所述目标名词进行标记时,不同类型的目标名词采用不同的标识符进行标记。
[0008]根据本公开的一个实施方式,所述文本风格转换模型被配置为输出的文本中不包含所述标识符。
[0009]根据本公开的一个实施方式,所述文本风格转换模型采用经过微调后的BART模型。
[0010]根据本公开的一个实施方式,在将标记后的待转换文本输入训练好的文本风格转换模型之前,所述方法还包括:依据目标转换风格选取相应的文本风格转换模型。
[0011]根据本公开的一个实施方式,所述目标转换风格为:小说风格、影视风格或写作风格。
[0012]根据本公开的一个实施方式,在得到转换后的文本之后,所述方法还包括:获取对所述转换后的文本的语法评估结果;在所述语法评估结果表征所述转换后的文本存在语法错误时,依据所述语法评估结果从所述待转换文本中确定出原始名词;将所述原始名词作为新的目标名词添加到目标名词表中。
[0013]本公开第二方面提出了一种文本风格转换装置,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行任
一实施方式所述的文本风格转换方法。
附图说明
[0014]附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0015]图1是根据本公开的一个实施方式的文本风格转换方法的流程示意图。
[0016]图2是根据本公开的另一个实施方式的文本风格转换方法的流程示意图。
[0017]图3是根据本公开的又一个实施方式的文本风格转换方法的流程示意图。
[0018]图4是根据本公开的一个实施方式的采用处理系统的硬件实现方式的文本风格转换装置的示意图。
具体实施方式
[0019]下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
[0020]需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
[0021]除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
[0022]本文使用的术语是为了描述具体实施例的目的,而不是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
[0023]下面参考附图描述本公开的文本风格转换方法及装置。
[0024]图1是根据本公开的一个实施方式的文本风格转换方法的流程示意图。请参阅图1,本实施方式的文本风格转换方法S10可以包括以下步骤。
[0025]S100,获取待转换文本。
[0026]待转换文本可以是一个语句,例如可以是语句Y1:“刘老师最近比较忙,去出门问问出差了,他推荐我们去看《深度学习》这本书”。
[0027]S200,从待转换文本中识别出目标名词及其类型。
[0028]目标名词主要可以包括部分的实体名词。实体名词是指具有实际意义的实物类型的词,这些词有对应的物质存在。目标名词通常预置有多个,并形成有目标名词表。在识别时可以从目标名词表中依次提取目标名词,并将当前提取的目标名词作为识别对象在待转
换文本中进行识别。
[0029]示例性地,目标名词的类型可以包括产品名称、组织名称、地名、人名中的一项或多项。目标名词可以包括产品名称,产品即为实体,产品名称属于实体名词,相当于产品品牌名称。例如,产品可以是书籍、奶粉、胶卷、手机等,产品名称可以是“水浒传”、“飞鹤”、“柯达”、“三星”等。目标名词可以包括组织名称,例如A企业的简称、B组织机构的全称等等。目标名词可以包括地名,地名是人们赋予某一特定空间位置上自然或人文地理实体的专有名称,地名属于实体名词,例如,地名可以是“朝阳”、“烟台”等。目标名词还可以包括人名。
[0030]具体的,可以采用用于进行实体识别的中文工具进行目标名词的识别,例如采用LTP(Language Technology Platform,语言技术平台)中文语言处理系统,该系统提供了一系列中文自然语言处理工具,可以使用这些工具对于中文文本进行词法分析和句法分析等工作。或者可以采用HanLP系统,HanLP是一系列模型与算法组成的NLP工具包,支持中文分词、命名实体识别、词语提取、依存句法分析等功能。
[0031]本实施方式采用Jieba系统进行目标名词的识别和目标名词类型的识别。Jieba系统支持分词、词性标注、自定义词典、关键词提取等功能,可以通过自定义词典功能将目标名词加入到词典中,以及对词典进行词汇扩展,从而能够识本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本风格转换方法,其特征在于,包括:获取待转换文本;从所述待转换文本中识别出目标名词及其类型;对所述目标名词进行标记;将标记后的待转换文本输入训练好的文本风格转换模型,得到转换后的文本;其中,所述文本风格转换模型在对标记后的待转换文本进行处理时,对标记的内容进行识别,并保持识别出的所述标记的内容不变。2.根据权利要求1所述的方法,其特征在于,所述目标名词的类型包括产品名称、组织名称、地名、人名中的一项或多项。3.根据权利要求1或2所述的方法,其特征在于,对所述目标名词进行标记,包括:在所述目标名词的前端和后端插入预设的标识符,其中,所述标识符之间的内容为被标记的内容。4.根据权利要求3所述的方法,其特征在于,在对所述目标名词进行标记时,不同类型的目标名词采用不同的标识符进行标记。5.根据权利要求3所述的方法,其特征在于,所述文本风格转换模型被配置为输出的文本中不包含所述标识符。6.根据权利要求1或5所述的方法...
【专利技术属性】
技术研发人员:丁辉,丁叙,
申请(专利权)人:上海墨百意信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。