文本处理方法和装置制造方法及图纸

技术编号:37678031 阅读:19 留言:0更新日期:2023-05-26 04:44
本申请实施例公开了一种文本处理方法和装置,属于数据处理技术领域。其中,该方法包括:获取源语言文本;利用翻译模型对源语言文本进行处理,得到第一目标语言文本;基于第一目标语言文本,确定第一词语和第二词语;利用翻译模型对源语言文本、第一词语和第二词语进行处理,得到第二目标语言文本,其中,第二目标语言文本存在第一词语但不存在第二词语。因此,本申请实施例可以获取高质量的单语复述语料,解决了通过现有技术生成的单语复述语料复述多样性不足和语义漂移技术的问题。述多样性不足和语义漂移技术的问题。述多样性不足和语义漂移技术的问题。

【技术实现步骤摘要】
文本处理方法和装置


[0001]本申请涉及数据处理领域,具体而言,涉及一种文本处理方法和装置。

技术介绍

[0002]单语复述语料指的是语义一致,用词不同的单语平行语料,可用于复述判别,数据增强,复述生成等多个任务,但是目前已有的复述语料数量有限,尤其是中文复述语料,相当短缺,而且已有的复述语料质量也欠佳。
[0003]虽然单语复述语料短缺,但是网络上却存在大量用于翻译任务的双语平行语料。目前使用双语语料获取单语复述语料的通常做法是回译以及Beam Search方法,回译是指通过源语言A翻译为目标语言B,然后再通过目标语言B回译为源语言A

,从而把A与A

作为最终的复述语料;Beam Search方法是指通过解码端解码出多个句子,把这多个句子互相作为彼此的复述,从而得到复述语料。但是这样得到的结果往往有语义偏移以及多样性不足的问题。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种文本处理方法和装置,以至少解决通过现有技术生成的单语复述语料复述多样性不足和语义漂移的技术问题。
[0006]根据本申请实施例的一个方面,提供了一种文本处理方法,包括:获取源语言文本;利用翻译模型对源语言文本进行处理,得到第一目标语言文本;基于第一目标语言文本,确定第一词语和第二词语;利用翻译模型对源语言文本、第一词语和第二词语进行处理,得到第二目标语言文本,其中,第二目标语言文本存在第一词语但不存在第二词语。
[0007]可选地,基于第一目标语言文本,确定第一词语包括如下至少之一:对第一目标语言文本中的词语进行筛选,得到第一词语;获取第一目标语言文本中选中的目标词语,并获取目标词语的同义词,得到第一词语。
[0008]可选地,对第一目标语言文本中的词语进行筛选,得到第一词语包括:生成第一目标语言文本中多个词语对应的词向量,以及第一目标语言文本对应的句向量;获取句向量与每个词向量之间的余弦相似度,得到多个相似度;确定相似度大于或等于第一阈值的词语为第一词语。
[0009]可选地,基于第一目标语言文本,确定第二词语包括:生成第一目标语言文本中每个词语对应的词向量,以及第一目标语言文本对应的句向量;获取句向量与每个词向量之间的余弦相似度,得到多个相似度;确定相似度小于或等于第二阈值的词语为第二词语。
[0010]可选地,生成第一目标语言文本对应的句向量包括:对多个词语对应的词向量进行处理,得到句向量。
[0011]可选地,在利用翻译模型对源语言文本、第一词语和第二词语进行处理,得到第二目标语言文本之后,方法还包括:获取第二目标语言文本的文本数量;在文本数量未达到预
设数量的情况下,将第二目标语言文本作为第一目标语言文本,并重复执行基于第一目标语言文本,确定第一词语和第二词语,并利用翻译模型对源语言文本、第一词语和第二词语进行处理,得到第二目标语言文本的步骤,直至再次获取到的文本数量达到预设数量。
[0012]可选地,在文本数量达到预设数量的情况下,方法还包括:获取任意两个第二目标语言文本的编辑距离;在编辑距离大于预设距离的情况下,确定任意两个第二目标语言文本为目标语料。
[0013]可选地,在利用翻译模型对源语言文本进行处理的过程中,第二词语的概率为预设值。
[0014]可选地,利用翻译模型对源语言文本、第一词语和第二词语进行处理,得到第二目标语言文本包括:利用翻译模型中的编码器对源语言文本进行处理,得到源语言文本的特征向量;基于第一词语和第二词语生成控制条件;利用翻译模型中的解码器对特征向量和控制条件进行处理,得到第二目标语言文本。
[0015]根据本申请实施例的另一方面,还提供了一种文本处理装置,包括:获取模块,用于获取源语言文本;第一处理模块,用于利用翻译模型对源语言文本进行处理,得到第一目标语言文本;确定模块,用于基于第一目标语言文本,确定第一词语和第二词语;第二处理模块,用于利用翻译模型对源语言文本、第一词语和第二词语进行处理,得到第二目标语言文本,其中,第二目标语言文本存在第一词语但不存在第二词语。
[0016]根据本申请实施例的另一方面,还提供了一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述实施例中的文本处理方法。
[0017]根据本申请实施例的另一方面,还提供了一种电子设备,包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述实施例中的文本处理方法。
[0018]在本申请实施例中,采用获取源语言文本,利用翻译模型对源语言文本进行处理,得到第一目标语言文本,基于第一目标语言文本,确定第一词语和第二词语,利用翻译模型对源语言文本、第一词语和第二词语进行处理,得到第二目标语言文本,其中,第二目标语言文本存在第一词语但不存在第二词语。容易注意到的是,通过在将源语言文本翻译为目标语言文本的过程中,限制目标语言文本中必须存在和不能存在的词语,重复执行上述操作,可以得到大量语义相同的复述语料,达到了语料生成多样性的目的,从而实现了获得高质量单语复述语料的技术效果,进而解决了通过现有技术生成的单语复述语料复述多样性不足和语义漂移的技术问题。
附图说明
[0019]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0020]图1是根据本申请实施例1的一种文本处理方法的流程图;
[0021]图2是根据本申请实施例2的一种文本处理方法的流程图;
[0022]图3是根据本申请实施例3的一种文本处理方法的流程图;
[0023]图4是根据本申请实施例4的一种文本处理方法的流程图;
[0024]图5是根据本申请实施例的一种可选的翻译模型的示意图;
[0025]图6是根据本申请实施例5的一种文本处理装置的示意图;
[0026]图7是根据本申请实施例的一种电子设备的示意图。
具体实施方式
[0027]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0028]下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0029]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取源语言文本;利用翻译模型对所述源语言文本进行处理,得到第一目标语言文本;基于所述第一目标语言文本,确定第一词语和第二词语;利用所述翻译模型对所述源语言文本、所述第一词语和所述第二词语进行处理,得到第二目标语言文本,其中,所述第二目标语言文本存在所述第一词语但不存在所述第二词语。2.根据权利要求1所述的方法,其特征在于,基于所述第一目标语言文本,确定第一词语包括如下至少之一:对所述第一目标语言文本中的词语进行筛选,得到所述第一词语;获取所述第一目标语言文本中选中的目标词语,并获取所述目标词语的同义词,得到所述第一词语。3.根据权利要求2所述的方法,其特征在于,对所述第一目标语言文本中的词语进行筛选,得到所述第一词语包括:生成所述第一目标语言文本中多个词语对应的词向量,以及所述第一目标语言文本对应的句向量;获取所述句向量与每个词向量之间的余弦相似度,得到多个相似度;确定相似度大于或等于第一阈值的词语为所述第一词语。4.根据权利要求1所述的方法,其特征在于,基于所述第一目标语言文本,确定第二词语包括:生成所述第一目标语言文本中每个词语对应的词向量,以及所述第一目标语言文本对应的句向量;获取所述句向量与每个词向量之间的余弦相似度,得到多个相似度;确定相似度小于或等于第二阈值的词语为所述第二词语。5.根据权利要求3或4所述的方法,其特征在于,生成所述第一目标语言文本对应的句向量包括:对所述多个词语对应的词向量进行处理,得到所述句向量。6.根据权利要求1所述的方法,其特征在于,在利用所述翻译模型对所述源语言文本、所述第一词语和所述第二词语进行处理,得到第二目标语言文本之后,所述方法还包括:获取所述第二目标语言文本的文本数量;在所述文本数量未达到预设数量的情况下,将所述第二目标语言文本作为所述第一目标语言文本,并重复执行基于所述第一目标语言...

【专利技术属性】
技术研发人员:王鹏
申请(专利权)人:广州视源人工智能创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1