文本转换的预处理方法和装置、存储介质及电子设备制造方法及图纸

技术编号：41231082 阅读：6 留言：0更新日期：2024-05-09 23:47

本申请公开了一种文本转换的预处理方法和装置、存储介质及电子设备。其中，该方法包括：从目标应用的应用数据中获取初始样本文本集合；从初始样本文本集合中确定出不满足符号配置条件的第一组样本文本；从初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本；从初始样本文本集合中剔除第一组样本文本和第二组样本文本中的第一子组样本文本，得到第三组样本文本；将第三组样本文本确定为正样本集，并将第一组样本文本和第一子组样本文本确定为负样本集；利用正样本集和负样本集进行训练，得到文本转换模型。本申请解决了相关技术中在文本转换的预处理过程中出现的准确率较低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机领域，具体而言，涉及一种文本转换的预处理方法和装置、存储介质及电子设备。

技术介绍

1、在对目标应用的应用数据进行文本内容的转换过程中，通常会利用一些完成训练的机器模型来辅助快速完成转换。例如，以翻译为例，机器机器翻译模型会将源语种的数据直接转化为其他语种的数据，例如，将在不同国家发布的目标应用中的配置数据或者交互数据，从中文翻译成对应国家的官方使用语言。

2、仍以翻译为例，为了提升机器机器翻译模型的性能，通常会从翻译配置表中提取出应用运行过程中生成的历史翻译数据，并利用历史翻译数据对机器机器翻译模型进行训练，通过在训练过程中对机器机器翻译模型的结构参数进行不断调整，以提高机器机器翻译模型的准确性。

3、然而，由于机器机器翻译模型自身性能的局限性，历史翻译数据中可能会存在诸如译文与原文含义不一致、异常符号等情况，也即输入机器机器翻译模型的训练样本数据中掺杂了大量脏数据。在输入模型的训练样本数据不准确的情况下，使得迭代训练所输出的翻译结果的准确性也随之降低。换言之，相关技术所提供的文本转换的预处理方法存在处理准确率较低的技术问题。

4、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种文本转换的预处理方法和装置、存储介质及电子设备，以至少解决在文本转换的预处理过程中出现的准确率较低的技术问题。

2、根据本申请实施例的一个方面，提供了一种文本转换的预处理方法，包括：从目标应用的应用数据中

3、可选地，上述从初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本，包括：将初始样本文本集合中的源样本文本划分为f对源样本文本，其中，f为大于或等于2的正整数；确定每对源样本文本中的两个源样本文本之间的文本相似度，得到f个文本相似度，其中，文本相似度包括f对源样本文本中的每对源样本文本之间的文本相似度，f为大于或等于1的正整数；从f个文本相似度中确定出文本相似度大于预设阈值的m对源样本文本，其中，m为大于或等于1、且小于或等于f的正整数；根据m对源样本文本，确定第一子组样本文本；将m对源样本文本中除第一子组样本文本之外的剩余样本文本确定为第二子组样本文本。

4、可选地，上述确定每对源样本文本中的两个源样本文本之间的文本相似度，得到f个文本相似度，包括：通过以下步骤确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的第k个文本相似度，其中，k为大于或等于1、且小于或等于f的正整数：根据第一源样本文本，确定第一词语序列，其中，第一词语序列中的第s个词语与前一个相邻词语中的最后一个字符相同，第一词语序列包括字符数量均为n的q个词语，n为大于或等于预设值的正整数，s为大于或等于2、且小于或等于q的正整数；根据第二源样本文本，确定第二词语序列，其中，第二词语序列中的第t个词语与前一个相邻词语中的最后一个字符相同，第二词语序列包括字符数量均为n的r个词语，q、r为大于或等于2的正整数，t为大于或等于2、且小于或等于r的正整数；根据第一词语序列和第二词语序列，确定第k个文本相似度，其中，f个文本相似度包括第k个文本相似度。

5、可选地，上述根据第一词语序列和第二词语序列，确定第k个文本相似度，包括：根据第一词语序列和第二词语序列，确定目标词语序列，其中，目标词语序列是对第一词语序列和第二词语序列中的词语进行去重后再拼接得到的词语序列，目标词语序列包括w个词语，w为大于或等于2、且小于或等于目标词语数量之和的正整数，目标词语数量之和是第一词语序列的词语数量与第二词语序列的词语数量的和；根据第一词语序列和目标词语序列，确定第一词频向量，其中，第一词频向量中的元素用于表示第一词语序列中的词语是否出现在目标词语序列中；根据第二词语序列和目标词语序列，确定第二词频向量，其中，第二词频向量中的元素用于表示第二词语序列中的词语是否出现在目标词语序列中；根据第一词频向量和第二词频向量，确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的第k个文本相似度。

6、可选地，上述根据第一词语序列和目标词语序列，确定第一词频向量，包括：在w个词语中包括第一词语序列中的第一部分词语的情况下，将目标词语序列中与第一部分词语对应的位置上置1，得到维度为1×w的第一词频向量。

7、可选地，上述根据第二词语序列和目标词语序列，确定第二词频向量，包括：在w个词语中包括第二词语序列中的第二部分词语的情况下，将目标词语序列中与第二部分词语对应的位置上置1，得到维度为1×w的第二词频向量。

8、可选地，上述根据第一词频向量和第二词频向量，确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的第k个文本相似度，包括：确定第一词频向量和第二词频向量之间的余弦相似度，并将余弦相似度确定为第k个文本相似度。

9、可选地，上述从初始样本文本集合中确定出不满足符号配置条件的第一组样本文本，包括：从初始样本文本集合中查找包含异常字符的样本文本，得到第一类样本文本，其中，初始样本文本集合包括第一类样本文本，第一类样本文本中的每对文本包括源语种的源样本文本和目标语种的目标样本文本；从初始样本文本集合中查找样本文本的语种是除源语种和目标语种之外的语种的第二类样本文本，其中，初始样本文本集合包括第二类样本文本，第二类样本文本中的每对文本包括源语种的源样本文本和目标语种的目标样本文本；从初始样本文本集合中查找文本内容为空值的第三类样本文本，其中，第一组样本文本包括第一类样本文本、第二类样本文本和第三类样本文本；其中，符号配置条件包括以下至少之一：样本文本中未出现异常符号、样本文本的语种包括源语种和目标语种、样本文本的文本内容不包含空值。

10、可选地，在利用正样本集和负样本集进行训练，得到用于将源语种的源样本文本转换为目标语种的目标样本文本的文本转换模型之前，上述方法还包括：通过将正样本集和负本文档来自技高网...

【技术保护点】

1.一种文本转换的预处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定每对源样本文本中的两个源样本文本之间的所述文本相似度，得到F个文本相似度，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一词语序列和所述第二词语序列，确定所述第k个文本相似度，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一词语序列和所述目标词语序列，确定第一词频向量，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述第二词语序列和所述目标词语序列，确定第二词频向量，包括：

7.根据权利要求4所述的方法，其特征在于，所述根据所述第一词频向量和所述第二词频向量，确定第k对源样本文本中的第一源样本文本和第二源样本文本之间的所述第k个文本相似度，包括：

8.根据权利要求1所述的方法，其特征在于，所述从所述初始样本文本集合中确定出不满足符

9.根据权利要求1至8中任一项所述的方法，其特征在于，在所述利用所述正样本集和所述负样本集进行训练，得到用于将所述源语种的源样本文本转换为所述目标语种的目标样本文本的文本转换模型之前，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述通过将所述正样本集和所述负样本集输入预处理模型，得到目标预处理模型，包括：

11.根据权利要求1至8中任一项所述的方法，其特征在于，所述从目标应用的应用数据中获取初始样本文本集合，包括：

12.一种文本转换的预处理装置，其特征在于，包括：

13.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序可被终端设备或计算机运行时执行所述权利要求1至11任一项中所述的方法。

14.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至11任一项中所述方法的步骤。

15.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。

...

【技术特征摘要】

1.一种文本转换的预处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述初始样本文本集合中确定出文本相似度大于预设阈值的第二组样本文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定每对源样本文本中的两个源样本文本之间的所述文本相似度，得到f个文本相似度，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一词语序列和所述第二词语序列，确定所述第k个文本相似度，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一词语序列和所述目标词语序列，确定第一词频向量，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述第二词语序列和所述目标词语序列，确定第二词频向量，包括：

8.根据权利要求1所述的方法，其特征在于，所述从所述初始样本文本集合中确定出不满足符号配置条件的第一组样本文本，包括：

<...

【专利技术属性】
技术研发人员：王思嘉，吴建伟，郑仲富，卿佳，梁有宁，刘海龙，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人