语料筛选及语言模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号：43379384 阅读：10 留言：0更新日期：2024-11-19 17:56

本公开涉及一种语料筛选及语言模型训练方法、装置、设备及存储介质。基于语料的编码数据中的换行符，将编码数据划分为多段子编码数据；判断子编码数据中是否存在属于第一字符类别的第一字符；针对存在第一字符的第一子编码数据，基于第一比例和/或第二比例判断第一子编码数据对应的解码后语料是否可用，第一比例用于表征第一子编码数据中第一字符所占的比例，第二比例用于表征第一子编码数据对应的解码后语料中的常见字词或非常见字词所占的比例。由此，可以在提升语料质量的同时尽可能多的保留语料中的可用部分。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及数据处理，特别是涉及一种语料筛选及语言模型训练方法、装置、设备及存储介质。

技术介绍

1、语料，特别是中文语料，通常存在乱码现象。

2、图1是示出了一段存在乱码现象的中文语料示意图。

3、造成乱码现象的原因可能是编码格式转换过程出错。此外，如果双字节编码的过程中丢失字符，以至于后面的段落整段错误，也会导致乱码。另外，其他未知原因也可能会导致大量错误字符，甚至无法显示的情况，进而出现乱码。

4、已知的常识是更优质的语料能够让训练更容易收敛，同时能够让训练后的模型效果表现得更好。因此，针对语料中存在的乱码现象，需要一种语料筛选方案以提升语料质量。

技术实现思路

1、本公开要解决的一个技术问题是，针对语料中存在的乱码现象，如何设计一种能够提升语料质量的语料筛选方案。

2、根据本公开的第一个方面，提供了一种语料筛选方法，包括：基于语料的编码数据中的换行符，将所述编码数据划分为多段子编码数据；判断所述子编码数据中是否存在属于第一字符类别的第一字符；针对存在所述第一字符的第一子编码数据，基于第一比例和/或第二比例判断所述第一子编码数据对应的解码后语料是否可用，所述第一比例用于表征所述第一子编码数据中所述第一字符所占的比例，所述第二比例用于表征所述第一子编码数据对应的解码后语料中的常见字词或非常见字词所占的比例。

3、可选地，所述第二比例用于表征所述第一子编码数据对应的解码后语料中的非常见字词所占的比例，基于第一比例和/或第二

4、可选地，所述编码数据为unicode编码数据，所述第一字符类别为如下至少一种：代理项、私用、未赋值。

5、可选地，该方法还包括：针对不存在所述第一字符的第二子编码数据，将所述第二子编码数据对应的解码后语料判定为可用语料。

6、可选地，该方法还包括：为与所述第一子编码数据对应的可用语料赋予第一权重，并为与所述第二子编码数据对应的可用语料赋予第二权重，所述第一权重低于所述第二权重。

7、根据本公开的第二个方面，提供了一种语言模型训练方法，包括：获取训练用语料，所述训练用语料是采用上文第一个方面所述的语料筛选方法得到的可用语料；基于所述训练用语料训练语言模型。

8、可选地，所述训练用语料是具有对应权重的可用语料，基于所述训练用语料训练语言模型，包括：在训练过程中基于训练语料的权重构造损失函数，以使所述损失函数的数值减小为目标调整所述语言模型的模型参数，其中，所述损失函数中单个训练样本的损失值与所述训练样本的权重正相关。

9、根据本公开的第三个方面，提供了一种语料筛选装置，包括：划分模块，用于基于语料的编码数据中的换行符，将所述编码数据划分为多段子编码数据；第一判断模块，用于判断所述子编码数据中是否存在属于第一字符类别的第一字符；第二判断模块，用于针对存在所述第一字符的第一子编码数据，基于第一比例和/或第二比例判断所述第一子编码数据对应的解码后语料是否可用，所述第一比例用于表征所述第一子编码数据中所述第一字符所占的比例，所述第二比例用于表征所述第一子编码数据对应的解码后语料中的常见字词或非常见字词所占的比例。

10、可选地，所述第二比例用于表征所述第一子编码数据对应的解码后语料中的非常见字词所占的比例，若所述第一比例大于或等于第一阈值，且所述第二比例大于或等于第二阈值，则所述第二判断模块判定所述第一子编码数据对应的解码后语料不可用；或者所述第二比例用于表征所述第一子编码数据对应的解码后语料中的常见字词所占的比例，若所述第一比例大于或等于第一阈值，且所述第二比例小于或等于第三阈值，则所述第二判断模块判定所述第一子编码数据对应的解码后语料不可用。

11、可选地，所述编码数据为unicode编码数据，所述第一字符类别为如下至少一种：代理项、私用、未赋值。

12、可选地，该装置还包括：第三判断模块，用于针对不存在所述第一字符的第二子编码数据，将所述第二子编码数据对应的解码后语料判定为可用语料。

13、可选地，该装置还包括：权重分配模块，用于为与所述第一子编码数据对应的可用语料赋予第一权重，并为与所述第二子编码数据对应的可用语料赋予第二权重，所述第一权重低于所述第二权重。

14、根据本公开的第四个方面，提供了一种语言模型训练装置，包括：获取模块，用于获取训练用语料，所述训练用语料是采用上文第一个方面所述的语料筛选方法得到的可用语料；训练模块，用于基于所述训练用语料训练语言模型。

15、可选地，所述训练用语料是具有对应权重的可用语料，所述训练模块在训练过程中基于训练语料的权重构造损失函数，以使所述损失函数的数值减小为目标调整所述语言模型的模型参数，其中，所述损失函数中单个训练样本的损失值与所述训练样本的权重正相关。

16、根据本公开的第五个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一个方面或第二个方面所述的方法。

17、根据本公开的第六个方面，提供了一种计算机程序产品，包括可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上述第一个方面或第二个方面所述的方法。

18、根据本公开的第七个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一个方面或第二个方面所述的方法。

19、由此，本公开通过基于换行符将语料的编码数据划分为多段子编码数据，判断子编码数据中是否存在属于第一字符类别的第一字符，并针对存在第一字符的第一子编码数据，基于第一比例和/或第二比例判断第一子编码数据对应的解码后语料是否可用，可以在提升语料质量的同时尽可能多的保留语料中的可用部分。

本文档来自技高网...

【技术保护点】

1.一种语料筛选方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.一种语言模型训练方法，其特征在于，包括：

7.一种语料筛选装置，其特征在于，包括：

8.一种语言模型训练装置，其特征在于，包括：

9.一种计算设备，包括：

10.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至6中任何一项所述的方法。

【技术特征摘要】

1.一种语料筛选方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.一种语言模型训练方法，其特征在...

【专利技术属性】
技术研发人员：王靖淞，
申请(专利权)人：第四范式北京技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人