一种模型预训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：32973323 阅读：19 留言：0更新日期：2022-04-09 11:44

本申请涉及信息安全技术领域，尤其涉及一种模型预训练方法、装置、电子设备及存储介质，响应于针对待训练模型的预训练指令，获取具有数据查看权限的客户端上传的密文语料，并确定密文语料中的各密文文本，密文语料为通过对待处理语料进行加密获得的，待处理语料为包含有敏感信息的文本；分别采用预设公开文本中的各明文字符，对各密文文本中的各密文字符进行替换，获得各替换后的文本，公开文本中包含有多个明文字符，公开文本为未包含有敏感信息的、公开的文本；基于各替换后的文本，对待训练模型进行训练，获得预训练模型，并基于预训练模型进行相应处理。这样，能够保证数据安全性的情况下训练和使用预训练模型。情况下训练和使用预训练模型。情况下训练和使用预训练模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型预训练方法、装置、电子设备及存储介质

[0001]本申请涉及信息安全
，尤其涉及一种模型预训练方法、装置、电子设备及存储介质。

技术介绍

[0002]目前，预训练模型能够应用到多种不同的场景中，在训练预训练模型的过程中，通常需要使用到大量的文本数据，然而，在特定的行业和应用场景中，相关的文本数据可能会涉及到敏感信息，因此，在对预训练模型进行训练的过程中，会降低文本数据的安全性。
[0003]相关技术中，一般可以将预训练环境部署到客户端，在封闭的环境下进行训练，这样，其它无关人员无法获取到文本数据，然而，对预训练模型进行训练的操作人员仍然能够获取到文本数据，因此，相关技术中的这种模型预训练方式，会降低数据的安全性。

技术实现思路

[0004]本申请实施例提供一种模型预训练方法、装置、电子设备及存储介质，以提高数据的安全性。
[0005]本申请实施例提供的具体技术方案如下：
[0006]一种模型预训练方法，包括：
[0007]响应于针对待训练模型的预训练指令，获取具有数据查看权限的客户端上传的密文语料，并确定所述密文语料中的各密文文本，其中，所述密文语料为通过对待处理语料进行加密获得的，所述待处理语料为包含有敏感信息的文本；
[0008]分别采用预设公开文本中的各明文字符，对所述各密文文本中的各密文字符进行替换，获得各替换后的文本，其中，所述公开文本中包含有多个明文字符，所述公开文本为未包含有敏感信息的、公开的文本；
[0009]基于所述各替换...

【技术保护点】

【技术特征摘要】
1.一种模型预训练方法，其特征在于，包括：响应于针对待训练模型的预训练指令，获取具有数据查看权限的客户端上传的密文语料，并确定所述密文语料中的各密文文本，其中，所述密文语料为通过对待处理语料进行加密获得的，所述待处理语料为包含有敏感信息的文本；分别采用预设公开文本中的各明文字符，对所述各密文文本中的各密文字符进行替换，获得各替换后的文本，其中，所述公开文本中包含有多个明文字符，所述公开文本为未包含有敏感信息的、公开的文本；基于所述各替换后的文本，对所述待训练模型进行训练，获得预训练模型，并基于所述预训练模型进行相应处理。2.如权利要求1所述的方法，其特征在于，确定所述密文语料中的各密文文本，具体包括：基于预设的段落结尾标识，对所述密文语料进行分段，获得各密文段落；基于预设的分句加密字符，分别对所述各密文段落进行分句，获得相应的各密文文本。3.如权利要求1所述的方法，其特征在于，分别采用预设公开文本中的各明文字符，对所述各密文文本中的各密文字符进行替换，获得各替换后的文本，具体包括：确定所述各密文文本中各密文字符各自对应的密文字频，以及，确定预设公开文本中各明文字符各自对应的明文字频，其中，每个密文字频为相应的密文字符在所述各密文文本中的出现次数，每个明文字频为相应的明文字符在所述公开文本中的出现次数；基于各密文字频和各明文字频，分别将所述各密文文本中的各密文字符替换为相应的明文字符，获得各替换后的文本。4.如权利要求3所述的方法，其特征在于，分别将所述各密文文本中的各密文字符替换为相应的明文字符，获得各替换后的文本，具体包括：按照所述各密文字符各自对应的密文字频，对所述各密文字符进行排序，获得排序后的各密文字符，以及，按照所述各明文字符各自对应的明文字频，对所述各明文字符进行排序，获得排序后的各明文字符；针对各密文文本，分别执行以下操作：分别基于任意一个密文文本中的各密文字符各自对应的顺序信息，从所述排序后的明文字符中，确定出与相应的密文字符的顺序信息相同的明文字符，并采用确定出的明文字符，对相应的密文字符进行替换，获得替换后的文本。5.如权利要求1所述的方法，其特征在于，分别采用预设公开文本中的各明文字符，对所述各密文文本中的各密文字符进行替换，获得各替换后的文本，具体包括：基于已训练的密文字向量模型，分别以所述各密文字符为输入参数，确定相应的密文字符对应的密文字向量，以及，基于已训练的密文字向量模型，分...

【专利技术属性】
技术研发人员：张阳，安晓江，蒋红宇，
申请(专利权)人：北京海泰方圆科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人