一种模型预训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32973323 阅读:19 留言:0更新日期:2022-04-09 11:44
本申请涉及信息安全技术领域,尤其涉及一种模型预训练方法、装置、电子设备及存储介质,响应于针对待训练模型的预训练指令,获取具有数据查看权限的客户端上传的密文语料,并确定密文语料中的各密文文本,密文语料为通过对待处理语料进行加密获得的,待处理语料为包含有敏感信息的文本;分别采用预设公开文本中的各明文字符,对各密文文本中的各密文字符进行替换,获得各替换后的文本,公开文本中包含有多个明文字符,公开文本为未包含有敏感信息的、公开的文本;基于各替换后的文本,对待训练模型进行训练,获得预训练模型,并基于预训练模型进行相应处理。这样,能够保证数据安全性的情况下训练和使用预训练模型。情况下训练和使用预训练模型。情况下训练和使用预训练模型。

【技术实现步骤摘要】
一种模型预训练方法、装置、电子设备及存储介质


[0001]本申请涉及信息安全
,尤其涉及一种模型预训练方法、装置、电子设备及存储介质。

技术介绍

[0002]目前,预训练模型能够应用到多种不同的场景中,在训练预训练模型的过程中,通常需要使用到大量的文本数据,然而,在特定的行业和应用场景中,相关的文本数据可能会涉及到敏感信息,因此,在对预训练模型进行训练的过程中,会降低文本数据的安全性。
[0003]相关技术中,一般可以将预训练环境部署到客户端,在封闭的环境下进行训练,这样,其它无关人员无法获取到文本数据,然而,对预训练模型进行训练的操作人员仍然能够获取到文本数据,因此,相关技术中的这种模型预训练方式,会降低数据的安全性。

技术实现思路

[0004]本申请实施例提供一种模型预训练方法、装置、电子设备及存储介质,以提高数据的安全性。
[0005]本申请实施例提供的具体技术方案如下:
[0006]一种模型预训练方法,包括:
[0007]响应于针对待训练模型的预训练指令,获取具有数据查看权限的客户端上传的密文语料,并确定所述密文语料中的各密文文本,其中,所述密文语料为通过对待处理语料进行加密获得的,所述待处理语料为包含有敏感信息的文本;
[0008]分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,其中,所述公开文本中包含有多个明文字符,所述公开文本为未包含有敏感信息的、公开的文本;
[0009]基于所述各替换后的文本,对所述待训练模型进行训练,获得预训练模型,并基于所述预训练模型进行相应处理。
[0010]可选的,确定所述密文语料中的各密文文本,具体包括:
[0011]基于预设的段落结尾标识,对所述密文语料进行分段,获得各密文段落;
[0012]基于预设的分句加密字符,分别对所述各密文段落进行分句,获得相应的各密文文本。
[0013]可选的,分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,具体包括:
[0014]确定所述各密文文本中各密文字符各自对应的密文字频,以及,确定预设公开文本中各明文字符各自对应的明文字频,其中,每个密文字频为相应的密文字符在所述各密文文本中的出现次数,每个明文字频为相应的明文字符在所述公开文本中的出现次数;
[0015]基于各密文字频和各明文字频,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本。
[0016]可选的,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本,具体包括:
[0017]按照所述各密文字符各自对应的密文字频,对所述各密文字符进行排序,获得排序后的各密文字符,以及,按照所述各明文字符各自对应的明文字频,对所述各明文字符进行排序,获得排序后的各明文字符;
[0018]针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文字符各自对应的顺序信息,从所述排序后的明文字符中,确定出与相应的密文字符的顺序信息相同的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
[0019]可选的,分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,具体包括:
[0020]基于已训练的密文字向量模型,分别以所述各密文字符为输入参数,确定相应的密文字符对应的密文字向量,以及,基于已训练的密文字向量模型,分别以所述各明文字符为输入参数,确定相应的明文字符对应的明文字向量;
[0021]针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文文本各自对应的密文字向量,与所述各明文字向量之间的向量相似度,确定出满足向量相似度条件的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。
[0022]可选的,基于所述各替换后的文本,对所述待训练模型进行训练,获得预训练模型,具体包括:
[0023]分别对所述各替换后的文本进行掩码处理,获得各掩码文本;
[0024]分别确定所述各掩码文本各自对应的掩码文本向量;
[0025]分别将所述各掩码文本向量输入至待训练模型中,基于所述各掩码文本向量,对所述待训练模型进行训练,直至满足预设的训练截止条件,获得训练完成的预训练模型。
[0026]可选的,分别将所述各掩码文本向量输入至待训练模型中,基于所述各掩码文本向量,对所述待训练模型进行训练,直至满足预设的训练截止条件,获得训练完成的预训练模型具体包括:
[0027]针对所述各掩码文本向量,分别执行以下操作:
[0028]确定任意一掩码文本向量的掩码文本中,各掩码位置各自对应的预设数个明文字符,其中,所述预设数个明文字符是根据掩码位置上的明文字符对应的明文字向量,从与该明文字符相似度最高的预设数个明文字符中选择出的,或,所述预设数个明文字符是根据掩码位置上的明文字符对应的顺序信息,从排列在该明文字符的前预设数个明文字符和后预设数个明文字符确定出的。
[0029]分别基于该掩码文本向量和预设数个明文字符各自对应的明文字向量,生成各训练样本;
[0030]将所述各训练样本输入至所述待训练模型中,通过注意力机制,计算以所述预设数个明文字符为输出参数的损失值,并基于损失值,对所述待训练模型的各项模型参数进行调整,获得收敛于期望明文字符的模型参数。
[0031]可选的,基于所述预训练模型进行相应处理,具体包括:
[0032]将所述预训练模型发送至具有数据查看权限的客户端,以使所述客户端采用所述预训练模型进行文本处理。
[0033]一种模型预训练方法,包括:
[0034]对获得的待处理语料进行加密,获得所述待处理语料对应的密文语料;
[0035]将所述密文语料发送至训练客户端,以使所述训练客户端基于所述密文语料,获得所述密文语料中各密文文本各自对应的替换后的文本,并基于各替换后的文本,对待训练模型进行训练,获得预训练模型,并将所述预训练模型返回至具有数据查看权限的客户端;
[0036]基于接收到的所述预训练模型进行相应处理。
[0037]可选的,对获得的待处理语料进行加密,获得所述待处理语料对应的密文语料,具体包括:
[0038]确定待处理语料中各待处理字符各自对应的待处理字符字频,其中,每个待处理字符字频为相应的待处理字符在所述待处理语料中的出现次数;
[0039]基于各待处理字符字频,结合预设加密算法,分别对所述各待处理字符进行加密,获得相应的待处理字符对应的密文字符,并建立各待处理字符与相应的密文字符之间的映射关系;
[0040]基于所述各待处理字符与相应的密文字符之间的映射关系,分别将所述各待处理字符替换为相应的密文字符,获得密文语料。
[0041]可选的,基于接收到的所述预训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型预训练方法,其特征在于,包括:响应于针对待训练模型的预训练指令,获取具有数据查看权限的客户端上传的密文语料,并确定所述密文语料中的各密文文本,其中,所述密文语料为通过对待处理语料进行加密获得的,所述待处理语料为包含有敏感信息的文本;分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,其中,所述公开文本中包含有多个明文字符,所述公开文本为未包含有敏感信息的、公开的文本;基于所述各替换后的文本,对所述待训练模型进行训练,获得预训练模型,并基于所述预训练模型进行相应处理。2.如权利要求1所述的方法,其特征在于,确定所述密文语料中的各密文文本,具体包括:基于预设的段落结尾标识,对所述密文语料进行分段,获得各密文段落;基于预设的分句加密字符,分别对所述各密文段落进行分句,获得相应的各密文文本。3.如权利要求1所述的方法,其特征在于,分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,具体包括:确定所述各密文文本中各密文字符各自对应的密文字频,以及,确定预设公开文本中各明文字符各自对应的明文字频,其中,每个密文字频为相应的密文字符在所述各密文文本中的出现次数,每个明文字频为相应的明文字符在所述公开文本中的出现次数;基于各密文字频和各明文字频,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本。4.如权利要求3所述的方法,其特征在于,分别将所述各密文文本中的各密文字符替换为相应的明文字符,获得各替换后的文本,具体包括:按照所述各密文字符各自对应的密文字频,对所述各密文字符进行排序,获得排序后的各密文字符,以及,按照所述各明文字符各自对应的明文字频,对所述各明文字符进行排序,获得排序后的各明文字符;针对各密文文本,分别执行以下操作:分别基于任意一个密文文本中的各密文字符各自对应的顺序信息,从所述排序后的明文字符中,确定出与相应的密文字符的顺序信息相同的明文字符,并采用确定出的明文字符,对相应的密文字符进行替换,获得替换后的文本。5.如权利要求1所述的方法,其特征在于,分别采用预设公开文本中的各明文字符,对所述各密文文本中的各密文字符进行替换,获得各替换后的文本,具体包括:基于已训练的密文字向量模型,分别以所述各密文字符为输入参数,确定相应的密文字符对应的密文字向量,以及,基于已训练的密文字向量模型,分...

【专利技术属性】
技术研发人员:张阳安晓江蒋红宇
申请(专利权)人:北京海泰方圆科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1