一种敏感数据检测云服务的方法和云服务平台技术

技术编号:25637231 阅读:13 留言:0更新日期:2020-09-15 21:29
本发明专利技术公开了一种敏感数据检测云服务的方法及云服务平台,包括以下步骤:S01.企业上传训练样本,通过服务方开放的数据接口,企业将训练样本上传到服务方;S02.服务方使用训练样本进行模型训练,得到Bert+BiLSTM分类模型;S03.服务方使用Bert+BiLSTM分类模型对互联网文档进行预测,得到预测结果;S04.服务方将预测结果中的疑似文档返回给企业。本发明专利技术使用云服务的形式为企业提供敏感数据检测服务,降低企业获得服务的成本和门槛,避免重复投资;使得大中小型企业均可通过该服务获得相同标准的检测服务,整体提高网络数据的安全性,具有重大社会意义。

【技术实现步骤摘要】
一种敏感数据检测云服务的方法和云服务平台
本专利技术涉及计算机数据安全
,具体为一种敏感数据检测云服务的方法和云服务平台。
技术介绍
企业内部数据是高价值的无形资产,近年屡屡出现数据外泄事件。互联网信息传播快和体量大的特性给企业查找和追回数据带来巨大困难,往往产生巨大的经济损失。目前,大型企业需要花费不菲成本采购第三方提供的软硬件系统和运维服务,而中小企业无力支付,导致大型企业数据安全维护成本高,中小企业更是直接裸奔,存在很大的数据安全隐患。技术上,仍大多采用关键词匹配技术实现,存在效率低、成本高、运维难的弊病。申请号为201911106089.9公开的一种对工业事故记录文本进行挖掘的方法,采用已有的自然语言算法设计出适合于工业事故时间分析的文本挖掘算法,一定程度上减少运算量,减少人力成本。但是该技术依然无法满足所有不同类型企业的需求。
技术实现思路
本专利技术所要解决的技术问题在于如何降低企业获得敏感数据检测服务的成本和门槛。本专利技术通过以下技术手段实现解决上述技术问题的:一种敏感数据检测云服务的方法,包括以下步骤:S01.企业上传训练样本通过服务方开放的数据接口,企业将训练样本上传到服务方;S02.服务方使用训练样本进行模型训练,得到Bert+BiLSTM分类模型;S03.服务方使用Bert+BiLSTM分类模型对互联网文档进行预测,得到预测结果;S04.服务方将预测结果中的疑似文档返回给企业。本专利技术使用云服务的形式为企业提供敏感数据检测服务,降低企业获得服务的成本和门槛,避免重复投资;使得大中小型企业均可通过该服务获得相同标准的检测服务,整体提高网络数据的安全性,具有重大社会意义。进一步的,所述步骤S01中,所述的训练样本为企业提供的内部文档,企业根据希望在互联网上查找的敏感数据类型,提供与其内容相近的文档集,构成所述训练样本。进一步的,所述步骤S02中,将企业发送的训练样本定义为正样本,选择与正样本不同的其他文档集作为负样本,然后S021.文本预处理对正负样本进行预处理,得到csv形式存储的所有文档的文本内容,根据文档来自正样本或负样本,对文本内容进行标签标注,其中正样本的标签为1,负样本的标签为0,得到带有标签的数据集;然后根据一定比例进行随机分层抽样,将数据集划分为训练集和验证集;S022.Bert+BiLSTM分类模型采用所述的训练集对Bert+BiLSTM分类模型进行微调训练,生成适用于训练集的目标模型;S023.模型评估使用所述验证集,采用设定的分类评估指标,对目标模型进行评估,如效果优于设定阈值则结束模型训练步骤,如差于设定阈值则需进行模型优化或样本优化。进一步的,所述步骤S021具体为:S0211.文件处理对嵌套目录进行循环遍历,将所有子目录下的文档复制到一个新的单级目录下,对文件名重复情况进行文件名区分处理;S0212.文件格式转换对特定格式的文件进行格式转换,得到目标格式文件;S0213.文本提取根据文件格式使用不同读取函数,输出所有正负样本文档的文本内容,每篇文档的文本内容作为一条训练数据;S0214,数据集建立和划分首先根据文档来自正样本或负样本,在步骤S0213输出的结果上进行标签标注,建立数据集,其中正样本的标签为1,负样本的标签为0;然后根据一定比例进行随机分层抽样,将数据集划分为训练集和验证集,训练集用于训练模型,验证集用于评判模型的真实效果。进一步的,所述步骤S03中,在使用Bert+BiLSTM分类模型对互联网文档进行预测之前,需要对互联网文档执行如步骤S0211-S0213的处理。进一步的,所述步骤S023中,设定的分类评估指标为F1-score、准确率、精确率、召回率其中一种或多种。相对应的,本专利技术还提供一种敏感数据检测云服务平台,应用上述的方法;系统包括数据接口模块,用于企业上传训练样本;模型训练模块,用于使用训练样本进行模型训练,生成目标模型;模型预测模块,用于使用模型对互联网文档进行预测,得到预测结果;预测结果返回模块,用于将预测结果中疑似文档返回给企业。进一步的,所述模型训练模块具体的执行过程为:将企业发送的训练样本定义为正样本,选择与正样本不同的其他文档集作为负样本,然后文本预处理对正负样本进行预处理,得到csv形式存储的所有文档的文本内容,根据文档来自正样本或负样本,对文本内容进行标签标注,其中正样本的标签为1,负样本的标签为0,得到带有标签的数据集;然后根据一定比例进行随机分层抽样,将数据集划分为训练集和验证集;Bert+BiLSTM分类模型采用所述的训练集对Bert+BiLSTM分类模型进行微调训练,生成适用于训练集的目标模型;模型评估使用所述验证集,采用设定的分类评估指标,对目标模型进行评估,如效果优于设定阈值则结束模型训练步骤,如差于设定阈值则需进行模型优化或样本优化。进一步的,所述文件预处理具体过程为:文件处理对嵌套目录进行循环遍历,将所有子目录下的文档复制到一个新的单级目录下,对文件名重复情况进行文件名区分处理;文件格式转换对特定格式的文件进行格式转换,得到目标格式文件;文本提取根据文件格式使用不同读取函数,输出所有正负样本文档的文本内容,每篇文档的文本内容作为一条训练数据;数据集建立和划分首先根据文档来自正样本或负样本,在输出的文本内容上进行标签标注,建立数据集,其中正样本的标签为1,负样本的标签为0;然后根据一定比例进行随机分层抽样,将数据集划分为训练集和验证集,训练集用于训练模型,验证集用于评判模型的真实效果。相对应的,本专利技术还提供一种存储介质,其中存储多条指令,所述指令适于处理器加载并执行,所述多条指令为:数据接口,用于企业上传训练样本;模型训练,用于使用训练样本进行模型训练,生成目标模型;模型预测,用于使用模型对互联网文档进行预测,得到预测结果;预测结果返回模块,用于将预测结果中疑似文档返回给企业。本专利技术的优点在于:1、本专利技术使用云服务的形式为企业提供敏感数据检测服务,降低企业获得服务的成本和门槛,避免重复投资;使得大中小型企业均可通过该服务获得相同标准的检测服务,整体提高网络数据的安全性,具有重大社会意义。2、使用自然语言处理领域的AI技术,相比传统技术大幅提高效率、降低运维复杂度。附图说明图1为本专利技术实施例1敏感数据检测云服务的方法流程图;图2为本专利技术实施例1敏感数据检测云服务的方法中模型训练的流程图;图3为本专利技术实施例2敏感数据检测云服务平台的架构图;图4为本专利技术实施例2敏感数据检测云服务平台对应的业务流程图。具体实施方式本文档来自技高网...

【技术保护点】
1.一种敏感数据检测云服务的方法,其特征在于:包括以下步骤:/nS01.企业上传训练样本/n通过服务方开放的数据接口,企业将训练样本上传到服务方;/nS02.服务方使用训练样本进行模型训练,得到Bert+BiLSTM分类模型;/nS03.服务方使用Bert+BiLSTM分类模型对互联网文档进行预测,得到预测结果;/nS04.服务方将预测结果中的疑似文档返回给企业。/n

【技术特征摘要】
1.一种敏感数据检测云服务的方法,其特征在于:包括以下步骤:
S01.企业上传训练样本
通过服务方开放的数据接口,企业将训练样本上传到服务方;
S02.服务方使用训练样本进行模型训练,得到Bert+BiLSTM分类模型;
S03.服务方使用Bert+BiLSTM分类模型对互联网文档进行预测,得到预测结果;
S04.服务方将预测结果中的疑似文档返回给企业。


2.根据权利要求1所述的一种敏感数据检测云服务的方法,其特征在于:所述步骤S01中,所述的训练样本为企业提供的内部文档,企业根据希望在互联网上查找的敏感数据类型,提供与其内容相近的文档集,构成所述训练样本。


3.根据权利要求1所述的一种敏感数据检测云服务的方法,其特征在于:所述步骤S02中,将企业发送的训练样本定义为正样本,选择与正样本不同的其他文档集作为负样本,然后
S021.文本预处理
对正负样本进行预处理,得到csv形式存储的所有文档的文本内容,根据文档来自正样本或负样本,对文本内容进行标签标注,其中正样本的标签为1,负样本的标签为0,得到带有标签的数据集;然后根据一定比例进行随机分层抽样,将数据集划分为训练集和验证集;
S022.Bert+BiLSTM分类模型
采用所述的训练集对Bert+BiLSTM分类模型进行微调训练,生成适用于训练集的目标模型;
S023.模型评估
使用所述验证集,采用设定的分类评估指标,对目标模型进行评估,如效果优于设定阈值则结束模型训练步骤,如差于设定阈值则需进行模型优化或样本优化。


4.根据权利要求3所述的一种敏感数据检测云服务的方法,其特征在于:所述步骤S021具体为:
S0211.文件处理
对嵌套目录进行循环遍历,将所有子目录下的文档复制到一个新的单级目录下,对文件名重复情况进行文件名区分处理;
S0212.文件格式转换
对特定格式的文件进行格式转换,得到目标格式文件;
S0213.文本提取
根据文件格式使用不同读取函数,输出所有正负样本文档的文本内容,每篇文档的文本内容作为一条训练数据;
S0214,数据集建立和划分
首先根据文档来自正样本或负样本,在步骤S0213输出的结果上进行标签标注,建立数据集,其中正样本的标签为1,负样本的标签为0;然后根据一定比例进行随机分层抽样,将数据集划分为训练集和验证集,训练集用于训练模型,验证集用于评判模型的真实效果。


5.根据权利要求4所述的一种敏感数据检测云服务的方法,其特征在于:所述步骤S03中,在使用Bert+BiLSTM分类模型对互联网文档进行预测之前,需要对互联网文档执行如步骤S0211-S0213的处理。

【专利技术属性】
技术研发人员:周晓勇梁淑云刘胜马影陶景龙王启凡魏国富徐明殷钱安余贤喆
申请(专利权)人:上海观安信息技术股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1