一种敏感数据检测云服务的方法和云服务平台技术

技术编号：25637231 阅读：13 留言：0更新日期：2020-09-15 21:29

本发明专利技术公开了一种敏感数据检测云服务的方法及云服务平台，包括以下步骤：S01.企业上传训练样本，通过服务方开放的数据接口，企业将训练样本上传到服务方；S02.服务方使用训练样本进行模型训练，得到Bert+BiLSTM分类模型；S03.服务方使用Bert+BiLSTM分类模型对互联网文档进行预测，得到预测结果；S04.服务方将预测结果中的疑似文档返回给企业。本发明专利技术使用云服务的形式为企业提供敏感数据检测服务，降低企业获得服务的成本和门槛，避免重复投资；使得大中小型企业均可通过该服务获得相同标准的检测服务，整体提高网络数据的安全性，具有重大社会意义。

全部详细技术资料下载

【技术实现步骤摘要】
一种敏感数据检测云服务的方法和云服务平台
本专利技术涉及计算机数据安全
，具体为一种敏感数据检测云服务的方法和云服务平台。
技术介绍
企业内部数据是高价值的无形资产，近年屡屡出现数据外泄事件。互联网信息传播快和体量大的特性给企业查找和追回数据带来巨大困难，往往产生巨大的经济损失。目前，大型企业需要花费不菲成本采购第三方提供的软硬件系统和运维服务，而中小企业无力支付，导致大型企业数据安全维护成本高，中小企业更是直接裸奔，存在很大的数据安全隐患。技术上，仍大多采用关键词匹配技术实现，存在效率低、成本高、运维难的弊病。申请号为201911106089.9公开的一种对工业事故记录文本进行挖掘的方法，采用已有的自然语言算法设计出适合于工业事故时间分析的文本挖掘算法，一定程度上减少运算量，减少人力成本。但是该技术依然无法满足所有不同类型企业的需求。
技术实现思路
本专利技术所要解决的技术问题在于如何降低企业获得敏感数据检测服务的成本和门槛。本专利技术通过以下技术手段实现解决上述技术问题的：一种敏感数据检测云服务的方法，包括以下步骤：S01.企业上传训练样本通过服务方开放的数据接口，企业将训练样本上传到服务方；S02.服务方使用训练样本进行模型训练，得到Bert+BiLSTM分类模型；S03.服务方使用Bert+BiLSTM分类模型对互联网文档进行预测，得到预测结果；S04.服务方将预测结果中的疑似文档返回给企业。本专利技术使...

【技术保护点】
1.一种敏感数据检测云服务的方法，其特征在于：包括以下步骤：/nS01.企业上传训练样本/n通过服务方开放的数据接口，企业将训练样本上传到服务方；/nS02.服务方使用训练样本进行模型训练，得到Bert+BiLSTM分类模型；/nS03.服务方使用Bert+BiLSTM分类模型对互联网文档进行预测，得到预测结果；/nS04.服务方将预测结果中的疑似文档返回给企业。/n

【技术特征摘要】
1.一种敏感数据检测云服务的方法，其特征在于：包括以下步骤：
S01.企业上传训练样本
通过服务方开放的数据接口，企业将训练样本上传到服务方；
S02.服务方使用训练样本进行模型训练，得到Bert+BiLSTM分类模型；
S03.服务方使用Bert+BiLSTM分类模型对互联网文档进行预测，得到预测结果；
S04.服务方将预测结果中的疑似文档返回给企业。

2.根据权利要求1所述的一种敏感数据检测云服务的方法，其特征在于：所述步骤S01中，所述的训练样本为企业提供的内部文档，企业根据希望在互联网上查找的敏感数据类型，提供与其内容相近的文档集，构成所述训练样本。

3.根据权利要求1所述的一种敏感数据检测云服务的方法，其特征在于：所述步骤S02中，将企业发送的训练样本定义为正样本，选择与正样本不同的其他文档集作为负样本，然后
S021.文本预处理
对正负样本进行预处理，得到csv形式存储的所有文档的文本内容，根据文档来自正样本或负样本，对文本内容进行标签标注，其中正样本的标签为1，负样本的标签为0，得到带有标签的数据集；然后根据一定比例进行随机分层抽样，将数据集划分为训练集和验证集；
S022.Bert+BiLSTM分类模型
采用所述的训练集对Bert+BiLSTM分类模型进行微调训练，生成适用于训练集的目标模型；
S023.模型评估
使用所述验证集，采用设定的分类评估指标，对目标模型进行评估，如效果优于设定阈值则结束模型训练步骤，如差于设定阈值则需进行模型优化或样本优化。

4.根据权利要求3所述的一种敏感数据检测云服务的方法，其特征在于：所述步骤S021具体为：
S0211.文件处理
对嵌套目录进行循环遍历，将所有子目录下的文档复制到一个新的单级目录下，对文件名重复情况进行文件名区分处理；
S0212.文件格式转换
对特定格式的文件进行格式转换，得到目标格式文件；
S0213.文本提取
根据文件格式使用不同读取函数，输出所有正负样本文档的文本内容，每篇文档的文本内容作为一条训练数据；
S0214，数据集建立和划分
首先根据文档来自正样本或负样本，在步骤S0213输出的结果上进行标签标注，建立数据集，其中正样本的标签为1，负样本的标签为0；然后根据一定比例进行随机分层抽样，将数据集划分为训练集和验证集，训练集用于训练模型，验证集用于评判模型的真实效果。

5.根据权利要求4所述的一种敏感数据检测云服务的方法，其特征在于：所述步骤S03中，在使用Bert+BiLSTM分类模型对互联网文档进行预测之前，需要对互联网文档执行如步骤S0211-S0213的处理。

【专利技术属性】
技术研发人员：周晓勇，梁淑云，刘胜，马影，陶景龙，王启凡，魏国富，徐明，殷钱安，余贤喆，
申请(专利权)人：上海观安信息技术股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人