一种结构化数据分类方法、装置、设备及介质制造方法及图纸

技术编号：29584361 阅读：21 留言：0更新日期：2021-08-06 19:42

本说明书实施例提供一种结构化数据分类方法、装置、设备及介质。所述方法包括：对结构化数据库内存储的一个或多个表执行采样操作，以便获取所述表对应的字段集合；获取所述字段集合内各字段对应的字段信息，利用预先配置的打分规则或打分模型对所述字段信息执行打分操作，得到所述字段对应的打分结果；其中，所述打分结果能够模糊表征所述字段的类别；根据所述字段对应的打分结果对预定的深度学习模型进行训练，得到训练后的深度学习模型；利用所述训练后的深度学习模型，对未知类别的结构化数据的字段进行预测，根据预测结果确定所述结构化数据对应的类别。

全部详细技术资料下载

【技术实现步骤摘要】
一种结构化数据分类方法、装置、设备及介质
本说明书涉及数据处理
，尤其涉及一种结构化数据分类方法、装置、设备及介质。
技术介绍
随着互联网与大数据技术的广泛应用，网络数据安全得到了各级政府及企事业单位的高度重视，尤其伴随国家对用户隐私保护的愈加重视，推出了各种数据安全和隐私保护的法律法规。互联网公司在正常业务过程中会收集各种用户数据，例如在取得用户授权的情况下收集手机号、身份证号、银行卡号等个人隐私数据。在对用户数据进行安全隐私保护时，需要对企业保存的用户数据进行分类和分级，然后进一步按照国家规定对不同安全级别的数据进行保护，因此可见数据分类是用户隐私保护的基础。在现有技术中，目前针对结构化数据进行分类的算法，主要是基于数据库中相关信息的专家规则以及人工标记的方式进行判断，而专家规则往往难以包含全部可能的情况，在准确率和召回率上难以权衡，且维护成本极大；人工标记的方式存在工作量大，不可扩展性等问题。基于现有技术，需要提供一种具有更高准确率和召回率，无需大量的人工标记，具有可扩展性的分类方案。
技术实现思路
本说明书实施例提供一种结构化数据分类方法、装置、设备及介质，以解决现有技术存在的准确率和召回率低，维护成本高，需要大量人工标记，不具有可扩展性的问题。为解决上述技术问题，本说明书实施例是这样实现的：本说明书实施例提供的一种结构化数据分类方法，所述方法包括：对结构化数据库内存储的一个或多个表执行采样操作，以便获取所述表对应的字段集合；获取所述字...

【技术保护点】
1.一种结构化数据分类方法，所述方法包括：/n对结构化数据库内存储的一个或多个表执行采样操作，以便获取所述表对应的字段集合；/n获取所述字段集合内各字段对应的字段信息，利用预先配置的打分规则或打分模型对所述字段信息执行打分操作，得到所述字段对应的打分结果；其中，所述打分结果能够模糊表征所述字段的类别；/n根据所述字段对应的打分结果对预定的深度学习模型进行训练，得到训练后的深度学习模型；/n利用所述训练后的深度学习模型，对未知类别的结构化数据的字段进行预测，根据预测结果确定所述结构化数据对应的类别。/n

【技术特征摘要】
1.一种结构化数据分类方法，所述方法包括：
对结构化数据库内存储的一个或多个表执行采样操作，以便获取所述表对应的字段集合；
获取所述字段集合内各字段对应的字段信息，利用预先配置的打分规则或打分模型对所述字段信息执行打分操作，得到所述字段对应的打分结果；其中，所述打分结果能够模糊表征所述字段的类别；
根据所述字段对应的打分结果对预定的深度学习模型进行训练，得到训练后的深度学习模型；
利用所述训练后的深度学习模型，对未知类别的结构化数据的字段进行预测，根据预测结果确定所述结构化数据对应的类别。

2.如权利要求1所述的方法，所述对结构化数据库内存储的一个或多个表执行采样操作，以便获取所述表对应的字段集合，包括：
所述结构化数据库包括采用区块链技术的分布式数据库，从区块链的节点中获取所述结构化数据库内的表，并确定所述表的授权状态，对已授权的表执行采样操作，得到该表对应的字段集合；
其中，所述表中至少包含一类字段，所述字段集合中包含每类字段对应的预设行数的字段。

3.如权利要求1所述的方法，所述字段信息包含字段的值以及字段的注释信息，所述利用预先配置的打分规则或打分模型对所述字段信息执行打分操作，得到所述字段对应的打分结果，包括：
将各个字段所对应的字段的值以及字段的注释信息作为输入，利用预先配置的打分规则或打分模型对其进行打分，得到各个字段分别对应的打分结果，并将所述打分结果上传至区块链中的节点。

4.如权利要求1或3所述的方法，所述预先配置的打分规则或打分模型为根据已知字段的类别所配置的打分规则或者打分模型；其中，
所述打分规则包括正则表达式，当已知字段的类别为多个时，根据为每个字段类别所配置的正则表达式生成规则集合，并利用该规则集合对每个字段进行打分得到由多个维度所组成的打分结果；
所述打分模型包括机器学习分类模型或者自然语言处理模型，该打分模型用于对字段所对应的字段信息进行打分预测，得到该字段分别属于某一字段类别的概率值。

5.如权利要求4所述的方法，所述方法还包括：
当采用打分规则对所述字段信息进行打分时，为每个字段类别对应的注释信息配置正则表达式，根据所述字段对应的正则表达式和字段对应注释信息的正则表达式生成规则集合。

6.如权利要求4所述的方法，所述方法还包括：
当采用打分模型对所述字段信息进行打分时，将所述字段的值以及字段的注释信息作为参数输入到打分模型中，以便打分模型根据参数计算打分函数，获得打分结果。

7.如权利要求4所述的方法，所述打分规则还包括关键字列表，利用根据已知字段的类别所预先配置的...

【专利技术属性】
技术研发人员：刘焱，姚兴，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人