System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理技术,更具体地说,它涉及一种结合大语言模型进行个人信息数据分类分级的系统和方法。
技术介绍
1、目前大数据领域对个人信息进行自动化分类和安全分级,一般采用通过将字段数据与正则表达式进行匹配的方式实现。而使用该技术路线存在如下问题:
2、第一、正则表达式匹配仅能对数值有固定格式的数据进行分类分级识别,如姓名、身份证号码等。而在《网络安全标准实践指南——网络数据分类分级指引》《信息安全技术敏感个人信息处理安全要求》等标准规范中,对个人信息进行分类分级的大部分标准,例如判断字段是否是账号、密码、所属企业名称、所属项目名称、工资金额等,难以通过归纳数据的固定格式并进行正则表达式匹配的方式实现。
3、第二、如某个字段内的数值均为空值,则无法进行正则表达式匹配判断。
4、针对以上情况,对字段进行分类分级时,需要通过字段名、字段备注等元数据信息进行人工分类分级,但这样的方式效率较低,需要投入较多的人力资源。
技术实现思路
1、本专利技术要解决的技术问题是针对现有技术的不足,提供一种结合大语言模型进行个人信息数据分类分级的系统和方法,相比于传统的仅通过正则表达式匹配规则,大大提高了分类分级效率。
2、本专利技术所述的一种结合大语言模型进行个人信息数据分类分级的方法,该方法包括以下步骤:
3、s1.获取个人信息表中的表的元数据信息及字段的元数据信息;
4、s2.从个人信息分类分级标签管理库中提取所有分类分级
5、s3.通过大语言模型结合所述分类分级标签列表对所述字段的元数据信息进行分类判断,以将所述字段归类于分类分级标签列表中与其相对应的分类分级标签中;若所述字段分类失败,则通过正则表达式全遍历匹配对字段进行分类分级;
6、s4.根据预定的筛选条件规则,对单条所述字段的元数据信息进行分类分级;
7、s5.根据所述表的元数据信息对表进行分类分级。
8、作进一步的改进,通过大语言模型结合所述分类分级标签列表对所述元数据信息进行分类判断,具体为:
9、将所述分类分级标签列表作为知识传给大语言模型,通过所述大语言模型根据字段的元数据信息判断所述字段是否可归类于分类分级标签列表中的分类;若所述大语言模型判断出字段的分类,则对分类结果进行验证。
10、进一步的,对所述分类结果进行验证的具体方法为:
11、获取所述字段的元数据信息的字段的数值,如果该字段下存储有非空的数值,则将所述字段的数值与分类分级标签列表中对应的正则表达式进行匹配,若与所述正则表达式相匹配的数值占比超过设定的阈值,则验证通过,将所述大语言模型当前判断的分类分级标签作为所述字段的分类分级标签;若与所述正则表达式相匹配的数值占比未超过设定的阈值,则将所述字段的数值在个人信息分类分级标签管理库中进行正则表达式全遍历匹配,以查找并确定该字段的分类。
12、更进一步的,所述正则表达式全遍历匹配具体为:
13、将所述字段的数值与个人信息分类分级标签管理库中全部的正则表达式进行一一匹配对比,若找到与之相对应的正则表达式,则将当前所述的正则表达式对应的分类分级标签作为所述字段的分类分级标签;若找不到与之相对应的正则表达式,则表明无法判断所述字段的分类分级标签,并将其分类分级标签标记为空值。
14、更进一步的,若所述字段的数值为空值,则表明无法判断所述字段的分类分级标签,并将其分类分级标签标记为空值。
15、一种结合大语言模型进行个人信息数据分类分级的系统,包括应用服务平台和数据中台;所述应用服务平台从数据中台中获取个人信息,并应用所述的个人信息数据分类分级的方法对所述个人信息进行分类分级。
16、有益效果
17、本专利技术的优点在于:
18、1.更全面的数据理解:元数据(如数据类型、来源、创建时间、更新频率等)提供了关于数据本身的额外信息,这些信息对于准确分类和分级至关重要。大模型能够综合考虑这些元数据,从而更全面地理解数据。
19、2.更好的适应性和灵活性:对于无法归纳出数据的正则表达式匹配规则的字段,通过大语言模型依然能够进行分类和安全分级,灵活性远超仅使用规则进行分类分级。
20、3.更高的拓展性和效率:通过规则进行分类分级时,分类分级的维护即是增删改正则表达式,维护大量的正则表达式需要投入大量的人力。而大模型分类分级,仅需将新的分类分级标签更新到个人信息分类分级标签库即可,省去了设计和维护正则表达式的人力,可扩展性和效率都更高。
本文档来自技高网...【技术保护点】
1.一种结合大语言模型进行个人信息数据分类分级的方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的一种结合大语言模型进行个人信息数据分类分级的方法,其特征在于,通过大语言模型结合所述分类分级标签列表对所述元数据信息进行分类判断,具体为:
3.根据权利要求2所述的一种结合大语言模型进行个人信息数据分类分级的方法,其特征在于,对所述分类结果进行验证的具体方法为:
4.根据权利要求3所述的一种结合大语言模型进行个人信息数据分类分级的方法,其特征在于,所述正则表达式全遍历匹配具体为:
5.根据权利要求3或4所述的一种结合大语言模型进行个人信息数据分类分级的方法,其特征在于,若所述字段的数值为空值,则表明无法判断所述字段的分类分级标签,并将其分类分级标签标记为空值。
6.一种结合大语言模型进行个人信息数据分类分级的系统,其特征在于,包括应用服务平台和数据中台;所述应用服务平台从数据中台中获取个人信息,并应用如权利要求1-5任一项所述的个人信息数据分类分级的方法对所述个人信息进行分类分级。
【技术特征摘要】
1.一种结合大语言模型进行个人信息数据分类分级的方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的一种结合大语言模型进行个人信息数据分类分级的方法,其特征在于,通过大语言模型结合所述分类分级标签列表对所述元数据信息进行分类判断,具体为:
3.根据权利要求2所述的一种结合大语言模型进行个人信息数据分类分级的方法,其特征在于,对所述分类结果进行验证的具体方法为:
4.根据权利要求3所述的一种结合大语言模型进行个人信息数据分类分级的方...
【专利技术属性】
技术研发人员:刘东升,魏文,蓝雪日,尹海朋,凌婧,周海扬,蔡力泉,陈翠合,吴德海,黄钰涵,
申请(专利权)人:中国—东盟信息港股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。