System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据分级分类,具体地说,涉及一种面向金融数据安全分级分类方法。
技术介绍
1、现有的重要数据识别和提取方法通过利用概率统计方法(tf-idf,词袋模型)或者预训练模型(bert)对输入的单句或段落转化为数字向量,再通过机器学习或者深度学习的方法对向量进行信息提取和等级分类并构建特征语料库。其中特征语料库一般通过建立高维向量或者多维矩阵进行表示。
2、目前的方法并没有基于行业规则或安全分类指南来生成特征语料库的方法。通过概率统计生成数字向量的方法只能作用于用户输入数据,无法充分利用行业规则条款来对数据进行识别;基于预训练模型生成数字向量的方法对计算机底层硬件要求过高,同时构建的向量维数过多,在和特征库进行对比分类时耗费时间过多。
技术实现思路
1、本专利技术的内容是提供一种面向金融数据安全分级分类方法,其能够较佳地进行数据安全分级分类。
2、根据本专利技术的面向金融数据安全分级分类方法,其包括以下步骤:
3、一、构建知识图谱:根据金融数据安全分级分类指南构建知识图谱;
4、二、构建规则向量:根据所生成的知识图谱构建规则向量,即将知识图谱的每一条路径信息输入至布隆过滤器中形成规则向量;
5、三、生成数据向量:首先构建层级分类器,然后进行属性提取,最后构建数据向量;
6、四、向量匹配:通过将用户输入的数据编码为数据向量和规则语料库进行相似度计算,获得与用户输入最相近的规则向量,并通过该规则向量的等级来判
7、作为优选,步骤一中,具体为:
8、将金融数据安全分级分类指南中的每一个层级之间的包含关系、各个属性与层级之间的包含关系和对应的安全等级通过知识图谱构建出来;根据金融数据安全分级分类指南,所构建的知识图谱包含个人信息和单位信息两个第一层级;个人自然信息,个人资讯信息,单位基本信息和单位资讯信息四个第二层级;个人基本概况信息,个人财产信息,个人联系信息,个人职业信息,个人党政信息,单位基本概况,单位联系信息,单位财务信息,企业信贷信息,企业司法信息,企业工商信息十一个第三层级,其后还包含各个第三层级对应的属性信息和等级信息。
9、作为优选,步骤二中,具体为:
10、根据知识图谱的每一条路径信息的所有层级信息和属性信息输入至布隆过滤器中构建数字向量;通过这一方法生成多个64位的01向量并标记其等级来构建规则语料库。
11、作为优选,步骤三中,具体为:
12、1)构建层级分类器:根据所构造的知识图谱收集对应的金融数据信息用以训练层级分类器,层级分类器采用深度学习技术,通过使用预训练模型bert和膨胀卷积构造深度学习模型,并使用所收集的金融数据信息对模型进行训练,使模型能区分第一层级的信息;同理采取相同方法再次构造层级分类器以区分第二层级的信息;
13、2)属性提取:通过使用大语言模型微调对用户输入数据进行属性提取;
14、3)构建数据向量:根据前两个步骤所获得的层级信息和属性信息,输入至布隆过滤器中以构建64位的01向量。
15、作为优选,步骤1)中,层级分类器包括编码层,特征提取层,解码层;
16、编码层:
17、编码层由预训练模型bert对输入序列进行编码,给定一个句子x={x1,x2,...xn},x为句子中的字符,将其输入预训练模型bert中编码为特征向量h:
18、h=encoder(x)
19、特征提取层:
20、采用一维膨胀卷积对文本数据进行卷积操作,并且使用门机制来提高模型的泛化能力:
21、
22、其中,hj为经过卷积操作后的特征向量,conv1d1和conv1d2代表形式相同,但参数不共享的一维膨胀卷积,conv1d2经过softmax函数激活,然后将输出相乘;conv1d2经过sigmoid函数将值域控制在(0,1)以达成门控机制;
23、解码层:
24、解码层使用softmax函数输出最后的分类概率,以得出对应的分类结果y:
25、y=softmax(hj)。
26、作为优选,步骤四中,通过使用了汉明距离的knn算法进行向量匹配,具体为:
27、分别设两个等长字符串a=a1a2...an,b=b1b2...bn,其中ai,bi只能取0或1,则汉明距离h(a,b)表示为:
28、
29、i为指示函数,当满足ai≠bi时为1,否则为0;
30、通过知识图谱所构建的规则向量集为d={(x1,y1),(x2,y2),...,(xn,yn)},其中xi表示第i个规则向量,yi表示第i个规则向量对应的规则等级,yi∈γ={c1,c2,..cj..ck},cj表示对应的类别,即对应的安全等级;根据给定的汉明距离进行度量,在规则向量集中寻找与目标向量x最近的k个规则向量,记作nk(x):然后根据多数表决规则决定向量x的安全等级y:
31、
32、i为指示函数,即当yi=cj时为1,否则为0。
33、本专利技术提出利用行业规则对数据进行等级分类,提高了等级检测模型的可解释性;本专利技术提出一个多级结构的面向金融数据领域的知识图谱,并通过该知识图谱生成对应的基于金融行业规则的特征向量并形成语料库,利用该语料库完成对用户数据的等级分类,为金融行业面向用户数据隐私内容检测提供支撑,具有实用价值;本专利技术的方法可以扩展到其他行业领域中的隐私等级安全检测中,灵活性强。
本文档来自技高网...【技术保护点】
1.面向金融数据安全分级分类方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的面向金融数据安全分级分类方法,其特征在于:步骤一中,具体为:
3.根据权利要求2所述的面向金融数据安全分级分类方法,其特征在于:步骤二中,具体为:
4.根据权利要求3所述的面向金融数据安全分级分类方法,其特征在于:步骤三中,具体为:
5.根据权利要求4所述的面向金融数据安全分级分类方法,其特征在于:步骤1)中,层级分类器包括编码层,特征提取层,解码层;
6.根据权利要求5所述的面向金融数据安全分级分类方法,其特征在于:步骤四中,通过使用了汉明距离的KNN算法进行向量匹配,具体为:
【技术特征摘要】
1.面向金融数据安全分级分类方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的面向金融数据安全分级分类方法,其特征在于:步骤一中,具体为:
3.根据权利要求2所述的面向金融数据安全分级分类方法,其特征在于:步骤二中,具体为:
4.根据权利要求3所述的面向金融数据安全分级分...
【专利技术属性】
技术研发人员:李睿,朱俊豪,刘翔,张足生,谢满,
申请(专利权)人:东莞理工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。