证件分类模型的训练方法、证件分类方法、装置和介质制造方法及图纸

技术编号:32741685 阅读:11 留言:0更新日期:2022-03-20 08:48
本发明专利技术涉及人工智能技术领域,具体公开了一种证件分类模型的训练方法,所述方法包括:获取证件样本集,并从所述证件样本集中提取一证件样本;获取预设的N种数据增强算法集和所述N种数据增强算法集的使用顺序;按照所述使用顺序从所述N种数据增强算法集中确定出用于对所述证件样本进行数据增强处理的数据增强算法集,并根据确定出的数据增强算法集对所述证件样本进行数据增强处理,获得目标证件样本;根据多个目标证件样本训练出用于进行证件分类的证件分类模型。分类的证件分类模型。分类的证件分类模型。

【技术实现步骤摘要】
证件分类模型的训练方法、证件分类方法、装置和介质


[0001]本专利技术涉及人工智能
,具体涉及一种证件分类模型的训练方法、证件分类方法、装置和计算机可读存储介质。

技术介绍

[0002]随着用户证件种类越来越多,政府或企业对电子证件分类的需求也越来越大。在电子证件分类场景中,一些相关技术会采用机器学习模型进行分类,但是专利技术人研究发现:在利用电子证件样本训练机器学习模型之前,需要先对电子证件样本进行数据增强处理,但是现有的数据增强处理方式只适用于电子证件样本数据量较大的场景;然而在一些特殊场景中电子证件样本的数据量较小,或者根本无法获取大数据量的电子证件样本,若继续使用现有的数据增强处理方式对这些小数据量的电子证件样本进行数据增强处理,会导致最终的机器学习模型分类准确性较差。

技术实现思路

[0003]本专利技术的目的在于提供了一种证件分类模型的训练方法、证件分类方法、装置和计算机可读存储介质,能够解决上述技术问题。
[0004]本专利技术的一个方面提供了一种证件分类模型的训练方法,所述方法包括:获取证件样本集,并从所述证件样本集中提取一证件样本;获取预设的N种数据增强算法集和所述N种数据增强算法集的使用顺序;按照所述使用顺序从所述N种数据增强算法集中确定出用于对所述证件样本进行数据增强处理的数据增强算法集,并根据确定出的数据增强算法集对所述证件样本进行数据增强处理,获得目标证件样本;根据多个目标证件样本训练出用于进行证件分类的证件分类模型。
[0005]可选地,每种数据增强算法集均关联一标签范围,所述按照所述使用顺序从所述N种数据增强算法集中确定出用于对所述证件样本进行数据增强处理的数据增强算法集,并根据确定出的数据增强算法集对所述证件样本进行数据增强处理,获得目标证件样本,包括:步骤A1,生成所述证件样本的标签值,判断该标签值是否在第1个数据增强算法集关联的标签范围内,若是则执行步骤A2,若否则执行步骤A3;步骤A2,根据第1个数据增强算法集对所述证件样本进行数据增强处理,并执行步骤A3;步骤A3,再次生成所述证件样本的标签值,判断该标签值是否在第i+1个数据增强算法集关联的标签范围内,若是则执行步骤A4,若否则执行步骤A5,其中,i是初始值为1的正整数;步骤A4,若前i个数据增强算法集对所述证件样本进行了数据增强处理,则根据第i+1个数据增强算法集对上一次数据增强处理后的证件样本继续进行数据增强处理,并执行步骤A5;若前i个数据增强算法集未对所述证件样本进行数据增强处理,则根据第i+1个数据增强算法集对所述证件样本进行数据增强处理,并执行步骤A5;步骤A5,判断i+1是否等于N,若是则将最后一次数据增强处理后的证件样本记为所述目标证件样本,若否将i赋值为i+1并返回执行步骤A3。
[0006]可选地,所述生成所述证件样本的标签值,包括:从所有标签范围中确定出一最大
标签边界值;随机生成[0,所述最大标签边界值]范围内的一数值,作为所述证件样本的标签值。
[0007]可选地,所述根据多个目标证件样本训练出用于进行证件分类的证件分类模型,包括:通过卷积神经网络的m个卷积层提取所述目标证件样本的特征,获得m个第一特征向量,其中,m为大于等于2的正整数;通过所述卷积神经网络的Attention层对第m个卷积层输出的第一特征向量中的特征元素设置权重,获得第m

个第一特征向量;根据第m

个第一特征向量计算所述目标证件样本的分类值;从所述证件样本集中提取所述多个目标证件样本的分类值,并根据所述证件样本集中所述多个目标证件样本的分类值和计算出的对应目标证件样本的分类值训练出所述证件分类模型。
[0008]可选地,所述根据第m

个第一特征向量计算所述目标证件样本的分类值,包括:从前m

1个卷积层输出的第一特征向量中筛选出p个第一特征向量;根据所述p个第一特征向量和所述第m

个第一特征向量计算所述目标证件样本的分类值;其中,p为大于等于1且小于等于m的正整数。
[0009]本专利技术的另一个方面提供了一种证件分类方法,所述方法包括:获取待分类证件;通过证件分类模型的m个卷积层提取所述待分类证件的特征,获得m个第二特征向量,其中,m为大于等于2的正整数,所述证件分类模型通过上述任一实施例所述的证件分类模型的训练方法获得;通过所述证件分类模型的Attention层对第m个卷积层输出的第二特征向量中的特征元素设置权重,获得第m

个第二特征向量;根据第m

个第二特征向量计算所述待分类证件的分类值;从计算出的所有分类值中筛选出最大的分类值,并将该最大的分类值指向的证件类别作为所述待分类证件所属的证件类别。
[0010]可选地,所述根据第m

个第二特征向量计算所述待分类证件的分类值,包括:从前m

1个卷积层输出的第二特征向量中筛选出p个第二特征向量;根据所述p个第二特征向量和所述第m

个第二特征向量计算所述待分类证件样本的分类值;其中,p为大于等于1且小于等于m的正整数。
[0011]本专利技术的再一个方面提供了一种证件分类模型的训练装置,所述装置包括:获取样本模块,用于获取证件样本集,并从所述证件样本集中提取一证件样本;获取数据集模块,用于获取预设的N种数据增强算法集和所述N种数据增强算法集的使用顺序;增强处理模块,用于按照所述使用顺序从所述N种数据增强算法集中确定出用于对所述证件样本进行数据增强处理的数据增强算法集,并根据确定出的数据增强算法集对所述证件样本进行数据增强处理,获得目标证件样本;模型训练模块,用于根据多个目标证件样本训练出用于进行证件分类的证件分类模型。
[0012]本专利技术的又一个方面提供了一种证件分类装置,所述装置包括:获取证件模块,用于获取待分类证件;特征提取模块,用于通过证件分类模型的m个卷积层提取所述待分类证件的特征,获得m个第二特征向量,其中,m为大于等于2的正整数,所述证件分类模型通过权利要求1至5任一项所述的方法获得;权重设置模块,用于通过所述证件分类模型的Attention层对第m个卷积层输出的第二特征向量中的特征元素设置权重,获得第m

个第二特征向量;分类值计算模块,用于根据第m

个第二特征向量计算所述待分类证件的分类值;证件分类模块,用于从计算出的所有分类值中筛选出最大的分类值,并将该最大的分类值指向的证件类别作为所述待分类证件所属的证件类别。
[0013]本专利技术的再一个方面提供了一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的证件分类模型的训练方法和/或上述任一实施例所述的证件分类方法。
[0014]本专利技术的又一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种证件分类模型的训练方法,其特征在于,所述方法包括:获取证件样本集,并从所述证件样本集中提取一证件样本;获取预设的N种数据增强算法集和所述N种数据增强算法集的使用顺序;按照所述使用顺序从所述N种数据增强算法集中确定出用于对所述证件样本进行数据增强处理的数据增强算法集,并根据确定出的数据增强算法集对所述证件样本进行数据增强处理,获得目标证件样本;根据多个目标证件样本训练出用于进行证件分类的证件分类模型。2.根据权利要求1所述的方法,其特征在于,每种数据增强算法集均关联一标签范围,所述按照所述使用顺序从所述N种数据增强算法集中确定出用于对所述证件样本进行数据增强处理的数据增强算法集,并根据确定出的数据增强算法集对所述证件样本进行数据增强处理,获得目标证件样本,包括:步骤A1,生成所述证件样本的标签值,判断该标签值是否在第1个数据增强算法集关联的标签范围内,若是则执行步骤A2,若否则执行步骤A3;步骤A2,根据第1个数据增强算法集对所述证件样本进行数据增强处理,并执行步骤A3;步骤A3,再次生成所述证件样本的标签值,判断该标签值是否在第i+1个数据增强算法集关联的标签范围内,若是则执行步骤A4,若否则执行步骤A5,其中,i是初始值为1的正整数;步骤A4,若前i个数据增强算法集对所述证件样本进行了数据增强处理,则根据第i+1个数据增强算法集对上一次数据增强处理后的证件样本继续进行数据增强处理,并执行步骤A5;若前i个数据增强算法集未对所述证件样本进行数据增强处理,则根据第i+1个数据增强算法集对所述证件样本进行数据增强处理,并执行步骤A5;步骤A5,判断i+1是否等于N,若是则将最后一次数据增强处理后的证件样本记为所述目标证件样本,若否将i赋值为i+1并返回执行步骤A3。3.根据权利要求2所述的方法,其特征在于,所述生成所述证件样本的标签值,包括:从所有标签范围中确定出一最大标签边界值;随机生成[0,所述最大标签边界值]范围内的一数值,作为所述证件样本的标签值。4.根据权利要求1所述的方法,其特征在于,所述根据多个目标证件样本训练出用于进行证件分类的证件分类模型,包括:通过卷积神经网络的m个卷积层提取所述目标证件样本的特征,获得m个第一特征向量,其中,m为大于等于2的正整数;通过所述卷积神经网络的Attention层对第m个卷积层输出的第一特征向量中的特征元素设置权重,获得第m

个第一特征向量;根据第m

个第一特征向量计算所述目标证件样本的分类值;从所述证件样本集中提取所述多个目标证件样本的分类值,并根据所述证件样本集中所述多个目标证件样本的分类值和计算出的对应目标证件样本的分类值训练出所述证件分类模型。5.根据权利要求4所述的方法,其特征在于,所述根据第m

个第一特征向量计算所述目标证件样本的分类值,包括:
从前m

...

【专利技术属性】
技术研发人员:蔡壮壮林大权徐亮
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1