一种图像敏感信息识别方法及系统技术方案

技术编号：34537191 阅读：25 留言：0更新日期：2022-08-13 21:32

一种图像敏感信息识别方法及系统，该方法在监督学习阶段中：通过线下人工标注敏感信息图片得到标记数据，根据所述标记数据进行监督模型训练；在半监督学习阶段中：对未标记数据进行预处理，所述预处理包括弱数据增强和RA增强，通过所述监督模型对弱数据增强后的未标记数据预测得到伪标签；通过所述监督模型对RA增强后的未标记数据预测得到是否敏感的后验概率分布，计算后验概率分布和伪标签的损失，使半监督模型收敛；对收敛后的半监督模型进行线上生产环境部署。本发明专利技术不仅利用人工标记的数据，还结合海量无标注数据进行人工智能训练，预测能力强，帮助平台方减轻内容审核压力，降低内容审核成本，提高内容审核效率。提高内容审核效率。提高内容审核效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像敏感信息识别方法及系统

[0001]本专利技术涉及互联网审核
，具体涉及一种图像敏感信息识别方法及系统。

技术介绍

[0002]目前，泛娱乐行业，图像视频得到了一个飞速的发展，但这也存在着极大的隐患，不良信息经常混杂在正常的图像视频中传播，造成网络环境的污染，特别是不利于未成年人的身心健康发展。这种时候就需要利用审核技术将他们拣选出来，借助人工智能技术，可以帮助平台方减轻进行自动审核。
[0003]现有技术中，主流图像审核人工智能主要是监督训练方法，线下对含有敏感信息的图片进行人工标注，然后用这些含有监督信息的样本指导人工智能模型进行学习。但是，对于现实生产过程中的海量无标注图片，监督模型无法进行有效的利用，预测能力差，另外，这些无标注数据中往往比标注数据含有更丰富的知识，如何融合无标注数据进行图像敏感信息识别是亟待解决的技术问题。

技术实现思路

[0004]为此，本专利技术提供一种图像敏感信息识别方法及系统，以解决现有图像审核人工智能训练无法利用海量无标记数据，预测能力差的问题。
[0005]为了实现上述目的，本专利技术提供如下技术方案：一种图像敏感信息识别方法，包括监督学习阶段和半监督学习阶段；
[0006]所述监督学习阶段中：
[0007]通过线下人工标注敏感信息图片得到标记数据，根据所述标记数据进行监督模型训练；
[0008]所述半监督学习阶段中：
[0009]对未标记数据进行预处理，所述预处理包括弱数据增强...

【技术保护点】

【技术特征摘要】
1.一种图像敏感信息识别方法，其特征在于，包括监督学习阶段和半监督学习阶段；所述监督学习阶段中：通过线下人工标注敏感信息图片得到标记数据，根据所述标记数据进行监督模型训练；所述半监督学习阶段中：对未标记数据进行预处理，所述预处理包括弱数据增强和RA增强，通过所述监督模型对弱数据增强后的未标记数据预测得到伪标签；通过所述监督模型对RA增强后的未标记数据预测得到是否敏感的后验概率分布，计算后验概率分布和伪标签的损失，使半监督模型收敛；对收敛后的半监督模型进行线上生产环境部署。2.根据权利要求1所述的一种图像敏感信息识别方法，其特征在于，弱数据增强过程，对输入到所述监督模型的未标记图片随机进行左右或上下翻转；RA增强过程，对输入到所述监督模型的未标记图片进行几何变形或色彩变化。3.根据权利要求1所述的一种图像敏感信息识别方法，其特征在于，计算后验概率分布和伪标签的损失公式为：和伪标签的损失公式为：和伪标签的损失公式为：公式(1)中，表示总损失函数，表示标注图片的损失函数，表示无标注图片的损失函数，λ
u
表示无标注图片损失的系数；公式(2)表示损失计算过程，p
b
表示标注信息，p
m
(y|α(x
b
))表示经过弱数据增强后模型预测的结果，Η表示计算两者交叉熵；公式(3)表示损失计算过程，(max(q
b
)≥τ)表示经过RA增强后的模型预测伪标注是否大于等于τ，若大于等于τ，无标注样本参与损失计算，若小于τ，无标注样本不参与损失计算，表示计算伪标签和经过RA增强后模型预测结果的交叉熵。4.根据权利要求1所述的一种图像敏感信息识别方法，其特征在于，半监督模型训练过程，对半监督模型中高层模块的参数进行训练，半监督模型中底层模块的参数冻结，不参与训练。5.根据权利要求1所述的一种图像敏感信息识别方法，其特征在于，通过labelimg标注工具线下人工标注敏感信息图片；使用Pytorch深度学习库搭建监督模型；使用Torchvision的数据增强库进行未标记数据的预处理。6.一种图像敏感信息识别系统，其特征在于，包括监督学习单元和半监督学习单元；所述监督学习单元包...

【专利技术属性】
技术研发人员：吕伊凯，陈振标，杜晓祥，
申请(专利权)人：北京云上曲率科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人