一种图像敏感信息识别方法及系统技术方案

技术编号:34537191 阅读:25 留言:0更新日期:2022-08-13 21:32
一种图像敏感信息识别方法及系统,该方法在监督学习阶段中:通过线下人工标注敏感信息图片得到标记数据,根据所述标记数据进行监督模型训练;在半监督学习阶段中:对未标记数据进行预处理,所述预处理包括弱数据增强和RA增强,通过所述监督模型对弱数据增强后的未标记数据预测得到伪标签;通过所述监督模型对RA增强后的未标记数据预测得到是否敏感的后验概率分布,计算后验概率分布和伪标签的损失,使半监督模型收敛;对收敛后的半监督模型进行线上生产环境部署。本发明专利技术不仅利用人工标记的数据,还结合海量无标注数据进行人工智能训练,预测能力强,帮助平台方减轻内容审核压力,降低内容审核成本,提高内容审核效率。提高内容审核效率。提高内容审核效率。

【技术实现步骤摘要】
一种图像敏感信息识别方法及系统


[0001]本专利技术涉及互联网审核
,具体涉及一种图像敏感信息识别方法及 系统。

技术介绍

[0002]目前,泛娱乐行业,图像视频得到了一个飞速的发展,但这也存在着极大 的隐患,不良信息经常混杂在正常的图像视频中传播,造成网络环境的污染, 特别是不利于未成年人的身心健康发展。这种时候就需要利用审核技术将他们 拣选出来,借助人工智能技术,可以帮助平台方减轻进行自动审核。
[0003]现有技术中,主流图像审核人工智能主要是监督训练方法,线下对含有敏 感信息的图片进行人工标注,然后用这些含有监督信息的样本指导人工智能模 型进行学习。但是,对于现实生产过程中的海量无标注图片,监督模型无法进 行有效的利用,预测能力差,另外,这些无标注数据中往往比标注数据含有更 丰富的知识,如何融合无标注数据进行图像敏感信息识别是亟待解决的技术问 题。

技术实现思路

[0004]为此,本专利技术提供一种图像敏感信息识别方法及系统,以解决现有图像审 核人工智能训练无法利用海量无标记数据,预测能力差的问题。
[0005]为了实现上述目的,本专利技术提供如下技术方案:一种图像敏感信息识别方 法,包括监督学习阶段和半监督学习阶段;
[0006]所述监督学习阶段中:
[0007]通过线下人工标注敏感信息图片得到标记数据,根据所述标记数据进行监 督模型训练;
[0008]所述半监督学习阶段中:
[0009]对未标记数据进行预处理,所述预处理包括弱数据增强和RA增强,通过 所述监督模型对弱数据增强后的未标记数据预测得到伪标签;通过所述监督模 型对RA增强后的未标记数据预测得到是否敏感的后验概率分布,计算后验概 率分布和伪标签的损失,使半监督模型收敛;对收敛后的半监督模型进行线上 生产环境部署。
[0010]作为图像敏感信息识别方法的优选方案,弱数据增强过程,对输入到所述 监督模型的未标记图片随机进行左右或上下翻转;
[0011]RA增强过程,对输入到所述监督模型的未标记图片进行几何变形或色彩 变化。
[0012]作为图像敏感信息识别方法的优选方案,计算后验概率分布和伪标签的损 失公式为:
[0013][0014][0015][0016]公式(1)中,表示总损失函数,表示标注图片的损失函数,表示无标 注图片的损失函数,λ
u
表示无标注图片损失的系数;
[0017]公式(2)表示损失计算过程,p
b
表示标注信息,p
m
(y|α(x
b
))表示经过弱 数据增强后模型预测的结果,Η表示计算两者交叉熵;
[0018]公式(3)表示损失计算过程,(max(q
b
)≥τ)表示经过RA增强后的模 型预测伪标注是否大于等于τ,若大于等于τ,无标注样本参与损失计算,若 小于τ,无标注样本不参与损失计算,表示计算伪标签和经 过RA增强后模型预测结果的交叉熵。
[0019]作为图像敏感信息识别方法的优选方案,半监督模型训练过程,对半监督 模型中高层模块的参数进行训练,半监督模型中底层模块的参数冻结,不参与 训练。
[0020]作为图像敏感信息识别方法的优选方案,通过labelimg标注工具线下人工 标注敏感信息图片;使用Pytorch深度学习库搭建监督模型;使用Torchvision 的数据增强库进行未标记数据的预处理。
[0021]本专利技术还提供一种图像敏感信息识别系统,包括监督学习单元和半监督学 习单元;
[0022]所述监督学习单元包括:
[0023]人工标注模块,用于通过线下人工标注敏感信息图片得到标记数据;
[0024]第一模型训练模块,用于根据所述标记数据进行监督模型训练;
[0025]所述半监督学习单元包括:
[0026]预处理模块,用于对未标记数据进行预处理,所述预处理包括弱数据增强 和RA增强,通过所述监督模型对弱数据增强后的未标记数据预测得到伪标签; 通过所述监督模型对RA增强后的未标记数据预测得到是否敏感的后验概率 分布;
[0027]第二模型训练模块,用于计算后验概率分布和伪标签的损失,使半监督模 型收敛;
[0028]模型部署单元,用于对收敛后的半监督模型进行线上生产环境部署。
[0029]作为图像敏感信息识别系统的优选方案,所述预处理模块中:
[0030]弱数据增强过程,对输入到所述监督模型的未标记图片随机进行左右或上 下翻转;
[0031]RA增强过程,对输入到所述监督模型的未标记图片进行几何变形或色彩 变化。
[0032]作为图像敏感信息识别系统的优选方案,所述第二模型训练模块中,计算 后验概率分布和伪标签的损失公式为:
[0033][0034][0035][0036]公式(1)中,表示总损失函数,表示标注图片的损失函数,表示无标 注图片的损失函数,λ
u
表示无标注图片损失的系数;
[0037]公式(2)表示损失计算过程,p
b
表示标注信息,p
m
(y|α(x
b
))表示经过弱 数据增强后模型预测的结果,Η表示计算两者交叉熵;
[0038]公式(3)表示损失计算过程,(max(q
b
)≥τ)表示经过RA增强后的模 型预测伪标注是否大于等于τ,若大于等于τ,无标注样本参与损失计算,若 小于τ,无标注样本不参与损失计算,表示计算伪标签和经 过RA增强后模型预测结果的交叉熵。
[0039]作为图像敏感信息识别系统的优选方案,所述第二模型训练模块中,对半 监督模型中高层模块的参数进行训练,半监督模型中底层模块的参数冻结,不 参与训练。
[0040]作为图像敏感信息识别系统的优选方案,通过labelimg标注工具线下人工 标注敏感信息图片;使用Pytorch深度学习库搭建监督模型;使用Torchvision 的数据增强库进行未标记数据的预处理。
[0041]本专利技术具有如下优点:在监督学习阶段中:通过线下人工标注敏感信息图 片得到标记数据,根据所述标记数据进行监督模型训练;在半监督学习阶段中: 对未标记数据进行预处理,所述预处理包括弱数据增强和RA增强,通过所述 监督模型对弱数据增强后的未标记数据预测得到伪标签;通过所述监督模型对 RA增强后的未标记数据预测得到是否敏感的后验概率分布,计算后验概率分 布和伪标签的损失,使半监督模型收敛;对收敛后的半监督模型进行线上生产 环境部署。本专利技术不仅利用人工标记的数据,还结合海量无标注数据进行人工 智能训练,预测能力强,帮助平台方减轻内容审核压力,降低内容审核成本, 提高内容审核效率。
附图说明
[0042]为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对 实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下 面描述中的附图仅仅是示例性的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像敏感信息识别方法,其特征在于,包括监督学习阶段和半监督学习阶段;所述监督学习阶段中:通过线下人工标注敏感信息图片得到标记数据,根据所述标记数据进行监督模型训练;所述半监督学习阶段中:对未标记数据进行预处理,所述预处理包括弱数据增强和RA增强,通过所述监督模型对弱数据增强后的未标记数据预测得到伪标签;通过所述监督模型对RA增强后的未标记数据预测得到是否敏感的后验概率分布,计算后验概率分布和伪标签的损失,使半监督模型收敛;对收敛后的半监督模型进行线上生产环境部署。2.根据权利要求1所述的一种图像敏感信息识别方法,其特征在于,弱数据增强过程,对输入到所述监督模型的未标记图片随机进行左右或上下翻转;RA增强过程,对输入到所述监督模型的未标记图片进行几何变形或色彩变化。3.根据权利要求1所述的一种图像敏感信息识别方法,其特征在于,计算后验概率分布和伪标签的损失公式为:和伪标签的损失公式为:和伪标签的损失公式为:公式(1)中,表示总损失函数,表示标注图片的损失函数,表示无标注图片的损失函数,λ
u
表示无标注图片损失的系数;公式(2)表示损失计算过程,p
b
表示标注信息,p
m
(y|α(x
b
))表示经过弱数据增强后模型预测的结果,Η表示计算两者交叉熵;公式(3)表示损失计算过程,(max(q
b
)≥τ)表示经过RA增强后的模型预测伪标注是否大于等于τ,若大于等于τ,无标注样本参与损失计算,若小于τ,无标注样本不参与损失计算,表示计算伪标签和经过RA增强后模型预测结果的交叉熵。4.根据权利要求1所述的一种图像敏感信息识别方法,其特征在于,半监督模型训练过程,对半监督模型中高层模块的参数进行训练,半监督模型中底层模块的参数冻结,不参与训练。5.根据权利要求1所述的一种图像敏感信息识别方法,其特征在于,通过labelimg标注工具线下人工标注敏感信息图片;使用Pytorch深度学习库搭建监督模型;使用Torchvision的数据增强库进行未标记数据的预处理。6.一种图像敏感信息识别系统,其特征在于,包括监督学习单元和半监督学习单元;所述监督学习单元包...

【专利技术属性】
技术研发人员:吕伊凯陈振标杜晓祥
申请(专利权)人:北京云上曲率科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1