URL分类模型的训练方法技术

技术编号：44167901 阅读：31 留言：0更新日期：2025-01-29 10:41

本申请提出了一种URL分类模型的训练方法，包括：通过无标记样本URL对第一URL分类模型执行替换令牌检测训练和打乱令牌检测训练得到第二URL分类模型；通过无标记样本URL对第二URL分类模型执行掩码学习、自监督对比学习和虚拟对抗训练，得到第三URL分类模型；基于第一有标记样本URL的编码结果和真实分类标记训练卷积神经网络，使第三URL分类模型与卷积神经网络链接为第四URL分类模型；基于第二有标记样本URL及其真实分类标记，对第四URL分类模型的模型参数进行微调。本技术方案在大幅度降低有标记样本数量的基础上提升URL分类模型对特定URL分类任务的分类能力。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及深度学习，尤其涉及一种url分类模型的训练方法。

技术介绍

1、url（uniform resource locator，统一资源定位符）是互联网的基石，是浏览和理解网络的基本要素，在引导用户、网络安全、个性化在线服务和网络工程等关键领域都发挥着举足轻重的作用。长期以来，url作为一种丰富且易于获取的数据源，一直被用于训练各种分类器，以完成特定的任务，如恶意url检测、网页主题分类和广告url识别。

2、现有的url分类器往往是针对特定的任务，使用该任务相关的数据进行训练的，这就要求人工对该任务相关的数据进行标记，以增加url分类器对url特征的理解能力。

3、然而，随着互联网的蓬勃发展，url分类器所需处理的任务多种多样，若针对每种任务均单独训练分类器，相当费时费力，另一方面，针对特定任务所训练的url分类器无法满足多样化的多种任务多样化的url分类需求。同时，在训练分类器时，需要消耗大量的人工成本对海量样本数据进行标记操作，这一过程费时费力，且易出错，影响分类器对样本的学习水平，最终导致所得的url分类器的分类能力受限。

4、因此，如何高效且准确地训练url分类器，成为目前亟待解决的技术问题。

技术实现思路

1、本申请实施例提供了一种url分类模型的训练方法，旨在解决相关技术中针对特定任务训练url分类器所面临的样本标记费时费力和所得分类器能力不足的技术问题。

2、第一方面，本申请实施例提供了一种url分类模型的训练方法，包括：

3、响应于针对第一url分类模型的训练指令，对无标记样本url进行分词处理，得到所述无标记样本url的多个令牌；

4、通过所述无标记样本url的多个令牌，对所述第一url分类模型执行替换令牌检测训练和打乱令牌检测训练，得到第二url分类模型；

5、通过所述无标记样本url，对所述第二url分类模型执行掩码学习、自监督对比学习和虚拟对抗训练，得到第三url分类模型；

6、获取第一有标记样本url和所述第一有标记样本url的真实分类标记，并通过所述第三url分类模型输出所述第一有标记样本url的编码结果；

7、基于所述编码结果和所述真实分类标记，训练卷积神经网络，使所述第三url分类模型与所述卷积神经网络链接为第四url分类模型，其中，所述卷积神经网络用于反映所述第一有标记样本url的编码结果与预测分类标记之间的关联关系；

8、获取第二有标记样本url和所述第二有标记样本url的真实分类标记；

9、基于所述第二有标记样本url和所述第二有标记样本url的真实分类标记，对所述第四url分类模型的模型参数进行微调，其中，所述第四url分类模型用于反映所述第二有标记样本url与所述第二有标记样本url的预测分类标记之间的关联关系。

10、第二方面，本申请实施例提供了一种url分类模型的训练装置，包括：

11、分词单元，用于响应于针对第一url分类模型的训练指令，对无标记样本url进行分词处理，得到所述无标记样本url的多个令牌；

12、第一无标记训练单元，用于通过所述无标记样本url的多个令牌，对所述第一url分类模型执行替换令牌检测训练和打乱令牌检测训练，得到第二url分类模型；

13、第二无标记训练单元，用于通过所述无标记样本url，对所述第二url分类模型执行掩码学习、自监督对比学习和虚拟对抗训练，得到第三url分类模型；

14、第一获取单元，用于获取第一有标记样本url和所述第一有标记样本url的真实分类标记，并通过所述第三url分类模型输出所述第一有标记样本url的编码结果；

15、第一有标记训练单元，用于基于所述编码结果和所述真实分类标记，训练卷积神经网络，使所述第三url分类模型与所述卷积神经网络链接为第四url分类模型，其中，所述卷积神经网络用于反映所述第一有标记样本url的编码结果与预测分类标记之间的关联关系；

16、第二获取单元，用于获取第二有标记样本url和所述第二有标记样本url的真实分类标记；

17、第二有标记训练单元，用于基于所述第二有标记样本url和所述第二有标记样本url的真实分类标记，对所述第四url分类模型的模型参数进行微调，其中，所述第四url分类模型用于反映所述第二有标记样本url与所述第二有标记样本url的预测分类标记之间的关联关系。

18、第三方面，本申请实施例提供了一种计算机设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述第一方面所述的方法。

19、第四方面，本申请实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述第一方面所述的方法。

20、以上技术方案，针对相关技术中针对特定任务训练url分类器所面临的样本标记费时费力和所得分类器能力不足的技术问题，通过无标记样本url对transformer架构的url分类模型进行训练，在训练过程中的第一阶段采用三分类方式实现模型对替换令牌检测和打乱令牌检测的学习能力，在训练过程的第二阶段采用掩码学习、自监督对比学习和虚拟对抗训练相结合的方式进一步训练模型对于无标记样本url的特征的学习和分析能力。在此训练基础上，在模型后链接卷积神经网络，通过有标记样本url对卷积神经网络处理特定url分类任务的能力进行优化，再对模型与卷积神经网络整体进行参数优化，这样一来，可大幅度降低url分类模型的训练过程所需的有标记样本的数量，减少训练所需的人工标记工作，降低模型训练难度，同时也避免过多人工参与导致训练结果不准确的问题。同时，通过附加的卷积神经网络，在大幅度降低有标记样本数量的基础上，仍能够保障url分类模型对特定url分类任务的分类能力，保证了特定url分类任务的顺利进行。

本文档来自技高网...

【技术保护点】

1.一种URL分类模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述对无标记样本URL进行分词处理之前，包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，所述通过所述无标记样本URL的多个令牌，对所述第一URL分类模型执行替换令牌检测训练和打乱令牌检测训练，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述第二URL分类模型执行掩码学习、自监督对比学习和虚拟对抗训练，包括：

6.根据权利要求1所述的方法，其特征在于，对所述第二URL分类模型执行掩码学习的步骤包括：

7.根据权利要求6所述的方法，其特征在于，对所述第二URL分类模型执行自监督对比学习的步骤包括：

8.根据权利要求7所述的方法，其特征在于，对所述第二URL分类模型执行虚拟对抗训练的步骤包括：

9.根据权利要求8所述的方法，其特征在于，还包括：

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述基于所述编码结

11.根据权利要求10所述的方法，其特征在于，所述基于所述第二有标记样本URL和所述第二有标记样本URL的真实分类标记，对所述第四URL分类模型的模型参数进行微调，包括：

12.一种计算机设备，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

13.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令被配置为执行如权利要求1至11中任一项所述的方法。

...

【技术特征摘要】

1.一种url分类模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述对无标记样本url进行分词处理之前，包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，所述通过所述无标记样本url的多个令牌，对所述第一url分类模型执行替换令牌检测训练和打乱令牌检测训练，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述第二url分类模型执行掩码学习、自监督对比学习和虚拟对抗训练，包括：

6.根据权利要求1所述的方法，其特征在于，对所述第二url分类模型执行掩码学习的步骤包括：

7.根据权利要求6所述的方法，其特征在于，对所述第二url分类模型执行自监督对比学习的步骤包括：

<...

【专利技术属性】
技术研发人员：李璐，段荣成，刘睿远，郭培馨，高欣，
申请(专利权)人：军工保密资格审查认证中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人