System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据标签分类的,尤其涉及一种基于人工智能的数据标签分类方法及系统。
技术介绍
1、随着数据量的爆发式增长,数据标签分类成为了机器学习和人工智能领域中的核心问题。标签分类是监督学习中的重要组成部分,系统通过对训练数据进行学习,形成能够将新数据正确分类到标签集的模型。传统的标签分类方法主要依赖于手工特征提取与机器学习模型的结合,虽然在部分应用场景中取得了一定的成功,但随着数据的规模和复杂性增加,这些方法暴露出了一系列缺点。首先,人工特征工程需要大量领域专家参与,不仅成本高昂且耗时耗力,还容易受到主观判断的影响,导致模型对新数据的泛化能力较差。其次,随着深度学习的发展,虽然其在自动特征提取和分类方面取得了显著进展,但依然面临标签依赖性不足的问题,尤其是在处理多层次标签结构或标签之间具有依赖关系的复杂数据时,现有的分类方法往往只关注输入数据的特征,而忽视了标签之间的潜在联系,导致分类性能未能达到最优。
2、同时,计算资源的高需求是另一个限制深度学习在标签分类任务中广泛应用的重要因素。现有的深度神经网络模型(如bert、resnet等)虽然在处理复杂数据时表现出色,但这些模型的推理过程需要大量的计算资源,难以在资源受限的设备(如移动设备、边缘设备等)上进行高效部署。针对这一问题,知识蒸馏技术近年来开始被用于减轻复杂模型的计算负担,通过将大型模型的知识传递给一个较小的模型,从而在保证模型性能的前提下降低计算成本。然而,知识蒸馏在标签分类任务中的应用尚处于早期阶段,特别是在处理具有复杂层次结构的标签时,传统的蒸馏方法
3、进一步来说,现有技术中,处理具有层次结构的标签分类问题也存在明显的不足。常见的标签分类模型通常针对平面结构的标签集进行训练,忽略了标签之间可能存在的上下位关系,导致对复杂标签结构的数据处理能力不足。例如,在电子商务的商品分类中,不同商品类目之间往往存在上下位层次结构(如“电子设备”下有“手机”、“电脑”等子类目),传统的标签分类模型仅能为商品分配单一的标签,而无法捕捉到这种层次依赖关系,从而导致分类准确率下降。现有技术中,也有部分研究尝试引入知识图谱或图神经网络来解决标签依赖性问题,但大多无法有效结合深度学习的特征提取优势,且模型的复杂度导致其在推理阶段仍然面临较高的计算负担。
4、综上所述,当前的标签分类技术在面对多层次标签结构、标签依赖关系处理不足、计算资源高需求等问题时,表现出了明显的局限性。因此,亟需一种能够在保持分类精度的同时,兼顾多层次标签依赖关系处理和降低计算资源需求的创新性技术解决方案。
技术实现思路
1、本专利技术的目的设计一种基于人工智能的数据标签分类方法及系统,集结合知识蒸馏与标签关系网络的多层次高效标签分类方法及系统,旨在解决现有方法在标签分类场景中计算资源消耗大、标签依赖处理不足、层次结构标签分类效果不佳等问题。
2、为了达到上述目的,在本专利技术第一方面提供了一种基于人工智能的数据标签分类方法,所述方法包括以下步骤:
3、获取文本数据特征和图像数据特征,并对两个特征进行融合形成多模态特征,利用多模态特征构建标签层次图;所述标签层次图的节点集合为标签集合,边集为标签之间的边集,边的权重为标签权重;所述标签层次图被划分为不同层次的子图;
4、利用图神经网络对标签层次图进行建模,将多模态特征作为输入对模型进行训练,得到训练好的复杂模型;
5、将复杂模型进行知识蒸馏,压缩为轻量化模型;将所述复杂模型作为教师模型,将复杂模型输出的预测的标签概率作为教师模型输出的标签预测概率分布;所述轻量化模型为学生模型;
6、根据标签层次图对轻量化模型的标签预测概率分布进行修正;
7、获取新输入的数据,将新输入的数据输入到标签层次图中进行动态更新,同时在更新时设计基于修正后的标签预测概率分布的标签层次一致性正则自适应调整标签预测概率分布,最后根据更新后的标签层次图优化轻量化模型的权重,使得预测损失最小,标签分类最准确。
8、进一步地,所述方法还包括:
9、针对标签层次图和轻量化模型的更新情况,设计变化阈值触发机制,判断何时进行轻量化模型和标签图的自适应优化,判断规则如下:
10、定义了一个变化阈值,若新数据引起的标签关系图权重变化超过阈值,则触发自适应优化,表示如下:
11、,
12、其中,表示更新后的标签层次图中的边权重,表示原标签层次图中的边权重,l表示标签集合;i表示第i个标签,j表示第j个标签;
13、若,则进行标签关系图的更新和模型的自适应优化,否则保持现有模型和标签结构。
14、进一步地,所述文本数据特征使用加权平均的方式生成;所述图像数据特征采用卷积神经网络进行特征提取得到特征映射,特征映射展平得到图像数据特征;所述对两个特征进行融合形成多模态特征采用加权融合策略进行融合;
15、所述利用多模态特征构建标签层次图,具体包括:
16、构建共现矩阵,其中表示标签和在同一数据样本中的共现频率;
17、计算语义相似度矩阵反映标签和的语音向量之间的语义相关性;
18、根据共现矩阵和语义相似度矩阵构建标签之间的权重,表示如下:
19、,
20、其中,和表示共现矩阵和语义相似度矩阵的权重系数,表示层次距离的系数,表示标签之间的层次距离;
21、根据计算出来的权重构建标签关系图,其中是标签集合,是标签之间的边集,边的权重为;对于每个标签集合,根据权重对标签进行聚类,形成多个层次的标签子集,其中代表最高层次,代表最低层次。
22、进一步地,所述利用图神经网络对标签层次图进行建模,将多模态特征作为输入对模型进行训练,得到训练好的复杂模型,具体包括:
23、将融合特征作为样本输入到全连接网络层进行特征转换,然后再通过第二个全连接层映射到标签空间,输出样本的初步标签概率分布;
24、引入图卷积网络聚合每个标签节点的邻居标签信息,更新每个标签的嵌入表示;
25、设计联合优化损失函数将初步标签概率分布和更新后每个标签的嵌入表示进行融合训练,将联合优化损失函数作为复杂模型的损失函数进行训练。
26、进一步地,所述引入图卷积网络聚合每个标签节点的邻居标签信息,更新每个标签的嵌入表示,具体包括:
27、假设初始的标签嵌入表示为,图卷积网络的聚合操作更新每个标签的表示,计算公式如下:
28、,
29、其中,是更新后的每个标签的表示,表示激活函数,是标签的邻居节点集合;是标签关系图中的标签和的边权重,反映了标签之间的共现频率和语义相似性;是图卷积网络的可训练参数,表示第层的标签嵌入表示;
30、所述联合优化损失函数表示如下:
31、对于每个样本,目标标签为,真实标签分布本文档来自技高网...
【技术保护点】
1.一种基于人工智能的数据标签分类方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种基于人工智能的数据标签分类方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的一种基于人工智能的数据标签分类方法,其特征在于,所述文本数据特征使用加权平均的方式生成;所述图像数据特征采用卷积神经网络进行特征提取得到特征映射,特征映射展平得到图像数据特征;所述对两个特征进行融合形成多模态特征采用加权融合策略进行融合;
4.根据权利要求1所述的一种基于人工智能的数据标签分类方法,其特征在于,所述利用图神经网络对标签层次图进行建模,将多模态特征作为输对模型进行训练,得到训练好的复杂模型,具体包括:
5.根据权利要求4所述的一种基于人工智能的数据标签分类方法,其特征在于,所述引入图卷积网络聚合每个标签节点的邻居标签信息,更新每个标签的嵌入表示,具体包括:
6.根据权利要求1所述的一种基于人工智能的数据标签分类方法,其特征在于,在知识蒸馏过程中,对教师模型的输出进行温度缩放,生成教师模型的概率分布,然后将多模态特征输入少
7.根据权利要求6所述的一种基于人工智能的数据标签分类方法,其特征在于,所述根据标签层次图对轻量化模型的标签预测概率分布进行修正,具体包括:
8.根据权利要求1所述的一种基于人工智能的数据标签分类方法,其特征在于,所述获取新输入的数据,将新输入的数据输入到标签层次图中进行动态更新,具体包括:
9.根据权利要求8所述的一种基于人工智能的数据标签分类方法,其特征在于,所述基于修正后的标签预测概率分布的标签层次一致性正则确保模型能够自适应调整预测结果,使其符合新的标签层次依赖结构,表示如下:
10.一种基于人工智能的数据标签分类系统,其特征在于,所述系统包括:
...【技术特征摘要】
1.一种基于人工智能的数据标签分类方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种基于人工智能的数据标签分类方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的一种基于人工智能的数据标签分类方法,其特征在于,所述文本数据特征使用加权平均的方式生成;所述图像数据特征采用卷积神经网络进行特征提取得到特征映射,特征映射展平得到图像数据特征;所述对两个特征进行融合形成多模态特征采用加权融合策略进行融合;
4.根据权利要求1所述的一种基于人工智能的数据标签分类方法,其特征在于,所述利用图神经网络对标签层次图进行建模,将多模态特征作为输对模型进行训练,得到训练好的复杂模型,具体包括:
5.根据权利要求4所述的一种基于人工智能的数据标签分类方法,其特征在于,所述引入图卷积网络聚合每个标签节点的邻居标签信息,更新每个标签的嵌入表示,具体包括:
6.根据权利要...
【专利技术属性】
技术研发人员:吴东鹏,
申请(专利权)人:广州技客信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。