使用预训练的特征提取器训练蒸馏的机器学习模型制造技术

技术编号:35507063 阅读:22 留言:0更新日期:2022-11-09 14:19
公开了使用具有预训练的特征提取器的教师机器学习模型来训练学生机器学习模型的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,方法包括获得指定被配置为执行机器学习任务的教师机器学习模型的数据;获得第一训练数据;在第一训练数据上训练教师机器学习模型,以获得训练的教师机器学习模型;通过使用训练的教师机器学习模型处理未标记的训练数据,生成第二自动标记的训练数据;以及至少使用第二自动标记的训练数据,训练学生机器学习模型以执行机器学习任务,其中,所述学生机器学习模型不包括预训练的特征提取器,而是包括具有比预训练的特征提取器更少的参数的不同的特征提取器。取器更少的参数的不同的特征提取器。取器更少的参数的不同的特征提取器。

【技术实现步骤摘要】
使用预训练的特征提取器训练蒸馏的机器学习模型


[0001]本说明书涉及训练机器学习模型,例如用于部署机载自主载具。

技术介绍

[0002]自主载具包括自驾驶小汽车、船只和飞行器。自主载具使用各种机载传感器和计算机系统来检测附近的对象及其相应特性(定位、形状、航向、速度等),并使用这样的检测来进行控制和导航决策。
[0003]一些自主载具具有实现用于传感器数据内的对象检测或分类的神经网络的计算机系统。
[0004]机器学习模型接收输入,并且基于接收的输入以及基于模型的参数值生成输出。例如,机器学习模型可以接收图像并为一组类中的每个类生成分数,其中,给定类的分数表示图像包含属于该类的对象的图像的概率。
[0005]机器学习模型可以由例如单级(single level)的线性或非线性操作组成,或者可以是深度网络,即由多级(multiple levels)组成的机器学习模型,其中一个或多个级可以是非线性操作的层(layer)。深度网络的示例是具有一个或多个隐藏层的神经网络。

技术实现思路

[0006]本说明书总体上描述了实现为在一个或多个位置的一个或多个计算机上的一个或多个计算机程序的系统,其使用教师机器学习模型(或,简称“教师模型”)来训练学生机器学习模型(或,简称“学生模型”)以执行第一机器学习任务。
[0007]在训练学生机器学习模型以执行第一项任务期间,系统使用基准真实(ground truth)输出和由已经训练的教师机器学习模型生成的教师输出二者。
[0008]特别地,教师机器学习模型是具有已作为不同的机器学习模型的一部分进行了预训练的特征提取器的机器学习模型,不同的机器学习模型例如通过训练被配置为执行不同的第二机器学习任务。也就是说,教师机器学习模型的一部分可以根据不同的机器学习模型的已知架构和不同机器学习模型的已知(例如,训练的)参数值来实例化。
[0009]例如,第一机器学习任务可以是对象分类或检测任务,其中教师或学生机器学习模型可以通过处理包括视觉数据(诸如图像或点云数据)的输入来执行任务,以生成分类或检测输出,并且第二机器学习任务可以是各种图像理解任务中的任何任务。不同图像理解任务的要求和细节可能会有所变化,但是典型地,由不同机器学习模型执行图像理解任务可以包括处理包括图像数据的输入,以识别或定位图像数据的给定组的性质或其他更高级别(level)的特征。作为一个特定示例,第二任务可以是预测不同图像相对于某些给定文本(例如,接收的搜索查询)的相关性的任务。作为另一特定示例,第二任务可以是识别图像数据中存在的一个或多个对象的位置的对象定位任务(而无需分类一个或多个对象)。
[0010]一般,特征提取器被配置为处理第二机器学习任务的输入、从输入导出的数据或两者以生成输入的嵌入,并且第二机器学习模型可以通过从由特征提取器生成的嵌入生成
针对第二任务的输出来执行不同的任务。在本说明书中,嵌入(embedding)是表示特定嵌入空间中的输入的数值(numeric value)的有序集合。例如,嵌入可以是具有固定维度的浮点或其他数值的数据结构(例如,向量)。
[0011]可以实现本说明书中描述的主题的特定实施例以实现以下优点中的一个或多个。
[0012]可能使用已经被训练的繁琐的教师机器学习模型训练的蒸馏的学生机器学习模型比繁琐的教师机器学习模型更容易部署,即,因为它比繁琐的教师机器学习模型要求更少的计算、内存(memory)或两者以在运行时间生成输出。一旦被使用教师机器学习模型进行训练,学生机器学习模型可以生成与教师机器学习模型生成的输出一样好的甚至更好的输出,尽管它比教师机器学习更容易部署或使用更少的计算资源模型。因此,学生机器学习模型适合部署在具有有限的计算能力或资源的设备上,例如,部署在载具或机器人的机载系统上或智能手机、平板计算机、智能扬声器或其他智能设备上。
[0013]然而,为了使用知识蒸馏执行特定的机器学习任务的训练,通常要求使用大量标记的训练数据来训练繁琐(例如,大型或深度)的教师机器学习模型,以便教师模型在目标任务上达到可接受级别的性能。这样的要求通常是不切实际的。在某些情况下,教师机器学习模型的适当架构可能难以确定,例如,通过冗长且耗时的手工设计过程,或者甚至使用一些自动架构搜索技术。在其他情况下,大型机器学习模型在其能够实际用于训练学生机器学习模型之前训练的计算成本可能很高。此外,适用于特定任务的大量标记的训练数据并不总是可用的。
[0014]另一方面,对于与特定任务不同的各种机器学习任务中的任何任务,可能存在一个或多个专家特征提取器,专家特征提取器已被配置为(例,如通过训练)从不同任务的输入生成(例如,以嵌入的形式)提取的特征,其可以帮助不同的机器学习模型通过处理提取的特征在不同任务上获得至少一个阈值级别的性能。例如,专家特征提取器(例如,作为不同机器学习模型的额部分)和教师机器学习模型可以分别被配置为执行都属于共同域(domain)或领域(例如,数字图像处理或机器感知领域)的有区别的任务。例如,专家特征提取器和教师机器学习模型可以被配置为处理具有相同类型或模态的模型输入(但被配置为生成不同类型的输出)。
[0015]通过根据这样的完全训练的专家特征提取器的架构和参数值实例化教师机器学习模型的至少一部分,本说明书中描述的使用知识蒸馏的训练系统可以以比其他现有训练系统的计算效率更高的方式训练学生机器学习模型。例如,可以减少手工设计教师机器学习模型要求的人类劳动。作为另一个示例,也可以减少训练教师机器学习模型要求的计算资源量、特定于任务的标记的训练数据量或两者。相反,在特定任务上微调教师机器学习模型只需要最少量的计算资源和最少量的特定于任务的标记的训练数据。
[0016]本说明书中描述的训练系统可以应用知识蒸馏技术以从专家特征提取器提取与不同任务相关的知识,并从教师机器学习模型提取与特定任务相关的知识。提取的知识可以被赋予学生机器学习模型,学生机器学习模型可以用于以与教师机器学习模型相当的或甚至更好的准确度来执行特定任务,例如,因为学生机器学习模型受益于通过教师模型和专家特征提取器二者学习的知识,尽管学生机器学习模型比教师机器学习模型更容易部署或使用更少的计算资源。
[0017]本说明书的主题的一个或多个实施例的细节在附图和以下描述中阐述。本主题的
其他特征、方面和优点将从描述、附图和权利要求中变得清晰。
附图说明
[0018]图1是示例机载系统的框图。
[0019]图2是示例训练系统的框图。
[0020]图3是学生和教师机器学习模型的示例架构的图示。
[0021]图4是用于训练学生机器学习模型的示例过程的流程图。
[0022]各个附图中相同的附图标记和指定指示相同的元素。
具体实施方式
[0023]本说明书总体描述了实现为一个或多个位置的一个或多个计算机上的一个或多个计算机程序的系统,该系统使用教师机器学习模型训练学生机器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:获得指定被配置为执行机器学习任务的教师机器学习模型的数据,其中,所述教师机器学习模型具有预训练的特征提取器,其(i)被配置为接收输入图像,并处理输入图像以生成输入图像的嵌入,并且(ii)已作为不同的图像处理神经网络的一部分进行了预训练,所述不同的图像处理神经网络被配置为通过从由预训练的特征提取器生成的嵌入生成针对不同的机器学习任务的输出来执行不同的机器学习任务;获得包括多个第一训练输入的第一训练数据,每个第一训练输入与基准真实输出相关联;在第一训练数据上训练教师机器学习模型,以获得训练的教师机器学习模型;通过使用训练的教师机器学习模型处理包括多个第二训练输入的未标记的训练数据以生成针对每个第二训练输入的伪基准真实输出,来生成第二自动标记的训练数据;以及至少使用第二自动标记的训练数据训练学生机器学习模型以执行机器学习任务,其中,所述学生机器学习模型不包括预训练的特征提取器,而是包括具有比预训练的特征提取器更少的参数的不同的特征提取器。2.如权利要求1所述的方法,其中,所述教师机器学习模型被配置为通过处理包括输入图像和点云数据的教师模型输入来执行机器学习任务。3.如权利要求1或2中任一项所述的方法,其中,在第一训练数据上训练教师机器学习模型以获得训练的教师机器学习模型包括:使用预训练的特征提取器处理第一训练输入以生成第一训练输入的嵌入;从第一训练输入的嵌入生成针对机器学习任务的教师模型训练输出;以及基于教师模型训练输出和与第一训练输入相关联的基准真实输出之间的差异,确定对教师机器学习模型的参数值的更新。4.如权利要求1

3中任一项所述的方法,其中,针对每个第二训练输入的伪基准真实输出是软目标输出。5.如权利要求1

3中任一项所述的方法...

【专利技术属性】
技术研发人员:M季ES小沃克Y宋Z郭C李
申请(专利权)人:伟摩有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1