当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于深度神经网络的经预算和经简化的训练的方法和系统技术方案

技术编号:22392513 阅读:35 留言:0更新日期:2019-10-29 07:59
公开了一种用于深度神经网络(DNN)的经预算和经简化的训练的方法和系统。在一个示例中,训练器用于使用从经向下采样的训练图像导出的多个训练子图像来训练DNN。测试器用于使用从经向下采样的测试图像导出的多个测试子图像来测试经训练的DNN。在另一示例中,在具有位于卷积神经网络(CNN)与长‑短时间存储器(LSTM)之间的局部注意力机制的递归深度Q网络(RDQN)中,由CNN从输入图像生成多个特征映射。由局部注意力机制通过选择所生成的特征映射的子集来将硬注意力应用到所生成的多个特征映射。由局部注意力机制通过向所生成的特征映射的所选子集提供权重以获得加权的特征映射,来将软注意力应用到所生成的特征映射的所选子集。将加权的特征映射存储在LSTM中。基于存储在LSTM中的加权的特征映射来针对不同动作计算Q值。

Budget and simplified training methods and systems for deep neural networks

【技术实现步骤摘要】
【国外来华专利技术】用于深度神经网络的经预算和经简化的训练的方法和系统
本专利技术的实施例属于数据处理领域,包括图像处理、图形处理和机器学习。更具体地,本专利技术的实施例涉及用于深度神经网络(DNN)的经预算的(budgeted)和经简化的训练的方法和系统。
技术介绍
当前并行图形数据处理包括被开发成对图形数据执行特定操作(诸如例如线性内插、曲面细分、光栅化、纹理映射、深度测试等)的系统和方法。传统上,图形处理器使用固定功能计算单元来处理图形数据;然而,最近,已经使图形处理器的部分可编程,使此类处理器能够支持用于处理顶点和片段数据的各种各样的操作。为了进一步增加性能,图形处理器通常实现诸如尝试并行处理遍及图形流水线的不同部分的尽可能多的图形数据的流水线操作的处理技术。具有单指令多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理的量。在SIMT架构中,并行线程组尝试尽可能经常地一起同步执行程序指令以增加处理效率。用于SIMT架构的软件和硬件的一般概述可以在ShaneCook的CUDAProgramming,第3章,第37-51页(2013)中找到。机器学习已经在解决许多种任务方面取得了成功。在训练和使用机器学习算法(例如,神经网络)时出现的计算本身自然地适用于有效的并行实现。因此,诸如通用图形处理单元(GPGPU)之类的并行处理器已经在深度神经网络的实际实现中起到了重要作用。具有单指令、多线程(SIMT)架构的并行图形处理器被设计成最大化图形流水线中的并行处理的量。在SIMT架构中,并行线程组尝试尽可能经常地一起同步执行程序指令以增加处理效率。并行机器学习算法实现提供的效率允许使用高容量网络,并且使得这些网络能够在更大的数据集上被训练。深度神经网络(DNN)由于其特征识别功能而可以执行在计算机视觉和图像识别应用中有用的深度机器学习。DNN包括具有节点的层,这些节点被组织成一组“滤波器”,这些滤波器可以充当特征检测器。每组滤波器的输出被传播到网络的连续层中的节点。DNN处理在具有多个节点的每个层处可以是计算密集的,其中要针对图像检测和处理应用来计算多个参数。此外,DNN的训练和学习可能是广泛的,如果数量(number)层和节点是深的,则需要大量的训练数据和参数的使用。因此,所需要的是针对DNN的改进的训练和学习技术。附图说明附图示出了示例、并且因此示出了示例性实施例,并且不认为附图在范围方面是限制性的。图1是图示了被配置成实现本文中描述的示例性实施例的一个或多个方面的计算机系统的框图。图2A-2D图示了根据示例性实施例的并行处理器部件。图3A-3B是根据示例性实施例的图形多处理器的框图。图4A-4F图示了示例性架构,在其中多个图形处理单元(GPU)通信地耦合到多个多核处理器。图5图示了根据示例性实施例的图形处理流水线。图6图示了根据示例性实施例的机器学习软件栈。图7图示了根据示例性实施例的高度并行通用图形处理单元。图8图示了根据示例性实施例的多GPU计算系统。图9A-9B图示了示例性深度神经网络的层。图10图示了示例性递归神经网络。图11图示了深度神经网络的训练和部署的示例性实施例。图12是图示了分布式学习的示例性框图。图13图示了适合用于使用训练模型执行推理的示例性推理片上系统(SOC)。图14是具有深度神经网络(DNN)训练和学习系统的基本训练和学习架构的示例性框图,所述训练和学习系统用以接收用于学习和训练DNN的训练数据。图15图示了用于为学习机器选择图像数据的示例性过程。图16A是可以实现针对DNN的经预算的训练和学习技术的学习系统的示例性框图。图16B-16C图示了用于训练和测试DNN的操作的示例性流程图。图17A是根据示例性实施例的改进的深度递归Q网络(DRQN)架构的框图。图17B图示了针对图17A的改进的DRQN的示例性操作的流程图。图18A是根据另一示例性实施例的改进的DRQN架构的框图。图18B图示了针对图18A的改进的DRQN的示例性操作的流程图。图19图示了根据示例性实施例的处理系统的框图。图20图示了具有一个或多个处理器核、集成存储器控制器和集成图形处理器的处理器的实施例的示例性框图。图21图示了图形处理器的示例性框图。图22图示了根据示例性实施例的图形处理器的图形处理引擎的框图。图23图示了图形处理器的另一示例性实施例的框图。图24图示了线程执行逻辑,其包括在图形处理引擎(GPE)的示例性实施例中采用的处理元件的阵列。图25图示了根据示例性实施例的图形处理器指令格式的框图。图26图示了图形处理器的示例性实施例的框图。图27A图示了根据示例性实施例的图形处理器命令格式的框图。图27B图示了根据示例性实施例的图形处理器命令序列的框图。图28图示了根据示例性实施例的用于数据处理系统的示例性图形软件架构。图29图示了根据示例性实施例的可以用于制造集成电路(IC)以执行操作的IP核开发系统的框图。图30图示了根据示例性实施例的可以使用一个或多个IP核来制造的示例性片上系统IC的框图。图31图示了根据示例性实施例的可以使用一个或多个IP核来制造的片上系统IC上的示例性图形处理器的框图。图32图示了根据示例性实施例的可以使用一个或多个IP核来制造的片上系统IC的示例性附加图形处理器的框图。具体实施方式在一些实施例中,图形处理单元(GPU)通信地耦合到主机/处理器核以使图形操作、机器学习操作、模式分析操作、以及各种通用GPU(GPGPU)功能加速。GPU可通过总线或另一互连(例如,诸如PCIe或NVLink之类的高速互连)通信地耦合到主机处理器/核。在其他实施例中,GPU可被集成在与核相同的封装或芯片上,并通过内部处理器总线/互连(即,在封装或芯片内部)通信地耦合到核。不管GPU被连接的方式,处理器核都可以以工作描述符中所包含的命令/指令的序列的形式将工作分配给GPU。GPU然后使用专用电路/逻辑以用于高效地处理这些命令/指令。在一些实施例中,图像捕获设备是用于捕获输入图像的独立设备。然而,图像捕获设备可以是需要图像捕获能力的另一计算设备的一部分或子部件,所述另一计算设备诸如具有用于捕获图像的数字相机的便携式或手持式计算设备。在以下描述中,阐述了很多特定细节来提供更彻底的理解。然而,将显而易见的是,可以在没有这些特定细节中的一个或多个的情况下实践本文中所描述的实施例。在其他实例中,没有描述公知的特征以避免使示例性实施例的细节模糊。计算系统概述图1是图示了被配置成实现本文中所描述的示例性实施例的一个或多个方面的计算系统100的框图。计算系统100包括处理子系统101,所述处理子系统101具有经由互连路径进行通信的一个或多个处理器102和系统存储器104,所述互连路径可以包括存储器中枢105。存储器中枢105可以是芯片组部件内的单独的部件,或者可以集成在所述一个或多个处理器102内。存储器中枢105经由通信链路106与I/O子系统111耦合。I/O子系统111包括I/O中枢107,所述I/O中枢107可以使得计算系统100能够从一个或多个输入设备108接收输入。另外,I/O中枢107可以使得显示控制器能够向一个或多个显示设备110A提供输出,所述显示控制器可以被包括在所述一个或多个处本文档来自技高网...

【技术保护点】
1.一种用于深度神经网络(DNN)的方法,包括:将训练图像亚采样成多个训练子图像;随机选择多个子图像;以及利用随机选择的多个训练子图像来训练DNN,以获得训练结果。

【技术特征摘要】
【国外来华专利技术】1.一种用于深度神经网络(DNN)的方法,包括:将训练图像亚采样成多个训练子图像;随机选择多个子图像;以及利用随机选择的多个训练子图像来训练DNN,以获得训练结果。2.如权利要求1所述的方法,进一步包括:将测试图像亚采样成多个测试子图像;随机选择第一测试子图像;以及利用随机选择的第一测试图像来测试经训练的DNN,以获得第一测试结果。3.如权利要求2所述的方法,进一步包括:随机选择第二测试子图像;利用随机选择的第二测试图像来测试经训练的DNN,以获得第二测试结果;以及将所述第一测试结果和所述第二测试结果进行组合,以便选择所述第一测试结果和所述第二测试结果中的一个作为最终结果。4.如权利要求1所述的方法,其中每个训练子图像具有比训练图像更小的分辨率。5.如权利要求2所述的方法,其中每个测试子图像具有比测试图像更小的分辨率。6.一种用于服务器的系统,包括:处理核,其具有深度神经网络(DNN);I/O控制器中枢,其耦合到所述处理核,并且用于为所述处理核提供网络、数据存储和DNN访问;以及图形处理器,其耦合到所述I/O控制器中枢,并且用于使用从经向下采样的训练图像导出的多个训练子图像来训练DNN,以及使用从经向下采样的测试图像导出的多个测试子图像来测试经训练的DNN。7.如权利要求6所述的系统,其中所述图形处理器用于将测试图像亚采样成多个测试子图像,随机选择第一测试子图像,以及利用随机选择的第一测试图像来测试经训练的DNN,以获得第一测试结果。8.如权利要求7所述的系统,其中所述图形处理器用于随机选择第二测试子图像,利用随机选择的第二测试图像来测试经训练的DNN,以获得第二测试结果,以及将所述第一测试结果和所述第二测试结果进行组合,以便选择所述第一测试结果和所述第二测试结果中的一个作为最终结果。9.如权利要求6所述的系统,其中每个训练子图像具有比训练图像更小的分辨率。10.如权利要求7所述的系统,其中每个测试子图像具有比测试图像更小的分辨率。11.在具有位于卷积神经网络(CNN)与长-短时间存储器(LSTM)之间的局部注意力机制的递归深度Q网络(RD...

【专利技术属性】
技术研发人员:郭怡文侯宇清姚安邦蔡东琪王立彬徐琳胡平王山东程文华陈玉荣
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1