本发明专利技术的实施方式提供了一种深度神经网络模型的训练方法。该方法包括:当训练数据的大小发生改变时,针对改变后的训练数据,分别计算所述改变后的训练数据在预设的至少两个候选训练方案中的训练耗时;从预设的至少两个候选训练方案中选取训练耗时最小的训练方案作为所述改变后的训练数据的最佳训练方案;将所述改变后的训练数据在所述最佳训练方案中进行深度神经网络模型训练。本发明专利技术的方法可以解决现有技术中由于固定地采用某一种训练方案不适用于所有大小的训练数据而导致训练速度变慢的问题。此外,本发明专利技术的另一方面提供了一种深度神经网络模型的训练设备。
【技术实现步骤摘要】
本专利技术的实施方式涉及计算机应用领域,更具体地,本专利技术的实施方式涉及深度 神经网络模型的训练方法和设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的 描述可包括可以探宄的概念,但不一定是之前已经想到或者已经探宄的概念。因此,除非 在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技 术,并且并不因为包括在本部分中就承认是现有技术。 目前,除了可以采用单个处理器进行深度神经网络模型的训练之外,为了加快训 练速度,还可以采用多个处理器进行模型训练。并且,现有技术也提供了多种采用多个处理 器进行模型训练的训练方案,例如,基于数据并行的多处理器方案以及基于数据并行与模 型并行混合的多处理器方案等。 另外,在模型训练中,为了使最终训练出的模型具有较高的精准度,需要通过迭代 处理的方式对模型参数进行多次更新,每一次更新过程即为一次训练过程。 例如,在对深度神经网络模型进行训练时,以一次迭代处理过程为例,先将训练数 据从深度神经网络模型的首层到末层逐层地进行正向处理,并在正向处理结束后获得误差 信息;然后将误差信息从深度神经网络模型的末层到首层逐层地进行反向处理,并在反向 处理过程中获得需要进行模型参数更新的层的模型参数修正量;最后根据模型参数修正量 对需要进行模型参数更新的层的模型参数进行更新。
技术实现思路
但是,本专利技术人在研宄过程中发现,在现有技术中,当进行模型训练时,会根据上 一次迭代处理后模型的精准度适当地调整下一次迭代处理时训练数据的大小。也就是说, 在每一次迭代处理时,训练数据的大小不是固定不变的,而是根据精准度的需求而不断调 整的。而对于特定大小的训练数据来说,采用特定的训练方案会加快训练速度。例如,发 明人发现,当训练数据很小时,与其它方案相比,采用单处理器方案可以获得更快的训练速 度,而当训练数据很大时,与其它方案相比,采用基于数据并行的多处理器方案可以获得更 快的训练速度。 依照现有技术,如果固定地采用同一种模型训练方案进行模型训练,对于某一些 大小的训练数据来说,其训练速度是比较快的,但是对于其它大小的训练数据来说,其训练 速度是比较慢的。也就是说,由于固定地采用同一种训练方案不适用于所有大小的训练数 据,因此不会达到最快的训练速度。 为此,非常需要一种深度神经网络模型的训练方法和设备,以解决现有技术中由 于固定地采用同一种训练方案对所有大小的训练数据进行训练而导致对其中一些训练数 据的训练速度变慢的问题。 在本上下文中,本专利技术的实施方式期望提供一种深度神经网络模型的训练方法和 设备。 在本专利技术实施方式的第一方面中,提供了一种深度神经网络模型的训练方法,包 括: 当训练数据的大小发生改变时,针对改变后的训练数据,分别计算所述改变后的 训练数据在预设的至少两个候选训练方案中的训练耗时; 从预设的至少两个候选训练方案中选取训练耗时最小的训练方案作为所述改变 后的训练数据的最佳训练方案; 将所述改变后的训练数据在所述最佳训练方案中进行深度神经网络模型训练。 在本专利技术实施方式的第二方面中,提供了一种深度神经网络模型的训练设备,包 括: 计算单元,用于当训练数据的大小发生改变时,针对改变后的训练数据,分别计算 所述改变后的训练数据在预设的至少两个候选训练方案中的训练耗时; 选取单元,用于从预设的至少两个候选训练方案中选取训练耗时最小的训练方案 作为所述改变后的训练数据的最佳训练方案; 模型训练单元,用于将所述改变后的训练数据在所述最佳训练方案中进行深度神 经网络模型训练。 在本专利技术实施方式中,在模型训练时,对于不同大小的训练数据,不再固定地采用 同一种训练方案进行训练,而在选择适用于该训练数据的最佳训练方案进行训练,即,采用 训练速度最快的训练方案。这样可以避免由于固定地采用同一种训练方案对所有大小的训 练数据进行训练而导致的对其中一些训练数据的训练速度变慢的问题。【附图说明】 通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目 的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若 干实施方式,其中: 图1示意性地示出了本专利技术实施方式可以在其中实施的一个示例性场景; 图2示意性地示出了根据本专利技术的一个实施方式的深度神经网络模型的训练方 法的流程图; 图3示意性地示出了根据本专利技术的一个实施方式的计算改变后的训练数据在一 个候选训练方案中的训练耗时的方法的流程图; 图4示意性地示出了根据本专利技术的一个实施方式的基于数据并行的多处理器方 案的训练方法的流程图; 图5示意性地示出了根据本专利技术的一个实施方式的基于数据并行与模型并行混 合的多处理器方案的训练方法的流程图; 图6示意性地示出了根据本专利技术的另一个实施方式的深度神经网络模型的训练 方法的流程图; 图7示意性地示出了根据本专利技术的一个实施方式的模型参数同步的操作示意图; 图8示意性地示出了根据本专利技术的另一个实施方式的模型参数同步的操作示意 图; 图9示意性地示出了根据本专利技术的另一个实施方式的模型参数同步的操作示意 图; 图10示意性地示出了根据本专利技术的另一个实施方式的模型参数同步的操作示意 图; 图11示意性地示出了根据本专利技术一个实施方式的深度神经网络模型的训练设备 的结构框架图。 在附图中,相同或对应的标号表不相同或对应的部分。【具体实施方式】 下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这 些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何 方式限制本专利技术的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能 够将本公开的范围完整地传达给本领域的技术人员。 本领域技术人员知道,本专利技术的实施方式可以实现为一种系统、装置、设备、方法 或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件 (包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。 根据本专利技术的实施方式,提出了一种深度神经网络模型的训练方法和设备。 在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何 命名都仅用于区分,而不具有任何限制含义。 下面参考本专利技术的若干代表性实施方式,详细阐释本专利技术的原理和精神。 专利技术概沐 本专利技术人发现,针对不同大小的训练数据,如果固定地采用同一种模型训练方案 进行模型训练,很可能会只会达到对其中一些训练数据的训练速度比较快,而对其余一些 训练数据的训练数据比较慢。即,从训练速度最优化的角度来看,固定的同一种训练方案并 不适用于所有大小的训练数据。 如果针对不同大小的训练数据,采用适用于该训练数据的最佳训练方案,即,采用 训练速度最快的训练方案,而不是固定地采用同一种训练方案的话,就可以避免前面所述 的由于固定地采用同一种训练方案对所有大小的训练数据进行训练而导致的对其中一些 训练数据的训练速度变慢的问题。 在介绍了本专利技术的基本原理之后,下面具体介绍本专利技术的各种非限制性实施方 式。 应用场景总览 首先参考图1,图1示意性地示出了本专利技术的实施方式可以在其中实施的示例性 应用场景。其中,在进行每一次模型训练时,将本次训练的训本文档来自技高网...
【技术保护点】
一种方法,包括:当训练数据的大小发生改变时,针对改变后的训练数据,分别计算所述改变后的训练数据在预设的至少两个候选训练方案中的训练耗时;从预设的至少两个候选训练方案中选取训练耗时最小的训练方案作为所述改变后的训练数据的最佳训练方案;将所述改变后的训练数据在所述最佳训练方案中进行模型训练。
【技术特征摘要】
【专利技术属性】
技术研发人员:陈海波,吴伟,李晓燕,
申请(专利权)人:杭州朗和科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。