多层感知机模型生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:39255186 阅读:19 留言:0更新日期:2023-10-30 12:06
本申请涉及一种多层感知机模型生成方法、装置、计算机设备和存储介质。方法包括:接收用户输入数据;读取用户输入数据中携带的用户指定模型参数以及对应的用户指定模型值;将预定模型参数集合中的用户指定模型参数设置为用户指定模型值,并将除用户指定模型参数之外的其余模型参数设置为在默认取值范围内取随机值;以设置后的预定模型参数集合为约束条件,在预定感知机搜索空间中随机搜索以生成M个初始多层感知机模型架构;对每个初始多层感知机模型架构进行训练和评估,以确定M个经训练多层感知机模型和对应的M个第一性能评估值;输出具有最高第一性能评估值的经训练多层感知机模型。采用本方法能够灵活地根据用户需求生成多层感知机模型。成多层感知机模型。成多层感知机模型。

【技术实现步骤摘要】
多层感知机模型生成方法、装置、计算机设备和存储介质


[0001]本申请涉及神经网络架构搜索
,特别是涉及一种多层感知机模型生成方法、装置、计算机设备和存储介质。

技术介绍

[0002]深度神经网络在各种领域中得到广泛应用。针对不同的任务和使用场景需求,需要设计不同的神经网络架构。具体来讲,神经网络中包含诸多架构上的复杂超参,这些超参可以严重影响神经网络的表现,并且根据不同的任务,这些超参的设定也不同。因此,往往需要研究人员随机设定或者根据经验来调整这些超参,以满足不同需求。但是以试错的方式设计网络超参的耗时且繁杂,能够找寻的架构有限,而且需要研发人员具有相当的专业知识和经验。
[0003]神经网络架构搜索(Neural Architecture Search,NAS)技术允许自动执行任务以发现更复杂的架构,基于NAS技术的架构生成工具,能够使用搜索策略在搜索空间中测试和评估大量架构,并从中选出满足需求的目标架构。
[0004]然而,目前已有的架构生成工具大多针对于更为复杂的卷积神经网络,并且针对较为复杂的数据类型,如图片和自然语言,缺乏适用于多层感知机模型且针对结构化数据的架构生成工具。已有的架构生成工具一般需要依赖于较为复杂的搜索算法等,这往往产生更为复杂的编程工具包依赖,甚至要求使用特定的操作系统,导致使用门槛高、使用不便等缺点。除此之外,这些已有架构生成工具的搜索空间参数往往较为固定,不能根据需求而灵活调整,难以满足用户的多样化需求。

技术实现思路

[0005]基于此,有必要针对上述至少一个技术问题,提供一种能够灵活根据用户需求调整参数的多层感知机模型生成方法、装置、计算机设备和存储介质。
[0006]一种多层感知机模型生成方法,包括:接收用户输入数据;读取所述用户输入数据中携带的用户指定模型参数以及对应的用户指定模型值;将预定模型参数集合中的所述用户指定模型参数设置为所述用户指定模型值,并将所述预定模型参数集合中除所述用户指定模型参数之外的其余模型参数设置为在默认取值范围内取随机值;以设置后的所述预定模型参数集合为约束条件,在预定感知机搜索空间中随机搜索以生成M个初始多层感知机模型架构;其中,M为正整数;对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行训练和评估,以确定M个经训练多层感知机模型和对应的M个第一性能评估值;从M个经训练多层感知机模型中,输出具有最高第一性能评估值的经训练多层感知机模型。
[0007]一种多层感知机模型生成装置,包括:输入接收模块,用于接收用户输入数据;输入读取模块,用于读取所述用户输入数据中携带的用户指定模型参数以及对应的用户指定模型值;模型参数设置模块,用于将预定模型参数集合中的所述用户指定模型参数设置为用户指定模型值,并将所述预定模型参数集合中除所述用户指定模型参数之外的其余模型参数设置为在默认取值范围内取随机值;模型搜索模块,用于以设置后的所述预定模型参数集合为约束条件,在预定感知机搜索空间中随机搜索以生成M个初始多层感知机模型架构;其中,M为正整数;模型训练评估模块,用于对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行训练和评估,以确定M个经训练多层感知机模型和对应的M个第一性能评估值;模型输出模块,用于从M个经训练多层感知机模型中,输出具有最高第一性能评估值的经训练多层感知机模型。
[0008]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的多层感知机模型生成方法的步骤。
[0009]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的多层感知机模型生成方法的步骤。
[0010]上述多层感知机模型生成方法、装置、计算机设备和存储介质,可以针对多层感知机模型的特性,设计对应的预定模型参数集合,且集合中的每个参数具有预定义的默认取值范围。用户可以根据需求灵活地从集合中指定想要自定义的用户指定模型参数。其中,对于用户指定模型参数,采用用户指定模型值,而对于其余用户未指定的模型参数,则在默认取值范围内随机取值。如此,能够灵活地根据用户需求指定其中的部分参数的取值,同时确保剩余参数的取值的随机性,从而能够灵活地根据用户需求生成对应的初始多层感知机模型架构。此外,本申请可以生成所需个数的初始多层感知机模型架构,并从中训练、评估和选取第一性能评估值最优的经训练多层感知机模型,相较于仅生成单个初始多层感知机模型架构进行训练和评估,本申请能够搜索得到性能更优的经训练多层感知机模型。
附图说明
[0011]图1为一个实施例中多层感知机模型生成方法的流程示意图;图2为一个实施例中预定模型参数集合设置步骤的流程示意图;图3为一个实施例中初始多层感知机模型架构训练和评估步骤的流程示意图;图4为一个实施例中预定训练参数集合设置步骤的流程示意图;图5为一个实施例中针对M个初始多层感知机模型架构,确定M个经训练多层感知机模型和对应的M个训练损失值步骤的流程示意图;图6为一个实施例中针对每个初始多层感知机模型架构,确定N个第一候选多层感知机模型和对应的N个训练损失值步骤的流程示意图;图7为一个实施例中经训练多层感知机模型输出步骤的流程示意图;图8为一个实施例中多层感知机模型生成装置的结构框图;
图9为一个实施例中计算机设备的内部结构图;图10为另一个实施例中计算机设备的内部结构图。
具体实施方式
[0012]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0013]本申请提供的多层感知机模型生成方法,可以应用于计算机设备中,该计算机设备例如可以是终端和/或服务器。该计算机设备可以具有人机接口,或者可以与具有人机接口的终端通信,以经由人机接口接收用户输入的用户输入数据,和/或经由人机接口向用户输出/展示信息。该计算机设备基于接收到的用户输入数据,执行本申请实施例的多层感知机模型生成方法,以生成和输出满足用户需求的经训练多层感知机模型。
[0014]例如,本申请方法可以由终端执行,该终端具有例如显示器、鼠标、键盘等输入/输出装置,用户利用输入装置向终端输入用户输入数据,终端执行本申请的多层感知机模型生成方法,并经由输出装置向用户输出所生成的经训练多层感知机模型。又例如,本申请方法可以由服务器执行,该服务器与终端通信连接,该终端具有例如显示器、鼠标、键盘等输入/输出装置,用户利用输入装置向终端输入用户输入数据,终端将用户输入的用户输入数据发送至服务器,服务器执行本申请的多层感知机模型生成方法,将生成的经训练多层感知机模型发送至终端,终端经由输出装置向用户输出所生成的经训练多层感知机模型。其中,终端可以但不限于是各种个人计算机、笔记本电脑、专用设备等,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0015]在一个实施例中,如图1所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多层感知机模型生成方法,其特征在于,所述方法包括:接收用户输入数据;读取所述用户输入数据中携带的用户指定模型参数以及对应的用户指定模型值;将预定模型参数集合中的所述用户指定模型参数设置为所述用户指定模型值,并将所述预定模型参数集合中除所述用户指定模型参数之外的其余模型参数设置为在默认取值范围内取随机值;以设置后的所述预定模型参数集合为约束条件,在预定感知机搜索空间中随机搜索以生成M个初始多层感知机模型架构;其中,M为正整数;对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行训练和评估,以确定M个经训练多层感知机模型和对应的M个第一性能评估值;从M个经训练多层感知机模型中,输出具有最高第一性能评估值的经训练多层感知机模型。2.根据权利要求1所述的多层感知机模型生成方法,其特征在于,所述对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行训练和评估,以确定M个经训练多层感知机模型和对应的M个第一性能评估值,包括:读取所述用户输入数据中携带的用户指定训练参数以及对应的用户指定训练值;将预定训练参数集合中的所述用户指定训练参数设置为用户指定训练值,并将所述预定训练参数集合中除所述用户指定训练参数之外的其余训练参数设置为在默认取值范围内取随机值;获取训练集,依照设置后的所述预定训练参数集合,利用获取的训练集对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行训练,以得到M个经训练多层感知机模型和对应的M个训练损失值。3.根据权利要求2所述的多层感知机模型生成方法,其特征在于,所述获取训练集,依照设置后的所述预定训练参数集合,利用获取的训练集对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行训练,以得到M个经训练多层感知机模型和对应的M个训练损失值,包括:获取训练集,依照设置后的所述预定训练参数集合,利用获取的训练集对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行N次训练,以针对每个初始多层感知机模型架构得到N个第一候选多层感知机模型和对应的N个训练损失值,将N个第一候选多层感知机模型中训练损失值最小的第一候选多层感知机模型用作经训练多层感知机模型,并将N个训练损失值的平均值用作经训练多层感知机模型对应的训练损失值,从而得到M个经训练多层感知机模型和对应的M个训练损失值;其中,N为正整数。4.根据权利要求3所述的多层感知机模型生成方法,其特征在于,所述获取训练集,依照设置后的所述预定训练参数集合,利用获取的训练集对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行N次训练,以针对每个初始多层感知机模型架构得到N个第一候选多层感知机模型和对应的N个训练损失值,包括:当根据所述用户输入数据确定用户未指定禁用验证集时,从所述用户输入数据中获取用户输入的训练数据和训练标签对,将所述训练数据和训练标签对按照默认比例值划分为训练集和验证集;以及,利用划分的训练集对所述M个初始多层感知机模型架构中的每个初
始多层感知机模型架构进行N次训练,并在每次训练中利用划分的验证集对训练所得的模型进行验证以得到训练损失值,以针对每个初始多层感知机模型架构得到N个第一候选多层感知机模型和对应的N个训练损失值;当根据所述用户输入数据确定用户指定禁用验证集时,从所述用户输入数据中获取用户输入的训练数据和训练标签对,作为获取的训练集;以及,利用划分的训练集对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行N次训练,并记录每次训练中的训练损失值,以针对每个...

【专利技术属性】
技术研发人员:张震林杨扬刘张代红大卫
申请(专利权)人:上海交通大学医学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1