多层感知机模型生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：39255186 阅读：29 留言：0更新日期：2023-10-30 12:06

本申请涉及一种多层感知机模型生成方法、装置、计算机设备和存储介质。方法包括：接收用户输入数据；读取用户输入数据中携带的用户指定模型参数以及对应的用户指定模型值；将预定模型参数集合中的用户指定模型参数设置为用户指定模型值，并将除用户指定模型参数之外的其余模型参数设置为在默认取值范围内取随机值；以设置后的预定模型参数集合为约束条件，在预定感知机搜索空间中随机搜索以生成M个初始多层感知机模型架构；对每个初始多层感知机模型架构进行训练和评估，以确定M个经训练多层感知机模型和对应的M个第一性能评估值；输出具有最高第一性能评估值的经训练多层感知机模型。采用本方法能够灵活地根据用户需求生成多层感知机模型。成多层感知机模型。成多层感知机模型。

全部详细技术资料下载

【技术实现步骤摘要】
多层感知机模型生成方法、装置、计算机设备和存储介质

[0001]本申请涉及神经网络架构搜索
，特别是涉及一种多层感知机模型生成方法、装置、计算机设备和存储介质。

技术介绍

[0002]深度神经网络在各种领域中得到广泛应用。针对不同的任务和使用场景需求，需要设计不同的神经网络架构。具体来讲，神经网络中包含诸多架构上的复杂超参，这些超参可以严重影响神经网络的表现，并且根据不同的任务，这些超参的设定也不同。因此，往往需要研究人员随机设定或者根据经验来调整这些超参，以满足不同需求。但是以试错的方式设计网络超参的耗时且繁杂，能够找寻的架构有限，而且需要研发人员具有相当的专业知识和经验。
[0003]神经网络架构搜索（Neural Architecture Search，NAS）技术允许自动执行任务以发现更复杂的架构，基于NAS技术的架构生成工具，能够使用搜索策略在搜索空间中测试和评估大量架构，并从中选出满足需求的目标架构。
[0004]然而，目前已有的架构生成工具大多针对于更为复杂的卷积神经网络，并且针对较为复杂的数据类型，如图片和自然语言，缺乏适用于多层感知机模型且针对结构化数据的架构生成工具。已有的架构生成工具一般需要依赖于较为复杂的搜索算法等，这往往产生更为复杂的编程工具包依赖，甚至要求使用特定的操作系统，导致使用门槛高、使用不便等缺点。除此之外，这些已有架构生成工具的搜索空间参数往往较为固定，不能根据需求而灵活调整，难以满足用户的多样化需求。

技术实现思路

[0005]基于此，有必...

【技术保护点】

【技术特征摘要】
1.一种多层感知机模型生成方法，其特征在于，所述方法包括：接收用户输入数据；读取所述用户输入数据中携带的用户指定模型参数以及对应的用户指定模型值；将预定模型参数集合中的所述用户指定模型参数设置为所述用户指定模型值，并将所述预定模型参数集合中除所述用户指定模型参数之外的其余模型参数设置为在默认取值范围内取随机值；以设置后的所述预定模型参数集合为约束条件，在预定感知机搜索空间中随机搜索以生成M个初始多层感知机模型架构；其中，M为正整数；对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行训练和评估，以确定M个经训练多层感知机模型和对应的M个第一性能评估值；从M个经训练多层感知机模型中，输出具有最高第一性能评估值的经训练多层感知机模型。2.根据权利要求1所述的多层感知机模型生成方法，其特征在于，所述对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行训练和评估，以确定M个经训练多层感知机模型和对应的M个第一性能评估值，包括：读取所述用户输入数据中携带的用户指定训练参数以及对应的用户指定训练值；将预定训练参数集合中的所述用户指定训练参数设置为用户指定训练值，并将所述预定训练参数集合中除所述用户指定训练参数之外的其余训练参数设置为在默认取值范围内取随机值；获取训练集，依照设置后的所述预定训练参数集合，利用获取的训练集对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行训练，以得到M个经训练多层感知机模型和对应的M个训练损失值。3.根据权利要求2所述的多层感知机模型生成方法，其特征在于，所述获取训练集，依照设置后的所述预定训练参数集合，利用获取的训练集对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行训练，以得到M个经训练多层感知机模型和对应的M个训练损失值，包括：获取训练集，依照设置后的所述预定训练参数集合，利用获取的训练集对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行N次训练，以针对每个初始多层感知机模型架构得到N个第一候选多层感知机模型和对应的N个训练损失值，将N个第一候选多层感知机模型中训练损失值最小的第一候选多层感知机模型用作经训练多层感知机模型，并将N个训练损失值的平均值用作经训练多层感知机模型对应的训练损失值，从而得到M个经训练多层感知机模型和对应的M个训练损失值；其中，N为正整数。4.根据权利要求3所述的多层感知机模型生成方法，其特征在于，所述获取训练集，依照设置后的所述预定训练参数集合，利用获取的训练集对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行N次训练，以针对每个初始多层感知机模型架构得到N个第一候选多层感知机模型和对应的N个训练损失值，包括：当根据所述用户输入数据确定用户未指定禁用验证集时，从所述用户输入数据中获取用户输入的训练数据和训练标签对，将所述训练数据和训练标签对按照默认比例值划分为训练集和验证集；以及，利用划分的训练集对所述M个初始多层感知机模型架构中的每个初
始多层感知机模型架构进行N次训练，并在每次训练中利用划分的验证集对训练所得的模型进行验证以得到训练损失值，以针对每个初始多层感知机模型架构得到N个第一候选多层感知机模型和对应的N个训练损失值；当根据所述用户输入数据确定用户指定禁用验证集时，从所述用户输入数据中获取用户输入的训练数据和训练标签对，作为获取的训练集；以及，利用划分的训练集对所述M个初始多层感知机模型架构中的每个初始多层感知机模型架构进行N次训练，并记录每次训练中的训练损失值，以针对每个...

【专利技术属性】
技术研发人员：张震林，杨扬，刘张代红，大卫，
申请(专利权)人：上海交通大学医学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人