模型训练方法、模型训练平台、电子设备和存储介质技术

技术编号:28478247 阅读:52 留言:0更新日期:2021-05-15 21:47
本公开提供了一种模型训练方法、模型训练平台、电子设备和存储介质,可以用于人工智能领域,特别是自然语言处理领域和深度学习领域中。该模型训练方法包括:接收输入;基于输入来确定面向用户的预制功能;基于输入来确定模型训练功能;基于输入来确定预训练模型;基于输入来确定与预训练模型相关联的网络结构,以支持对预训练模型的使用;基于输入,使用预制功能、模型训练功能和预训练模型来训练模型;以及提供与经训练的模型相关联的输出。上述模型训练方法可以通过提供高效的模型训练、特别是深度学习模型训练的能力来提升用户体验。深度学习模型训练的能力来提升用户体验。深度学习模型训练的能力来提升用户体验。

【技术实现步骤摘要】
模型训练方法、模型训练平台、电子设备和存储介质


[0001]本公开涉及计算机技术,并且更具体地,涉及模型训练方法、模型训练平台、电子设备和存储介质,可以用于人工智能领域,特别是自然语言处理领域和深度学习领域中。

技术介绍

[0002]近年来,人工智能领域中的、以预训练为代表的自然语言处理技术获得了爆发式发展,新技术和新模型层出不穷。在新时代背景下,如何将多样化的先进的自然语言处理领域科研成果高效地应用到产业实践中并解决实际问题,是自然语言处理领域中的核心问题。此外,深度学习是人工智能领域中的关键技术,研发人员通常基于深度学习框架来开展相关工作。
[0003]然而,传统的用于模型训练的方法和平台无法满足复杂的深度学习开发要求,并且因此无法满足用户对于高效模型训练方法和模型训练平台的需求。

技术实现思路

[0004]根据本公开的实施例,提供了一种模型训练方法、模型训练平台、电子设备和存储介质。
[0005]在本公开的第一方面中,提供了一种模型训练方法,包括:通过利用至少一种交互模式进行的交互来接收输入,交互模式与交互界面相关联;基于输入来确定面向用户的预制功能,预制功能与被训练的模型相关联;基于输入来确定支持进行模型训练所需的模型训练功能,模型训练功能与模型的训练过程相关联;基于输入来确定基于深度学习而被预先训练好的预训练模型;基于输入来确定与预训练模型相关联的网络结构,以支持对预训练模型的使用;基于输入,使用预制功能、模型训练功能和预训练模型来训练模型;以及通过利用至少一种交互模式进行的交互来提供与经训练的模型相关联的输出。
[0006]在本公开的第二方面中,提供了一种模型训练平台,包括:数据交互模块,被配置为提供至少一种交互模式,以支持从模型训练平台的外部接收输入以及向模型训练平台的外部提供输出,交互模式与交互界面相关联;交互支持模块,被配置为提供对数据交互模块与模型训练平台中的其他模块之间的交互的支持,交互与模型训练相关联;功能提供模块,被配置为提供面向用户的预制功能,预制功能与由模型训练平台训练的模型相关联;模型训练支持模块,被配置为提供支持使用模型训练平台进行模型训练所需的模型训练功能,模型训练功能与模型的训练过程相关联;预训练模型模块,被配置为提供基于深度学习而被预先训练好的预训练模型;以及预训练模型支持模块,被配置为提供与预训练模型相关联的网络结构,以支持对预训练模型的使用。
[0007]在本公开的第三方面中,提供了一种电子设备,包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够实现根据本公开的第一方面的方法。
[0008]在本公开的第四方面中,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,计算机指令用于使计算机实现根据本公开的第一方面的方法。
[0009]利用本公开的实施方式的技术方案,通过建设通用的、基于预训练语义理解技术的自然语言处理定制化训练与开发平台,来极大地减少数据标注、底层代码开发的人力和物力,从而可以满足产业化应用的需求。具体而言,利用本公开的实施方式的技术方案,提供了一种模型训练平台,该模型训练平台可以覆盖全面的自然语言处理定制化开发场景,可以通过定制化预训练技术来提供更为高效的模型训练能力,可以提供简单易行的交互方式,并且可以通过模块之间的独立来提高平台的可扩展性,从而可以通过提供高效的模型训练、特别是深度学习模型训练的能力来提升用户体验。
[0010]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0011]通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中在本公开示例性实施例中,相同的参考标号通常代表相同部件。应当理解,附图用于更好地理解本方案,不构成对本公开的限定。其中:图1示出了根据本公开的实施例的模型训练平台100的示意性框图;图2示出了根据本公开的实施例的模型训练平台200的示意性框图;图3示出了可以在其中实现本公开的某些实施例中的模型训练方法的模型训练环境300的示意性框图;图4示出了根据本公开实施例的模型训练方法400的流程图;图5示出了根据本公开实施例的模型训练方法500的流程图;以及图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。
[0012]在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0013]下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0014]在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0015]如以上在
技术介绍
中所描述的,传统的用于模型训练的方法和平台无法满足复杂的深度学习开发要求,并且因此无法满足用户对于高效模型训练方法和模型训练平台的需求。
[0016]例如,在传统技术中,模型训练平台通常有两种实现方式。第一种实现方式利用专
注于基础任务的工业级自然语言处理工具包,这种实现方式基于国际上开源的深度学习开发框架如TensorFlow、Pytorch进行一定的代码封装,并预制文本分类、文本匹配、序列标注等基础任务的开发实例代码,同时预制国际上开源的预训练模型,以实现基本的自然语言处理训练任务。第二种实现方式基于传统机器学习技术的数据分析平台,这种实现方式主要要过提供内置的传统算法模型,包括非深度学习的、不基于预训练模型的分类、回归、聚类等算法。并复合组合模型,迭代进行分析。通过单一的界面模块进行参数配置结果展示等。然而,传统技术中的实现方式均存在明显的不足。
[0017]对于第一种实现方式,从应用层面来看,其预制任务太少,无法满足工业化场景中复杂多样的自然语言处理训练需求;其采用国际上开源的深度学习框架和预训练模型,但并不掌握这些技术的核心控制权,存在被技术性限制的风险;其只提供通用预训练模型,对特定场景任务还需要进一步预训练,从而导致成本过高,并且如果只做细微调节效果又不够理想;其一般只对于特定任务的数据预处理工作有定制,而面对更加灵活复杂的数据预处理场景不够灵活方便;其蒸馏工具过于单一,甚至不提供蒸馏方式,从而影响模型部署;其一般不提供针对部署场景的加速方案,从而难以满足复杂的工业化场本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,包括:通过利用至少一种交互模式进行的交互来接收输入,所述交互模式与交互界面相关联;基于所述输入来确定面向用户的预制功能,所述预制功能与被训练的模型相关联;基于所述输入来确定支持进行模型训练所需的模型训练功能,所述模型训练功能与所述模型的训练过程相关联;基于所述输入来确定基于深度学习而被预先训练好的预训练模型;基于所述输入来确定与所述预训练模型相关联的网络结构,以支持对所述预训练模型的使用;基于所述输入,使用所述预制功能、所述模型训练功能和所述预训练模型来训练模型;以及通过利用所述至少一种交互模式进行的交互来提供与经训练的所述模型相关联的输出。2.根据权利要求1所述的方法,其中所述交互包括以下一种或多种交互:与网络选择相关联的交互;与网络组装相关联的交互;与网络存储相关联的交互;与训练包组装相关联的交互;与训练任务启动相关联的交互;与鉴权相关联的交互;以及与统计相关联的交互。3.根据权利要求1所述的方法,还包括:接收与请求应用与关联于模型训练的功能相关联的配置信息。4.根据权利要求3所述的方法,其中接收与请求应用与关联于模型训练的功能相关联的配置信息包括以下一项或多项:导入所述配置信息;注册所述配置信息;基于所述配置信息进行json解析;以及基于所述配置信息进行类名匹配。5.根据权利要求1所述的方法,还包括:对接收的所述输入进行预处理。6.根据权利要求5所述的方法,其中对接收的所述输入进行预处理包括以下一项或多项:从所述输入读取数据集以用于预处理;从所述输入读取域以用于预处理;对所述输入进行分词以用于预处理;以及从所述输入获取词表以用于预处理。7.根据权利要求1所述的方法,还包括:使用对复杂学习任务的网络结构设计开发的支持。
8.根据权利要求7所述的方法,其中使用对复杂学习任务的网络结构设计开发的支持包括以下一项或多项:使用用于所述复杂学习任务的前向传播网络;使用用于所述网络结构设计开发的优化策略;以及使用用于所述网络结构设计开发的评估指标。9.根据权利要求1所述的方法,还包括:基于所述输入来调整与模型训练相关联的操作。10.根据权利要求9所述的方法,其中基于所述输入来调整与模型训练相关联的操作包括以下一项或多项:基于所述输入来调整与所述模型训练相关联的训练流程;基于所述输入来调整与所述模型训练相关联的评估流程;以及基于所述输入来调整与所述模型训练相关联的可视化评估。11.根据权利要求1所述的方法,还包括:使用与应用经训练的所述模型相关联的功能来应用经训练的所述模型。12.根据权利要求11所述的方法,其中使用与应用经训练的所述模型相关联的功能包括使用以下一种或多种功能:专用处理单元部署功能、中央处理单元部署功能、单条预测功能、批量预测功能、C++应用编程接口功能、以及Python应用编程接口功能。13.一种模型训练平台,包括:数据交互模块,被配置为提供至少一种交互模式,以支持从所述模型训练平台的外部接收输入以及向所述模型训练平台的所述外部提供输出,所述交互模式与交互界面相关联;交互支持模块,被配置为提供对所述数据交互模块与所述模型训练平台中的其他模块之间的交互的支持,所述交互与模型训练相关联;功能提供模块,被配置为提供面向用户的预制功能,所述预制功能与由所述模型训练平台训练的模型相关联;模型训练支持模块,被配置为提供支持使用所述模型训练平台进行模型训练所需的模型训练功能,所述模型训练功能与所述模型的训练过程相关联;预训练模型模块,...

【专利技术属性】
技术研发人员:龚建孙宇田浩吴华王海峰佘俏俏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1