模型推理方法、服务器及计算机可读存储介质技术

技术编号:38016928 阅读:10 留言:0更新日期:2023-06-30 10:43
本申请提供一种模型推理方法、服务器及计算机可读存储介质,涉及数据处理领域,能够减少在进行模型推理时模型推理客户端等待的时间,提升用户的使用体验。该方法包括:获取模型推理客户端的请求消息;请求消息用于请求模型推理,请求消息包括模型推理参数、模型标识和模型推理动作;根据模型标识确定第一目标程序;第一目标程序包括共享缓存,共享缓存包括目标模型,共享缓存用于缓存目标模型,目标模型为模型标识对应的模型;基于模型推理参数、模型推理动作和第一目标程序进行模型推理,得到模型推理结果。到模型推理结果。到模型推理结果。

【技术实现步骤摘要】
模型推理方法、服务器及计算机可读存储介质


[0001]本申请涉及数据处理领域,模型推理方法、服务器及计算机可读存储介质。

技术介绍

[0002]目前,深度学习得到的广泛的应用,例如,基于深度学习的人工智能(artificial intelligence,AI)技术等。深度学习主要包括模型训练和模型推理两个过程。其中,模型训练是指模型提供方通过大量的训练数据集和特定的深度学习算法确定模型的模型参数。模型推理是指用户基于该模型参数和用户的推理参数进行模型推理,以得到模型推理结果。
[0003]在模型提供方通过模型训练过程确定模型参数之后,通常由模型推理服务器提供一个模型推理服务器的应用程序接口(application programming interface,API)服务程序,用户通过模型推理客户端调用模型推理服务器上的该API服务程序来实现后续的模型推理。现有的一种模型推理方法包括模型参数加载和模型运行两个步骤。其中,模型参数加载是指模型推理服务器加载模型参数资源库中的模型参数以构建模型。模型运行是指模型推理服务器将用户的推理参数输入该构建完毕的模型中,然后进行模型推理,最终得到模型推理结果。
[0004]一般情况下,模型参数的数据量较大,因而,模型推理服务器加载模型参数资源库中模型参数所需的时间较长,导致在进行模型推理时模型推理客户端需要等待较长的时间,进而使得用户的体验较差。

技术实现思路

[0005]本申请提供一种模型推理方法、服务器及计算机可读存储介质,能够减少在进行模型推理时模型推理客户端等待的时间,提升用户的使用体验。
[0006]为达到上述目的,本申请采用如下技术方案:
[0007]第一方面,提供了一种模型推理方法,该模型推理方法可以由模型推理服务器执行,该方法包括:获取模型推理客户端的请求消息;请求消息用于请求模型推理,述请求消息包括模型推理参数、模型标识和模型推理动作;根据模型标识确定第一目标程序;第一目标程序包括共享缓存,共享缓存包括目标模型,共享缓存用于缓存目标模型,目标模型为模型标识对应的模型;基于模型推理参数、模型推理动作和第一目标程序进行模型推理,得到模型推理结果。
[0008]基于该方案,通过根据模型标识确定包括模型标识对应的目标模型的第一目标程序,然后基于该第一目标程序进行模型推理,得到模型推理结果。相较于现有技术中每次进行模型推理时都需要加载模型参数以构建模型的方案,由于本申请方案中的第一目标程序包括了目标模型,因而在进行模型推理时无需加载模型参数以构建目标模型,能够减少模型推理时模型推理客户端等待的时间,提升了用户的使用体验。
[0009]结合第一方面,在第一方面的某些实施方式中,根据模型标识确定第一目标程序,具体包括:根据模型标识确定第二目标程序;第二目标程序不包括共享缓存;在共享缓存包
括目标模型的情况下,将共享缓存加载至第二目标程序,得到第一目标程序。
[0010]基于该方案,通过确定不包括共享缓存的第二目标程序,在共享缓存包括目标模型的情况下,将共享缓存加载至第二目标程序,得到第一目标程序。一方面,在确定第二目标程序后再加载共享缓存,无需第二目标程序中始终存在数据量较大的目标模型,降低了第二目标程序的数据量,从而节省了调用第二目标程序时需要的时间,减少了模型推理时模型推理客户端等待的时间,提升了用户体验。另一方面,通过将包括目标模型的共享缓存加载至第二目标程序,得到第一目标程序,与现有技术相比,本申请的方案通过加载包括目标模型的共享缓存,使第一目标程序中存在目标模型,无需再通过加载模型参数以构建目标模型,节省了通过模型参数构建目标模型的所需的时间,从而减少了模型推理时模型推理客户端等待的时间,提升了用户的使用体验。
[0011]结合第一方面,在第一方面的某些实施方式中,在共享缓存不包括目标模型的情况下,方法还包括:根据模型标识对应的模型参数确定目标模型;将目标模型加载至共享缓存,得到加载后的共享缓存;将加载后的共享缓存加载至第二目标程序,得到第一目标程序。
[0012]基于该方案,在共享缓存不包括目标模型的情况下,通过加载模型参数构建目标模型,并将目标模型加载至共享缓存,将加载后的共享缓存加载至第二目标程序中,得到第一目标程序。一方面,在共享缓存不包括目标模型的情况下,通过加载模型参数构建目标模型,能够进行后续的模型推理。另一方面,将目标模型加载至共享缓存,能够在下次使用相同的模型进行模型推理时,无需加载模型参数以构建目标模型,节省了通过模型参数构建目标模型的所需的时间,从而减少了模型推理时模型推理客户端等待的时间,提升了用户的使用体验。
[0013]结合第一方面,在第一方面的某些实施方式中,共享缓存为共享变量,共享变量的类型为Python语言字典。
[0014]第二方面,提供了一种模型推理服务器用于实现上述第一方面的模型推理方法。该模型推理服务器包括实现上述方法相应的模块、单元、或手段(means),该模块、单元、或means可以通过硬件实现,软件实现,或者通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块或单元。
[0015]结合第二方面,在第二方面的某些实施方式中,模型推理服务器包括:获取模块和处理模块;获取模块,用于获取模型推理客户端的请求消息;请求消息用于请求模型推理,请求消息包括模型推理参数、模型标识和模型推理动作;处理模块,用于根据模型标识确定第一目标程序;第一目标程序包括共享缓存,共享缓存包括目标模型,共享缓存用于缓存目标模型,目标模型为模型标识对应的模型;处理模块,还用于基于模型推理参数、模型推理动作和第一目标程序进行模型推理,得到模型推理结果。
[0016]结合第二方面,在第二方面的某些实施方式中,处理模块,用于根据模型标识确定第一目标程序,具体包括:根据模型标识确定第二目标程序;第二目标程序不包括共享缓存;在共享缓存包括目标模型的情况下,将共享缓存加载至第二目标程序,得到第一目标程序。
[0017]结合第二方面,在第二方面的某些实施方式中,在共享缓存不包括目标模型的情况下,处理模块还用于:根据模型标识对应的模型参数确定目标模型;将目标模型加载至共
享缓存,得到加载后的共享缓存;将加载后的共享缓存加载至第二目标程序,得到第一目标程序。
[0018]结合第二方面,在第二方面的某些实施方式中,共享缓存为共享变量,共享变量的类型为Python语言字典。
[0019]第三方面,提供了一种模型推理服务器,包括:至少一个处理器、用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现如第一方面及其任一种可能的实施方式所提供的方法。
[0020]第四方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由模型推理服务器的处理器执行时,使得模型推理服务器能够执行如第一方面及其任一种可能的实施方式所提供的方法。
[0021]第五方面,提供了一种包含指令的计算机程序产品,当其在计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型推理方法,其特征在于,所述方法包括:获取模型推理客户端的请求消息;所述请求消息用于请求模型推理,所述请求消息包括模型推理参数、模型标识和模型推理动作;根据所述模型标识确定第一目标程序;所述第一目标程序包括共享缓存,所述共享缓存包括目标模型,所述共享缓存用于缓存所述目标模型,所述目标模型为所述模型标识对应的模型;基于所述模型推理参数、所述模型推理动作和所述第一目标程序进行模型推理,得到模型推理结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述模型标识确定第一目标程序,具体包括:根据所述模型标识确定第二目标程序;所述第二目标程序不包括所述共享缓存;在所述共享缓存包括所述目标模型的情况下,将所述共享缓存加载至所述第二目标程序,得到所述第一目标程序。3.根据权利要求2所述的方法,其特征在于,所述在所述共享缓存不包括所述目标模型的情况下,所述方法还包括:根据所述模型标识对应的模型参数确定所述目标模型;将所述目标模型加载至所述共享缓存,得到加载后的共享缓存;将所述加载后的共享缓存加载至所述第二目标程序,得到所述第一目标程序。4.根据权利要求1

3任一项所述的方法,其特征在于,所述共享缓存为共享变量,所述共享变量的类型为Python语言字典。5.一种模型推理服务器,其特征在于,所述模型推理服务器包括:获取模块和处理模块;所述获取模块,用于获取模型推理客户端的请求消息;所述请求消息用于请求模型推理,所述请求消息包括模型推理参数、模型标识和模型推理动作;所述处理模块,用于根据所述模型标识确定第一目标程序;所...

【专利技术属性】
技术研发人员:霍龙社曹云飞徐治理崔煜喆
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1