模型推理方法、服务器及计算机可读存储介质技术

技术编号：38016928 阅读：10 留言：0更新日期：2023-06-30 10:43

本申请提供一种模型推理方法、服务器及计算机可读存储介质，涉及数据处理领域，能够减少在进行模型推理时模型推理客户端等待的时间，提升用户的使用体验。该方法包括：获取模型推理客户端的请求消息；请求消息用于请求模型推理，请求消息包括模型推理参数、模型标识和模型推理动作；根据模型标识确定第一目标程序；第一目标程序包括共享缓存，共享缓存包括目标模型，共享缓存用于缓存目标模型，目标模型为模型标识对应的模型；基于模型推理参数、模型推理动作和第一目标程序进行模型推理，得到模型推理结果。到模型推理结果。到模型推理结果。

全部详细技术资料下载

【技术实现步骤摘要】
模型推理方法、服务器及计算机可读存储介质

[0001]本申请涉及数据处理领域，模型推理方法、服务器及计算机可读存储介质。

技术介绍

[0002]目前，深度学习得到的广泛的应用，例如，基于深度学习的人工智能(artificial intelligence，AI)技术等。深度学习主要包括模型训练和模型推理两个过程。其中，模型训练是指模型提供方通过大量的训练数据集和特定的深度学习算法确定模型的模型参数。模型推理是指用户基于该模型参数和用户的推理参数进行模型推理，以得到模型推理结果。
[0003]在模型提供方通过模型训练过程确定模型参数之后，通常由模型推理服务器提供一个模型推理服务器的应用程序接口(application programming interface，API)服务程序，用户通过模型推理客户端调用模型推理服务器上的该API服务程序来实现后续的模型推理。现有的一种模型推理方法包括模型参数加载和模型运行两个步骤。其中，模型参数加载是指模型推理服务器加载模型参数资源库中的模型参数以构建模型。模型运行是指模型推理服务器将用户的推理参数输入该构建完毕的模型中，然后进行模型推理，最终得到模型推理结果。
[0004]一般情况下，模型参数的数据量较大，因而，模型推理服务器加载模型参数资源库中模型参数所需的时间较长，导致在进行模型推理时模型推理客户端需要等待较长的时间，进而使得用户的体验较差。

技术实现思路

[0005]本申请提供一种模型推理方法、服务器及计算机可读存储介质，能够减少在进行模型推理时...

【技术保护点】

【技术特征摘要】
1.一种模型推理方法，其特征在于，所述方法包括：获取模型推理客户端的请求消息；所述请求消息用于请求模型推理，所述请求消息包括模型推理参数、模型标识和模型推理动作；根据所述模型标识确定第一目标程序；所述第一目标程序包括共享缓存，所述共享缓存包括目标模型，所述共享缓存用于缓存所述目标模型，所述目标模型为所述模型标识对应的模型；基于所述模型推理参数、所述模型推理动作和所述第一目标程序进行模型推理，得到模型推理结果。2.根据权利要求1所述的方法，其特征在于，所述根据所述模型标识确定第一目标程序，具体包括：根据所述模型标识确定第二目标程序；所述第二目标程序不包括所述共享缓存；在所述共享缓存包括所述目标模型的情况下，将所述共享缓存加载至所述第二目标程序，得到所述第一目标程序。3.根据权利要求2所述的方法，其特征在于，所述在所述共享缓存不包括所述目标模型的情况下，所述方法还包括：根据所述模型标识对应的模型参数确定所述目标模型；将所述目标模型加载至所述共享缓存，得到加载后的共享缓存；将所述加载后的共享缓存加载至所述第二目标程序，得到所述第一目标程序。4.根据权利要求1
‑
3任一项所述的方法，其特征在于，所述共享缓存为共享变量，所述共享变量的类型为Python语言字典。5.一种模型推理服务器，其特征在于，所述模型推理服务器包括：获取模块和处理模块；所述获取模块，用于获取模型推理客户端的请求消息；所述请求消息用于请求模型推理，所述请求消息包括模型推理参数、模型标识和模型推理动作；所述处理模块，用于根据所述模型标识确定第一目标程序；所...

【专利技术属性】
技术研发人员：霍龙社，曹云飞，徐治理，崔煜喆，
申请(专利权)人：中国联合网络通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人