The invention discloses a cache management method and device, which comprises: generating a cache record file according to the existing cache data of the data sets of all calculation nodes and determining the cache strategy of each calculation node; determining whether the data set required for the training task is stored in any calculation node according to the cache record file in response to the training task received by the local calculation node; responding to the local calculation The computing node meets the cache policy requirements, but downloads the data set required by the training task; in response to the local computing node does not meet the cache policy requirements, the existing cache data is deleted based on the cache record file and the local computing node is re determined to meet the cache policy requirements. The invention can manage the cache of different training data, selectively download and delete according to the needs of the actual scene, save the download time of the training data and ensure the availability of the disk storage of the calculation node.
【技术实现步骤摘要】
一种缓存管理方法与装置
本专利技术涉及计算机领域,更具体地,特别是指一种缓存管理方法与装置。
技术介绍
在深度学习模型训练的过程中,训练数据集越大,数据样本越多,越容易避免训练模型的过拟合问题。但同时,大规模的数据集也为集群管理带来了挑战,例如一个视频处理的采集数据可达几十G甚至上百G,而作为多用户共享的深度学习集群,不同的用户可能使用相同的数据集进行模型训练,或者单用户也会使用不同的数据集进行训练。由于计算节点的存储空间有限,这些训练数据不可能同时存放在每个计算节点供用户使用,这样也会造成存储空间的浪费,如何存放和使用这些训练数据也就成为了深度学习集群平台需要解决的问题。对此现有技术存在两种解决方式。一个是通过共享存储的方式将训练数据存放在存储节点,然后通过共享挂载的方式将数据挂载到计算节点,计算节点读取共享数据进行训练;另一个是通过云存储的方式将训练数据存放在云端,在训练时首先将数据下载到计算节点本地,训练完成后再将数据删除。然而,通过共享存储的方式访问数据存在读写瓶颈,一些企业集群由于技术或者成本原因也不会搭建维护高性能的共享文件系统;另一方面,训练前下载训练后删除的方式会耗费一大部分时间在数据下载上,如果训练后不删除则可能由于磁盘存储空间用满导致其他问题。针对现有技术中难以处理训练数据缓存的问题,目前尚未有有效的解决方案。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提出一种缓存管理方法与装置,能够管理不同训练数据的缓存,根据实际场景需要来选择性地下载和删除,节省训练 ...
【技术保护点】
1.一种缓存管理方法,其特征在于,应用于计算节点,包括以下步骤:/n根据所有计算节点的数据集的现有缓存数据生成缓存记录文件并确定各计算节点的缓存策略,其中所述缓存记录文件包括现有缓存数据中所有数据集的标识和所在计算节点;/n响应于本地计算节点接收到训练任务而根据所述缓存记录文件确定所述训练任务所需的数据集是否存储于任一计算节点;/n响应于所述训练任务所需的数据集未存储于任一计算节点、并且本地计算节点满足所述缓存策略要求,而下载所述训练任务所需的数据集;/n响应于所述训练任务所需的数据集未存储于任一计算节点、并且本地计算节点不满足所述缓存策略要求,而基于所述缓存记录文件删除所述现有缓存数据并重新确定本地计算节点是否满足所述缓存策略要求。/n
【技术特征摘要】
1.一种缓存管理方法,其特征在于,应用于计算节点,包括以下步骤:
根据所有计算节点的数据集的现有缓存数据生成缓存记录文件并确定各计算节点的缓存策略,其中所述缓存记录文件包括现有缓存数据中所有数据集的标识和所在计算节点;
响应于本地计算节点接收到训练任务而根据所述缓存记录文件确定所述训练任务所需的数据集是否存储于任一计算节点;
响应于所述训练任务所需的数据集未存储于任一计算节点、并且本地计算节点满足所述缓存策略要求,而下载所述训练任务所需的数据集;
响应于所述训练任务所需的数据集未存储于任一计算节点、并且本地计算节点不满足所述缓存策略要求,而基于所述缓存记录文件删除所述现有缓存数据并重新确定本地计算节点是否满足所述缓存策略要求。
2.根据权利要求1所述的方法,其特征在于,确定各计算节点的所述缓存策略包括:
确定各计算节点存储的数据集的所述现有缓存数据的最大数量;和/或
确定各计算节点存储的数据集的所述现有缓存数据占本地计算节点的存储空间的最大百分比。
3.根据权利要求1所述的方法,其特征在于,响应于接收到所述训练任务而根据所述缓存记录文件确定所述训练任务所需的数据集是否存储于任一计算节点包括:
根据所述训练任务确定所述训练任务所需的数据集的标识;
根据所述缓存记录文件中是否存在所述标识来确定所述训练任务所需的数据集是否存储于任一计算节点。
4.根据权利要求1所述的方法,其特征在于,还包括:
响应于所述训练任务所需的数据集存储于本地计算节点,而修改所述缓存记录文件并启动所述任务;
响应于所述训练任务所需的数据集存储于任一非本地计算节点,而修改所述缓存记录文件并访问所述非本地计算节点获取所述训练任务所需的数据集以启动所述任务。
5.根据权利要求4所述的方法,其特征在于,所述缓存记录文件还包括现有缓存数据中所有数据集的最后调用的训练任务、当前调用数量;
修改所述缓存记录文件包括:
将所述...
【专利技术属性】
技术研发人员:胡叶,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。