System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,特别是涉及一种数据加载方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
技术介绍
1、随着人工智能的发展,由于大模型的强度的涌现能力、泛化能力、多任务能力、迁移应用能力,其在问答对话、语义理解、文本撰写等领域具有广泛的应用。通常情况下,需要利用大量的数据进行训练后得到的大模型才能够取得良好的性能。
2、相关技术中,由于数据量较大,用于训练的数据一般存储于硬盘中。在进行大模型训练时,可以将数据加载到内存后进行处理并进行模型训练,也可以直接从硬盘中加载数据进行模型训练。然而,前者可加载数据量受限于服务器的内存容量,无法用于大规模数据训练,后者受限于硬盘读取速度,数据加载效率低下。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高效率的数据加载方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种数据加载方法,包括:
3、响应于接收到数据获取指令,确定与所述数据获取指令相匹配的待加载数据组,所述待加载数据组中包括多个待加载数据包,每个所述待加载数据包对应有数据包标识;
4、按照所述数据包标识,从所述多个待加载数据包中确定第一数据包,从第一预设缓存区中读取所述第一数据包,并将与所述第一数据包相邻的第二数据包加载至第二预设缓存区;
5、在所述第二数据包加载至所述第二预设缓存区的数据量大于预设阈值的情况下,将与所述第二数据包相邻的第三数据包加载至所
6、在其中一个实施例中,所述从第一预设缓存区中读取所述第一数据包,包括:
7、在第一预设缓存区中未加载所述第一数据包的情况下,将所述第一数据包加载至所述第一预设缓存区,并从所述第一预设缓存区中读取所述第一数据包;和/或,
8、在第一预设缓存区中已加载所述第一数据包的情况下,从所述第一预设缓存区中读取所述第一数据包;和/或,
9、在所述第一预设缓存区中正在加载所述第一数据包的情况下,在所述第一数据包加载完成时,从所述第一预设缓存区中读取所述第一数据包。
10、在其中一个实施例中,所述确定与所述数据获取指令相匹配的待加载数据组,包括:
11、根据所述数据获取指令,确定目标数据组标识;
12、确定与所述目标数据组标识对应的数据组为待加载数据组。
13、在其中一个实施例中,所述在所述第二数据包加载至所述第二预设缓存区的数据量大于预设阈值的情况下,将与所述第二数据包相邻的第三数据包加载至所述第一预设缓存区,包括:
14、在所述第二数据包加载至所述第二预设缓存区的数据量大于预设阈值的情况下,确定与所述第二数据包相邻的第三数据包;
15、在所述第三数据包存在的情况下,将所述第三数据包加载至所述第一预设缓存区。
16、在其中一个实施例中,所述待加载数据组的确定方式包括:
17、获取原始文本数据,所述原始文本数据中包括多个字符;
18、基于字符与令牌值之间的对应关系,根据所述原始文本数据,生成令牌序列数据;
19、按照预设数据量,对所述令牌序列数据进行划分,生成多个待加载数据包,得到待加载数据组。
20、在其中一个实施例中,所述基于字符与令牌值之间的对应关系,根据所述原始文本数据,生成令牌序列数据,包括:
21、对所述原始文本数据进行预处理,得到目标文本数据;
22、基于字符与令牌值之间的对应关系,将所述目标文本数据中的字符转换为令牌值,得到令牌序列数据。
23、第二方面,本申请还提供了一种数据加载装置,包括:
24、确定模块,用于响应于接收到数据获取指令,确定与所述数据获取指令相匹配的待加载数据组,所述待加载数据组中包括多个待加载数据包,每个所述待加载数据包对应有数据包标识;
25、加载模块,用于按照所述数据包标识,从所述多个待加载数据包中确定第一数据包,从第一预设缓存区中读取所述第一数据包,并将与所述第一数据包相邻的第二数据包加载至第二预设缓存区;
26、读取模块,用于在所述第二数据包加载至所述第二预设缓存区的数据量大于预设阈值的情况下,将与所述第二数据包相邻的第三数据包加载至所述第一预设缓存区,并从所述第二预设缓存区中读取所述第二数据包,直至所述待加载数据组读取完成,其中,所述待加载数据组用于训练得到目标模型。
27、在其中一个实施例中,所述加载模块还用于:
28、在第一预设缓存区中未加载所述第一数据包的情况下,将所述第一数据包加载至所述第一预设缓存区,并从所述第一预设缓存区中读取所述第一数据包;和/或,
29、在第一预设缓存区中已加载所述第一数据包的情况下,从所述第一预设缓存区中读取所述第一数据包;和/或,
30、在所述第一预设缓存区中正在加载所述第一数据包的情况下,在所述第一数据包加载完成时,从所述第一预设缓存区中读取所述第一数据包。
31、在其中一个实施例中,所述确定模块还用于:
32、根据所述数据获取指令,确定目标数据组标识;
33、确定与所述目标数据组标识对应的数据组为待加载数据组。
34、在其中一个实施例中,所述读取模块还用于:
35、在所述第二数据包加载至所述第二预设缓存区的数据量大于预设阈值的情况下,确定与所述第二数据包相邻的第三数据包;
36、在所述第三数据包存在的情况下,将所述第三数据包加载至所述第一预设缓存区。
37、在其中一个实施例中,所述装置还包括所述待加载数据组的确定模块,所述待加载数据组的确定模块还用于:
38、获取原始文本数据,所述原始文本数据中包括多个字符;
39、基于字符与令牌值之间的对应关系,根据所述原始文本数据,生成令牌序列数据;
40、按照预设数据量,对所述令牌序列数据进行划分,生成多个待加载数据包,得到待加载数据组。
41、在其中一个实施例中,所述待加载数据组的确定模块还用于:
42、对所述原始文本数据进行预处理,得到目标文本数据;
43、基于字符与令牌值之间的对应关系,将所述目标文本数据中的字符转换为令牌值,得到令牌序列数据。
44、第三方面,本公开实施例还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本公开实施例中任一项所述的方法的步骤。
45、第四方面,本公开实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开实施例中任一项所述的方法的步骤。
本文档来自技高网...【技术保护点】
1.一种数据加载方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述从第一预设缓存区中读取所述第一数据包,包括:
3.根据权利要求1所述的方法,其特征在于,所述确定与所述数据获取指令相匹配的待加载数据组,包括:
4.根据权利要求1所述的方法,其特征在于,所述在所述第二数据包加载至所述第二预设缓存区的数据量大于预设阈值的情况下,将与所述第二数据包相邻的第三数据包加载至所述第一预设缓存区,包括:
5.根据权利要求1所述的方法,其特征在于,所述待加载数据组的确定方式包括:
6.根据权利要求5所述的方法,其特征在于,所述基于字符与令牌值之间的对应关系,根据所述原始文本数据,生成令牌序列数据,包括:
7.一种数据加载装置,其特征在于,所述装置包括:
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种数据加载方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述从第一预设缓存区中读取所述第一数据包,包括:
3.根据权利要求1所述的方法,其特征在于,所述确定与所述数据获取指令相匹配的待加载数据组,包括:
4.根据权利要求1所述的方法,其特征在于,所述在所述第二数据包加载至所述第二预设缓存区的数据量大于预设阈值的情况下,将与所述第二数据包相邻的第三数据包加载至所述第一预设缓存区,包括:
5.根据权利要求1所述的方法,其特征在于,所述待加载数据组的确定方式包括:
6.根据权利要求5所述的方法,其特征在于,...
【专利技术属性】
技术研发人员:张京辉,王泽众,鲍思羽,赵瑞静,汤良,
申请(专利权)人:天翼云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。