一种数据验证方法、装置及任务处理芯片制造方法及图纸

技术编号:32365385 阅读:10 留言:0更新日期:2022-02-20 03:38
本公开提供了一种数据验证方法、装置及任务处理芯片,其中,该方法包括:获取多组待验证数据和每组待验证数据对应的第一验证值;其中,所述第一验证值是所述多组待验证数据在传输之前计算的;确定获取的每组待验证数据对应的第二验证值;基于每组待验证数据对应的第一验证值和第二验证值,对每组待验证数据的传输结果进行验证。结果进行验证。结果进行验证。

【技术实现步骤摘要】
一种数据验证方法、装置及任务处理芯片


[0001]本公开涉及计算机
,具体而言,涉及一种数据验证方法、装置及任务处理芯片。

技术介绍

[0002]新一代人工智能技术的特点之一是通过大量数据训练深度学习模型,在此过程中用于训练模型的数据集和深度学习模型本身都越来越大,训练成本也越来越高。由于数据集的数据量庞大,一旦发生数据破坏和意外篡改,难以直接被发现。因此在数据集的数据传输过程中,往往通过对数据集整体进行验证的方式检查数据集整体的完整性,以防止传输过程的意外破坏。
[0003]相关技术中,随着分布式训练模式的普及,一个完整的数据集往往需要进行拆分,并将拆分后得到的子数据集发送至不同的计算单元执行训练任务,而由于数据集进行了拆分,现有的验证方式无法验证出拆分后的数据集的完整性,从而无法较好的适应分布式训练的应用场景。

技术实现思路

[0004]本公开实施例至少提供一种数据验证方法、装置、计算机设备及存储介质。
[0005]第一方面,本公开实施例提供了一种数据验证方法,包括:
[0006]获取多组待验证数据和每组待验证数据对应的第一验证值;其中,所述第一验证值是所述多组待验证数据在传输之前计算的;
[0007]确定获取的每组待验证数据对应的第二验证值;
[0008]基于每组待验证数据对应的第一验证值和第二验证值,对每组待验证数据的传输结果进行验证。
[0009]这样,通过将数据集中的数据划分为多个待验证数据组,并为每组待验证数据设置对应的第一验证值,使得后续进行传输结果验证以及神经网络训练时,不同的计算单元能够使用不同的待验证数据组,且每组待验证数据均有对应的验证依据,从而能够较好的适应神经网络分布式训练的应用场景。
[0010]一种可能的实施方式中,所述基于每组待验证数据对应的第一验证值和第二验证值,对每组待验证数据的传输结果进行验证,包括:
[0011]针对任一组待验证数据,在该组待验证数据对应的第一验证值和第二验证值一致的情况下,确定该组待验证数据传输完整;
[0012]在该组待验证数据对应的第一验证值和第二验证值不一致的情况下,重新获取该组待验证数据。
[0013]这样,通过对分组后得到的每组待验证数据对应的数据传输前的第一验证值,和数据传输后的第二验证值进行比对,可以使得数据的验证方式更符合分布式神经网络训练等数据集分布式使用场景。
[0014]一种可能的实施方式中,所述第一验证值和第二验证值为密码散列值;
[0015]根据以下方法确定多组待验证数据和每组待验证数据对应的第一验证值:
[0016]基于预设的分组组数/预设的每组中所包含的数据个数,对待传输数据进行分组处理,得到分组处理后的多组待验证数据;
[0017]基于分组处理后的每组待验证数据中的待验证数据进行哈希运算,确定每组待验证数据对应的第一密码散列值,并将所述第一密码散列值作为所述第一验证值;
[0018]基于以下方法确定每组待验证数据对应的第二验证值:
[0019]基于获取的每组待验证数据中的待验证数据进行哈希运算,确定获取的每组待验证数据对应的第二密码散列值,并将所述第二密码散列值作为所述第二验证值。
[0020]一种可能的实施方式中,所述确定获取的每组待验证数据对应的第二验证值,包括:
[0021]从所述多组待验证数据中抽取目标组待验证数据;
[0022]确定所述目标组待验证数据对应的第二验证值;
[0023]所述基于每组待验证数据对应的第一验证值和第二验证值,对每组待验证数据的传输结果进行验证,包括:
[0024]基于所述目标组待验证数据对应的第一验证值和第二验证值,对所述目标组待验证数据所对应分组的待验证数据的传输结果进行验证。
[0025]这样,通过从多组待验证数据中抽取目标组待验证数据并进行验证,可以减少验证过程中计算资源的消耗。
[0026]一种可能的实施方式中,所述从所述多组待验证数据中抽取目标组待验证数据,包括:
[0027]在连续基于N组待验证数据对应的第一验证值和第二验证值进行验证,且验证结果为数据传输完整的情况下,从所述多组待验证数据中抽取目标组待验证数据,其中,N为预设正整数。
[0028]第二方面,本公开实施例还提供一种数据验证装置,包括:
[0029]获取模块,用于获取多组待验证数据和每组待验证数据对应的第一验证值;其中,所述第一验证值是所述多组待验证数据在传输之前计算的;
[0030]确定模块,用于确定获取的每组待验证数据对应的第二验证值;
[0031]验证模块,用于基于每组待验证数据对应的第一验证值和第二验证值,对每组待验证数据的传输结果进行验证。
[0032]一种可能的实施方式中,所述验证模块,在基于每组待验证数据对应的第一验证值和第二验证值,对每组待验证数据的传输结果进行验证时,用于:
[0033]针对任一组待验证数据,在该组待验证数据对应的第一验证值和第二验证值一致的情况下,确定该组待验证数据传输完整;
[0034]在该组待验证数据对应的第一验证值和第二验证值不一致的情况下,重新获取该组待验证数据。
[0035]一种可能的实施方式中,所述第一验证值和第二验证值为密码散列值;
[0036]所述获取模块,用于根据以下方法确定多组待验证数据和每组待验证数据对应的第一验证值:
[0037]基于预设的分组组数/预设的每组中所包含的数据个数,对待传输数据进行分组处理,得到分组处理后的多组待验证数据;
[0038]基于分组处理后的每组待验证数据中的待验证数据进行哈希运算,确定每组待验证数据对应的第一密码散列值,并将所述第一密码散列值作为所述第一验证值;
[0039]所述获取模块,用于根据以下方法确定每组待验证数据对应的第二验证值:
[0040]基于获取的每组待验证数据中的待验证数据进行哈希运算,确定获取的每组待验证数据对应的第二密码散列值,并将所述第二密码散列值作为所述第二验证值。
[0041]一种可能的实施方式中,所述确定模块,在确定获取的每组待验证数据对应的第二验证值时,用于:
[0042]从所述多组待验证数据中抽取目标组待验证数据;
[0043]确定所述目标组待验证数据对应的第二验证值;
[0044]所述验证模块,在基于每组待验证数据对应的第一验证值和第二验证值,对每组待验证数据的传输结果进行验证时,用于:
[0045]基于所述目标组待验证数据对应的第一验证值和第二验证值,对所述目标组待验证数据所对应分组的待验证数据的传输结果进行验证。
[0046]一种可能的实施方式中,所述验证模块,在从所述多组待验证数据中抽取目标组待验证数据时,用于:
[0047]在连续基于N组待验证数据对应的第一验证值和第二验证值进行验证,且验证结果为数据传输完整的情况下,从所述多组待验证数据中抽取目标组待验本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据验证方法,其特征在于,包括:获取多组待验证数据和每组待验证数据对应的第一验证值;其中,所述第一验证值是所述多组待验证数据在传输之前计算的;确定获取的每组待验证数据对应的第二验证值;基于每组待验证数据对应的第一验证值和第二验证值,对每组待验证数据的传输结果进行验证。2.根据权利要求1所述的方法,其特征在于,所述基于每组待验证数据对应的第一验证值和第二验证值,对每组待验证数据的传输结果进行验证,包括:针对任一组待验证数据,在该组待验证数据对应的第一验证值和第二验证值一致的情况下,确定该组待验证数据传输完整;在该组待验证数据对应的第一验证值和第二验证值不一致的情况下,重新获取该组待验证数据。3.根据权利要求1或2所述的方法,其特征在于,所述第一验证值和第二验证值为密码散列值;根据以下方法确定多组待验证数据和每组待验证数据对应的第一验证值:基于预设的分组组数/预设的每组中所包含的数据个数,对待传输数据进行分组处理,得到分组处理后的多组待验证数据;基于分组处理后的每组待验证数据中的待验证数据进行哈希运算,确定每组待验证数据对应的第一密码散列值,并将所述第一密码散列值作为所述第一验证值;基于以下方法确定每组待验证数据对应的第二验证值:基于获取的每组待验证数据中的待验证数据进行哈希运算,确定获取的每组待验证数据对应的第二密码散列值,并将所述第二密码散列值作为所述第二验证值。4.根据权利要求1~3任一所述的方法,其特征在于,所述确定获取的每组待验证数据对应的第二验证值,包括:从所述多组待验证数据中抽取目标组待验证数据;确定所述目标组待验证数据对应的第二验证值;所述基于每组待验证数据对应的第一验证值和第二验证值,对每组待验证数据的传输结果进行验证,包括:基于所述目标组待验证数据对应的第一验证值和第二验证值,对所述目标组待验证数据所对应分组的待验证数据的传输结果进行验证。...

【专利技术属性】
技术研发人员:刘明庄胡英俊丁雨叶婧茹徐宁仪
申请(专利权)人:上海阵量智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1