System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理的方法、装置、电子设备及可读存储介质制造方法及图纸_技高网

数据处理的方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:42790573 阅读:9 留言:0更新日期:2024-09-21 00:47
本申请公开了一种数据处理的方法、装置、电子设备及可读存储介质,所述方法包括:获取已完成标注数据的标注需求;基于所述标注需求,把质检任务拆分为至少两个子任务;定义每个子任务的输入数据类型和输出数据类型,基于所述每个子任务的输入数据类型和输出数据类型为每个子任务匹配任务执行组件;所述任务执行组件用于把子任务发送给执行对象,以使所述执行对象质检该子任务,并接收该子任务执行对象反馈的质检结果以输出;以上一个任务执行组件接收的质检结果为相邻下一个任务执行组件的输入,任务执行组件依次执行对应的子任务,获得已完成标注数据的质检结果。该方法缩短了质检周期,且质检效率高。

【技术实现步骤摘要】

本申请涉及人工智能,具体涉及数据处理的方法、装置、电子设备及可读存储介质


技术介绍

1、人工智能(ai)旨在研究和开发能够执行通常需要人类智能才能完成的任务的计算机系统。这些任务包括理解语言、识别图像、决策制定、解决问题等。其中,机器学习是实现人工智能的一种方法,通过算法使计算机可以从数据中提取特征和规律,来完成特定任务,如对新输入的数据进行预测、分类、识别或其他形式的分析。

2、模型作为机器学习的一种载体,是一个数学框架或者算法结构,表达的是输入数据与期望输出之间的映射关系。其中,模型可以是简单的线性模型,如线性回归,也可以是复杂的非线性模型,如深度神经网络。模型通过机器学习算法,如决策树、支持向量机、神经网络(如监督学习、无监督学习、半监督学习和强化学习)等,利用训练数据集调整模型内部的参数,即将模型的初始化参数不断迭代,使这些参数被调整以减小模型的预测误差,更好地拟合数据分布,即进行模型训练,目标是使模型在未知数据上的表现尽可能优化,即具有良好的泛化能力。模型完成训练后,就可以接受新的输入数据,并基于它学到的知识产生输出,如预测一个数值、分配一个类别标签或生成新的数据样本等。

3、在模型训练过程中,需要对训练数据进行标注,即人为或自动地为训练数据(如图像、文本、音频)加上描述性的标签或边界框等,模型通过分析标注的训练数据来调整内部参数,以最小化预测误差(损失函数)。如果数据标注出现错误或不一致,模型可能就会学到错误的规律,导致预测结果偏离实际,影响模型的准确性、可靠性和泛化能力等。所以需要对已完成数据标注任务的输出进行检查和评估,以确保所有标注数据的准确性和一致性。

4、目前,在对标注数据进行质检时,可以人工逐条检查每个标注数据的准确性和一致性,但是耗时耗力。为了高效处理大规模数据,提出了ai质检算法(如置信区间估计、多数投票、贝叶斯区间估计等),但是这些ai质检算法主要针对的认知类任务,无法应用于主观复杂的决策类任务,对于主观复杂的决策类任务只能由质检员人员逐条检查其准确性和一致性等,使数据标注结果质检存在周期长、成本高和效率低等问题。


技术实现思路

1、本申请提供了本申请提供了一种数据处理的方法、装置、电子设备及可读存储介质,以解决主观复杂的决策类任务只能由质检员人员逐条检查其准确性和一致性等,使数据标注结果质检存在周期长、成本高和效率低等问题。具体方式如下:

2、第一方面,本申请实施例提供了一种数据处理的方法,所述方法包括:

3、获取已完成标注数据的标注需求;

4、基于所述标注需求,把质检任务拆分为至少两个子任务,所有子任务按照预设的顺序排列,每个子任务的质检目的不同;

5、定义每个子任务的输入数据类型和输出数据类型,基于所述每个子任务的输入数据类型和输出数据类型为每个子任务匹配任务执行组件;所述任务执行组件用于把子任务发送给执行对象,以使所述执行对象质检该子任务,并接收该子任务执行对象反馈的质检结果以输出;

6、以上一个任务执行组件接收的质检结果为相邻下一个任务执行组件的输入,任务执行组件依次执行对应的子任务,获得已完成标注数据的质检结果。

7、第二方面,本申请实施例还供了一种数据处理的装置,所述装置包括:

8、第一获取模块,用于获取已完成标注数据的标注需求;

9、拆分模块,用于基于所述标注需求,把质检任务拆分为至少两个子任务,所有子任务按照预设的顺序排列,每个子任务的质检目的不同;

10、匹配模块,用于定义每个子任务的输入数据类型和输出数据类型,基于所述每个子任务的输入数据类型和输出数据类型为每个子任务匹配任务执行组件;所述任务执行组件用于把子任务发送给执行对象,以使所述执行对象质检该子任务,并接收该子任务执行对象反馈的质检结果以输出;

11、第二获取模块,用于以上一个任务执行组件接收的质检结果为相邻下一个任务执行组件的输入,任务执行组件依次执行对应的子任务,获得已完成标注数据的质检结果。

12、第三方面,本申请实施例还提供了一种电子设备,包括:

13、处理器;以及

14、存储器,用于存储数据处理程序,该电子设备通电并通过所述处理器运行该程序后,执行如下步骤:

15、获取已完成标注数据的标注需求;

16、基于所述标注需求,把质检任务拆分为至少两个子任务,所有子任务按照预设的顺序排列,每个子任务的质检目的不同;

17、定义每个子任务的输入数据类型和输出数据类型,基于所述每个子任务的输入数据类型和输出数据类型为每个子任务匹配任务执行组件;所述任务执行组件用于把子任务发送给执行对象,以使所述执行对象质检该子任务,并接收该子任务执行对象反馈的质检结果以输出;

18、以上一个任务执行组件接收的质检结果为相邻下一个任务执行组件的输入,任务执行组件依次执行对应的子任务,获得已完成标注数据的质检结果。

19、第四方面,本申请实施例还提供了一种计算机可读存储介质,存储有数据处理程序,该程序被处理器运行,执行如下步骤:

20、获取已完成标注数据的标注需求;

21、基于所述标注需求,把质检任务拆分为至少两个子任务,所有子任务按照预设的顺序排列,每个子任务的质检目的不同;

22、定义每个子任务的输入数据类型和输出数据类型,基于所述每个子任务的输入数据类型和输出数据类型为每个子任务匹配任务执行组件;所述任务执行组件用于把子任务发送给执行对象,以使所述执行对象质检该子任务,并接收该子任务执行对象反馈的质检结果以输出;

23、以上一个任务执行组件接收的质检结果为相邻下一个任务执行组件的输入,任务执行组件依次执行对应的子任务,获得已完成标注数据的质检结果。

24、与现有技术相比,本申请具有以下优点:

25、本申请实施例提供的一种数据处理的方法,通过获取已完成标注数据的标注需求;基于所述标注需求,把质检任务拆分为至少两个子任务,且所有子任务按照预设的顺序排列,每个子任务的质检目的不同;定义每个子任务的输入数据类型和输出数据类型,基于所述每个子任务的输入数据类型和输出数据类型为每个子任务匹配任务执行组件;所述任务执行组件用于把子任务发送给执行对象,以使所述执行对象质检该子任务,并接收该子任务执行对象反馈的质检结果以输出;以上一个任务执行组件接收的质检结果为相邻下一个任务执行组件的输入,任务执行组件依次执行对应的子任务,获得已完成数据处理的结果。

26、可见,通过上述标注需求把质检任务拆分为按照预设的顺序排列的至少两个子任务,将复杂的质检任务拆解为多个数据处理的子任务,降低了质检任务的复杂度和难度。接着根据定义的子任务的输入数据类型和输出数据类型为每个子任务匹配对应的任务执行组件,使每个任务执行组件将对应子任务发送给该任务的执行对象,提高了质检的准确率和可信度。并且以上一个任务执行组件接收的质检结果本文档来自技高网...

【技术保护点】

1.一种数据处理的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的数据处理的方法,其特征在于,所述质检任务拆分之后的最后一项子任务为获取上一项子任务质检结果的置信区间。

3.根据权利要求2所述的数据处理的方法,其特征在于,所述最后一项子任务对应的任务执行组件的算法为置信区间估计算法;

4.根据权利要求1所述的数据处理的方法,其特征在于,所述基于所述标注需求,把质检任务拆分为至少两个子任务,包括:

5.根据权利要求4所述的数据处理的方法,其特征在于,基于所述标注需求,把质检任务拆分为至少两个子任务之前,所述方法还包括:

6.根据权利要求1所述的数据处理的方法,其特征在于,所述子任务按照预设顺序排列,包括:所有的子任务按照预设的逻辑关系排列。

7.根据权利要求1所述的数据处理的方法,其特征在于,所述定义每个子任务的数据输入类型和数据输出类型,包括:

8.根据权利要求1所述的数据处理的方法,其特征在于,所述基于每个子任务的数据输入类型和数据输出类型为每个子任务匹配任务执行组件,包括:

<p>9.根据权利要求8所述的数据处理的方法,其特征在于,所述基于每个子任务的数据输入类型和数据输出类型为每个子任务匹配任务执行组件之前,所述方法还包括:

10.根据权利要求9所述的数据处理的方法,其特征在于,所述构建任务执行组件库,包括:

11.一种数据处理的装置,其特征在于,所述装置包括:

12.一种电子设备,其特征在于,包括:

13.一种计算机可读存储介质,其特征在于,存储有数据处理程序,该程序被处理器运行,执行如权利要求1-10中任一项所述的方法。

...

【技术特征摘要】

1.一种数据处理的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的数据处理的方法,其特征在于,所述质检任务拆分之后的最后一项子任务为获取上一项子任务质检结果的置信区间。

3.根据权利要求2所述的数据处理的方法,其特征在于,所述最后一项子任务对应的任务执行组件的算法为置信区间估计算法;

4.根据权利要求1所述的数据处理的方法,其特征在于,所述基于所述标注需求,把质检任务拆分为至少两个子任务,包括:

5.根据权利要求4所述的数据处理的方法,其特征在于,基于所述标注需求,把质检任务拆分为至少两个子任务之前,所述方法还包括:

6.根据权利要求1所述的数据处理的方法,其特征在于,所述子任务按照预设顺序排列,包括:所有的子任务按照预设的逻辑关系排列。

7.根据权利要求1所...

【专利技术属性】
技术研发人员:林叶新陶凯伦胡志伟孔祥瑞张春玉许璐刘思彦范长杰
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1