System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据标注,具体的说是一种对有监督数据进行数据标注的系统及方法。
技术介绍
1、在深度学习领域,尤其是大规模语言模型的发展中,数据的质量与数量成为了决定模型性能与泛化能力的关键因素。然而,高质量数据的获取并非易事,它依赖于精确而细致的数据标注工作。标注过程不仅耗时耗力,还容易受到标注人员主观性的影响,导致标注结果的一致性和可靠性难以保证。
2、为了应对这些挑战,业界已经开发了一系列技术和工具来辅助数据标注。这包括制定详细的标注规范、使用高效的标注工具以及实施多人协作和实时质控机制。这些技术在一定程度上提高了数据标注的效率和质量,但仍然存在一些不足之处。
技术实现思路
1、本专利技术针对目前技术发展的需求和不足之处,提供一种对有监督数据进行数据标注的系统及方法,通过对样本数据进行标注,为模型训练提供高质量的训练数据,从而推动模型的自我学习和持续优化。
2、第一方面,本专利技术提供一种对有监督数据进行数据标注的系统,解决上述技术问题采用的技术方案如下:
3、一种对有监督数据进行数据标注的系统,其包括:
4、权限管理模块,用于支持用户以任务创建者、标注小组成员或双盲小组成员的角色登录前端页面,并限定每个角色只能访问和操作其权限范围内的功能和数据;
5、前端页面,采用vue.js前端框架构建,包括通过浏览器访问的任务创建页面、标注工具界面、任务管理页面,其中,任务创建者通过任务创建页面创建并启动标注任务,标注小组成员和
6、后端服务器,采用spring cloud微服务框架构建,用于提供restful api接口,供前端页面调用以实现数据交互,还用于与hive数据库集成,存储和管理大规模样本数据集;
7、数据存储模块,选用mysql存储结构化数据,选用hive作为大数据存储和查询引擎,处理大规模样本数据集。
8、可选的,所涉及任务创建者通过任务创建页面创建并启动标注任务,具体包括:
9、任务创建者通过权限管理模块登录前端页面后,进入任务创建页面执行如下操作:新建标注任务,选择待标注的hive数据集,设置双盲数据比例,指定标注小组和双盲小组成员,并配置标注过程中使用的标签体系,随后开启标注任务,该标注任务自动出现在前端页面的标注任务列表中。
10、进一步可选的,所涉及标注小组成员和双盲小组成员通过标注工具界面执行并提交标注任务,具体包括:
11、标注小组成员和双盲小组成员分别通过权限管理模块登录前端页面,获取标注任务列表,选择一个未执行的标注任务,随后进入标注工具界面,基于web的标注工具对选择的标注任务进行数据标注工作,标注过程中标注人员对数据进行标签选择、标签更改或标签备注,完成数据标注工作后提交标注任务。
12、进一步可选的,所涉及任务创建者通过任务管理页面审核标注任务,并对标注任务进行上架或双盲打回操作,具体包括:
13、任务创建者通过权限管理模块登录前端页面,获取标注任务列表,选择一个已提交的标注任务,随后进入任务管理页面,基于原始数据和标注结果进行审核,计算双盲数据的一致性,生成双盲一致率,并与预设阈值进行比较:在双盲一致率超过预设阈值时将标注任务对应的数据进行上架,在双盲一致率未超过预设阈值时对标注任务对应的数据进行双盲打回操作。
14、优选的,所涉及标注任务包括未执行、执行中、已完成和打回四个状态,其中,任务创建者开启的标注任务显示未执行状态,标注小组成员和双盲小组成员选择的标注任务显示执行中状态,标注小组成员和双盲小组成员提交的标注任务显示已完成状态,任务创建者上架的标注任务不显示在标注列表中,任务创建者双盲打回的标注任务显示打回状态;
15、任务创建者通过权限管理模块登录前端页面,获取标注任务列表,对标注任务列表中的标注任务进行状态跟踪、任务信息修改和任务删除。
16、第二方面,本专利技术基于第一方面所述的系统提供一种对有监督数据进行数据标注的方法,解决上述技术问题采用的技术方案如下:
17、一种对有监督数据进行数据标注的方法,其基于第一方面所述的系统,包括如下步骤:
18、s1、用户以任务创建者的角色登录系统,通过前端页面进入任务创建页面,创建并启动标注任务,该标注任务自动出现在前端页面的标注任务列表中;
19、s2、用户以标注小组成员或双盲小组成员的角色登录系统,获取标注任务列表,选择一个未执行的标注任务,随后进入标注工具界面执行并提交标注任务;
20、s3、用户以任务创建者的角色登录系统,通过前端页面获取标注任务列表,选择一个已提交的标注任务,随后进入任务管理页面,审核标注任务,并对标注任务对应的数据进行上架或双盲打回操作;
21、s4、对双盲打回的标注任务,返回执行步骤s2-s3,直至任务创建者将该标注任务对应的数据进行上架。
22、可选的,执行步骤s1,任务创建者进入任务创建页面后执行如下操作:新建标注任务,选择待标注的hive数据集,设置双盲数据比例,指定标注小组和双盲小组成员,并配置标注过程中使用的标签体系,随后开启标注任务随后开启标注任务,该标注任务自动出现在前端页面的标注任务列表中。
23、进一步可选的,执行步骤s2,标注小组成员和双盲小组成员进入标注工具界面后,基于web的标注工具对选择的标注任务进行数据标注工作,标注过程中标注人员对数据进行标签选择、标签更改或标签备注,完成数据标注工作后提交标注任务。
24、进一步可选的,执行步骤s3,任务创建者进入任务管理页面后,基于原始数据和标注结果进行审核,计算双盲数据的一致性,生成双盲一致率,并与预设阈值进行比较:在双盲一致率超过预设阈值时将标注任务对应的数据进行上架,在双盲一致率未超过预设阈值时对标注任务对应的数据进行双盲打回操作。
25、优选的,标注任务包括未执行、执行中、已完成和打回四个状态,其中,任务创建者开启的标注任务显示未执行状态,标注小组成员和双盲小组成员选择的标注任务显示执行中状态,标注小组成员和双盲小组成员提交的标注任务显示已完成状态,任务创建者上架的标注任务不显示在标注列表中,任务创建者双盲打回的标注任务显示打回状态;
26、任务创建者通过前端页面的标注任务列表,对标注任务列表中的标注任务进行状态跟踪、任务信息修改和任务删除。
27、本专利技术的一种对有监督数据进行数据标注的系统及方法,与现有技术相比具有的有益效果是:
28、本专利技术实现了样本数据获取、任务分发、数据标注及结果处理的全链条管理,为大语言模型训练提供高质量的训练数据,从而推动模型的自我学习和持续优化。
本文档来自技高网...【技术保护点】
1.一种对有监督数据进行数据标注的系统,其特征在于,其包括:
2.根据权利要求1所述的一种对有监督数据进行数据标注的系统,其特征在于,任务创建者通过任务创建页面创建并启动标注任务,具体包括:
3.根据权利要求2所述的一种对有监督数据进行数据标注的系统,其特征在于,标注小组成员和双盲小组成员通过标注工具界面执行并提交标注任务,具体包括:
4.根据权利要求3所述的一种对有监督数据进行数据标注的系统,其特征在于,任务创建者通过任务管理页面审核标注任务,并对标注任务进行上架或双盲打回操作,具体包括:
5.根据权利要求4所述的一种对有监督数据进行数据标注的系统,其特征在于,标注任务包括未执行、执行中、已完成和打回四个状态,其中,任务创建者开启的标注任务显示未执行状态,标注小组成员和双盲小组成员选择的标注任务显示执行中状态,标注小组成员和双盲小组成员提交的标注任务显示已完成状态,任务创建者上架的标注任务不显示在标注列表中,任务创建者双盲打回的标注任务显示打回状态;
6.一种对有监督数据进行数据标注的方法,其特征在于,其基于如权利要求
7.根据权利要求6所述的一种对有监督数据进行数据标注的方法,其特征在于,执行步骤S1,任务创建者进入任务创建页面后执行如下操作:新建标注任务,选择待标注的Hive数据集,设置双盲数据比例,指定标注小组和双盲小组成员,并配置标注过程中使用的标签体系,随后开启标注任务随后开启标注任务,该标注任务自动出现在前端页面的标注任务列表中。
8.根据权利要求7所述的一种对有监督数据进行数据标注的方法,其特征在于,执行步骤S2,标注小组成员和双盲小组成员进入标注工具界面后,基于Web的标注工具对选择的标注任务进行数据标注工作,标注过程中标注人员对数据进行标签选择、标签更改或标签备注,完成数据标注工作后提交标注任务。
9.根据权利要求8所述的一种对有监督数据进行数据标注的方法,其特征在于,执行步骤S3,任务创建者进入任务管理页面后,基于原始数据和标注结果进行审核,计算双盲数据的一致性,生成双盲一致率,并与预设阈值进行比较:在双盲一致率超过预设阈值时将标注任务对应的数据进行上架,在双盲一致率未超过预设阈值时对标注任务对应的数据进行双盲打回操作。
10.根据权利要求9所述的一种对有监督数据进行数据标注的方法,其特征在于,标注任务包括未执行、执行中、已完成和打回四个状态,其中,任务创建者开启的标注任务显示未执行状态,标注小组成员和双盲小组成员选择的标注任务显示执行中状态,标注小组成员和双盲小组成员提交的标注任务显示已完成状态,任务创建者上架的标注任务不显示在标注列表中,任务创建者双盲打回的标注任务显示打回状态;
...【技术特征摘要】
1.一种对有监督数据进行数据标注的系统,其特征在于,其包括:
2.根据权利要求1所述的一种对有监督数据进行数据标注的系统,其特征在于,任务创建者通过任务创建页面创建并启动标注任务,具体包括:
3.根据权利要求2所述的一种对有监督数据进行数据标注的系统,其特征在于,标注小组成员和双盲小组成员通过标注工具界面执行并提交标注任务,具体包括:
4.根据权利要求3所述的一种对有监督数据进行数据标注的系统,其特征在于,任务创建者通过任务管理页面审核标注任务,并对标注任务进行上架或双盲打回操作,具体包括:
5.根据权利要求4所述的一种对有监督数据进行数据标注的系统,其特征在于,标注任务包括未执行、执行中、已完成和打回四个状态,其中,任务创建者开启的标注任务显示未执行状态,标注小组成员和双盲小组成员选择的标注任务显示执行中状态,标注小组成员和双盲小组成员提交的标注任务显示已完成状态,任务创建者上架的标注任务不显示在标注列表中,任务创建者双盲打回的标注任务显示打回状态;
6.一种对有监督数据进行数据标注的方法,其特征在于,其基于如权利要求1所述的系统,包括如下步骤:
7.根据权利要求6所述的一种对有监督数据进行数据标注的方法,其特征在于,执行步骤s1,任务创建者进入任务创建页面后执行如下操作:新建标注任务,选择待标注的...
【专利技术属性】
技术研发人员:栗凯,高传集,孙兴艳,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。