System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据智能标注方法和系统技术方案_技高网

一种数据智能标注方法和系统技术方案

技术编号:44696979 阅读:9 留言:0更新日期:2025-03-19 20:46
本发明专利技术涉及大数据处理技术,具体涉及一种一种数据智能标注方法和系统。一种数据智能标注方法包括如下过程:舆情数据预处理;历史样本库语义去重,更新样本库;基于历史工单库和大模型的智能辅助标注方法;模型更新和样本增量更新;本发明专利技术相对于现有技术的优点在于:采用多个维度的数据清洗方法,提升待标注数据质量,并且通过语义去重降低重复语义信息的干扰;挖掘历史工单中相似工单的潜在价值,构建了用于辅助标注的大模型提示词工程,提供可用的辅助标注提示词模板,打通提示词构建、辅助标注流程;采用PDCA思想,构建数据‑标注‑模型‑工单的闭环管理和PDCA机制螺旋式数据质量方法。

【技术实现步骤摘要】

本专利技术涉及大数据处理技术,具体涉及一种一种数据智能标注方法和系统


技术介绍

1、目前智能类场景中小模型遍存在模型更新滞后,真实业务积累的数据不能及时用于模型训练,数据质量差,部署标注不及时,导致模型能力和业务需求不匹配的情况。迫切需要通过定期模型训练提高模型能力和业务的匹配度,因此需要一套高效、智能的标注方法实现数据和模型的闭环管理,解决数据标注、模型训练难题,实现模型能力持续提升。现有技术缺点:

2、当前小模型数据标注过程中普遍存在脏数据较多、数据清洗不干净、语义重复数据无法有效清除,人工标注量、智能辅助标注性能低等问题,导致数据标注质量低、人工标注量大、标注准确率低等问题。

3、相关术语解释:

4、大模型:指大预言模型,通过提示词工程和模型微调完成辅助数据标注任务。

5、自学习:通过对历史工单数据、样本库数据和模型能力,学习文本的语义特征,从而在辅助标注时提供辅助标注能力。


技术实现思路

1、本专利技术针对影响数据标注质量、及时性、人工标注量大的难题,基于pdca质量工程方法,通过持续、定期的自学习方式,实现数据标注和模型训练提升数据质量。具体技术方案如下:

2、第一方面,一种数据智能标注方法,包括如下过程:

3、s100:舆情数据预处理;具体过程:

4、s110:通过定时任务将舆情历史工单库数据同步至待标注数据库;

5、s120:采用数据多维度数据清洗方法获得高质量初步数据;

6、s200:待标注数据清洗之后逐条与历史样本库数据进行对比,进行语义去重之后获得高质量样本集;具体过程:

7、使用词嵌入模型将文本处理为文本向量并保存指向量数据库,在保存时需要逐条检查当前数据与样本库数据的语义相似度,只保留语义相似度小于阈值的数据;也即只保留新数据,不保留相似数据;

8、s300:从样本集中逐条抽取数据与工单库进行语义相似度对比,找到历史相似工单的数据标注内容和结果,然后构建完成提示词,提示词送入大模型分析得到最后标注结果,实现智能辅助标注;人工标注时参考智能辅助标注结果和历史相似工单详情进行标注,形成样本;

9、s400:采用定时任务方式,定期将最新标注的样本处理成模型训练所需格式,定期自动训练模型,当模型准确率、召回率、f1值等指标符合要求之后保存至本地,实现模型定期自动训练;

10、最终的标注结果经过确认后,将作为新的样本数据加入样本库,进一步丰富系统的历史工单库和标注样本,为后续任务提供参考。

11、优选的,所述数据清洗方法包括如下过程:

12、s121:去重处理;具体为:删除数据集中重复的句子、段落或文档,以减少数据冗余;利用哈希算法或字符串比较检测重复项;利用哈希算法或字符串比较检测重复项;

13、s122:去除无关或噪音内容;具体为:清理掉广告、导航栏、脚本、html标签无关内容;使用正则表达式或html解析器清除无关的html标签、广告内容;

14、s123:使用语言检测工具识别并过滤非目标语言的文本;

15、s124:删除低质量文本;具体过程为:识别语法不完整、句子断裂、内容过短或生成式文本低质量内容并清除;

16、设置最小字符数或最少词数tt,删除长度低于该阈值的文本;

17、使用句法分析工具检测语法不完整的句子;

18、设置文本长度阈值t,若文本长度l(di<t),则删除;

19、s125:停用词与无效字符过滤;具体过程为:根据具体任务需求去除停用词,删除过多的符号、表情等无效字符;使用停用词表过滤无意义的常用词;使用正则表达式去除无效字符、特殊符号;

20、s126:去除不安全或有害内容;具体过程为:使用分类器或正则表达式来去除含有暴力、色情、仇恨言论不合规内容;使用敏感词库检测和删除不安全内容;

21、s127:修复文本编码和格式问题,确保所有文本的编码一致,清理掉编码错误或非标准符号,并将所有文本统一为utf-8;

22、s128:拼写纠正和词汇归一化,使用拼写检查工具纠正拼写错误,标准化异常的词汇和表达;

23、s129:处理低频和长尾词汇;具体过程为:对数据集中词汇进行词频统计,低于设定阈值fff的词汇可以用<unk>(未知词)代替,防止过拟合;对于词汇wi,若词频f(wi)<f,则替换wi为<unk>;

24、s130:上下文一致性检查,确保每条数据上下文完整,删除孤立或截断的段落;

25、s131:内容规范化;将非标准的单位、符号进行规范化,将非标准表达转换为标准形式,非标准单位转换为标准单位。

26、优选的,所述s121中,哈希算法使用md5或sha-1生成每条记录的哈希值,并比较哈希值是否相同;对于每条数据di,计算哈希值h(di),如果h(di)=h(dj)且i≠j,则删除dj。

27、优选的,所述s123中,使用langdetect或cld2语言检测工具,基于字符分布和词汇特征,计算各个语言的概率p(语言|di),保留概率最高的目标语言文本;核心计算公式为:

28、p(中文|di)=max(p(中文1|di),p(英文1|di),…)。

29、优选的,所述s128中,使用拼写检查工具pycorrector自动修正拼写错误;使用词形还原技术将词汇还原为标准形式。

30、优选的,所述s200中,词嵌入操作、数据相似度计算和样本入库具体操作包括如下过程:

31、s210:加载bge-large-zh模型;

32、输入:预训练模型bge-large-zh,通过huggingface进行加载;

33、操作:使用sentencetransformer类加载bge-large-zh模型;

34、中间表示:模型加载后,系统能够根据输入的文本数据生成对应的嵌入向量;

35、输出:模型准备就绪,可以接收输入数据生成向量;

36、s220:准备数据;

37、输入:一组待生成词向量的文本数据;

38、操作:将这些文本数据作为输入,准备生成它们的向量表示;

39、中间表示:输入数据被传递到模型,并会被进一步处理;

40、输出:文本数据准备完毕,输入到模型进行词向量生成;

41、s230:生成词向量;具体过程为:

42、输入:s300中的文本数据;

43、操作:使用bge-large-zh模型对文本进行编码,生成其嵌入向量;

44、中间表示:每个输入文本都会生成一个1024维的向量;

45、公式:假设输入文本为xi,生成的词向量为v(xi),则向量生成公式为:

46、v(xi)=mod本文档来自技高网...

【技术保护点】

1.一种数据智能标注方法,一种数据智能标注方法和系统其特征在于,包括如下过程:

2.根据权利要求1所述一种数据智能标注方法,其特征在于,所述数据清洗方法包括如下过程:

3.根据权利要求2所述一种数据智能标注方法,其特征在于,所述S121中,哈希算法使用MD5或SHA-1生成每条记录的哈希值,并比较哈希值是否相同;对于每条数据Di,计算哈希值H(Di),如果H(Di)=H(Dj)且i≠j,则删除Dj。

4.根据权利要求2所述一种数据智能标注方法,其特征在于,所述S123中,使用langdetect或CLD2语言检测工具,基于字符分布和词汇特征,计算各个语言的概率P(语言|Di),保留概率最高的目标语言文本;核心计算公式为:

5.根据权利要求2所述一种数据智能标注方法,其特征在于,所述S128中,使用拼写检查工具PyCorrector自动修正拼写错误;使用词形还原技术将词汇还原为标准形式。

6.根据权利要求1所述一种数据智能标注方法,其特征在于,所述S200中,词嵌入操作、数据相似度计算和样本入库具体操作包括如下过程:>

7.根据权利要求1所述一种数据智能标注方法,其特征在于,所述S300中,智能辅助标注详细操作方法如下:

8.根据权利要求1所述一种数据智能标注方法,其特征在于,所述S400中,样本增量更新、模型自动训练详细过程如下:

9.根据权利要求1所述一种数据智能标注方法,其特征在于,所述S400中,模型的更新周期设定为每月或每季度。

10.一种数据智能标注系统,其特征在于,包括:

...

【技术特征摘要】

1.一种数据智能标注方法,一种数据智能标注方法和系统其特征在于,包括如下过程:

2.根据权利要求1所述一种数据智能标注方法,其特征在于,所述数据清洗方法包括如下过程:

3.根据权利要求2所述一种数据智能标注方法,其特征在于,所述s121中,哈希算法使用md5或sha-1生成每条记录的哈希值,并比较哈希值是否相同;对于每条数据di,计算哈希值h(di),如果h(di)=h(dj)且i≠j,则删除dj。

4.根据权利要求2所述一种数据智能标注方法,其特征在于,所述s123中,使用langdetect或cld2语言检测工具,基于字符分布和词汇特征,计算各个语言的概率p(语言|di),保留概率最高的目标语言文本;核心计算公式为:

5.根据权利要求2所述一种数...

【专利技术属性】
技术研发人员:杨自兴朱青孙良飞张烁史嘉琪安业腾杨睿
申请(专利权)人:国家电网有限公司客户服务中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1