System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于ChatGPT模型的行业数据验证方法和系统技术方案_技高网

一种基于ChatGPT模型的行业数据验证方法和系统技术方案

技术编号:40290910 阅读:9 留言:0更新日期:2024-02-07 20:41
本发明专利技术提供一种基于ChatGPT模型的行业数据验证方法和系统,方法包括:获取特定行业的行业数据并构建对应的行业数据库;基于ChatGPT模型建立行业数据验证模型并进行初始化;利用行业数据对初始化后的行业数据验证模型进行训练优化;从特定行业的数据展示页面中获取待验证的行业数据并输入行业数据库,将待验证的行业数据输入最优的行业数据验证模型中进行数据验证,获取数据验证结果;对数据验证结果进行后处理,获取后处理结果;根据后处理结果对最优的行业数据验证模型进行校正更新;本发明专利技术能够高效、灵活、智能地进行数据验证,能够处理大规模的数据,并能够快速响应业务需求的变化。

【技术实现步骤摘要】

本专利技术涉及数据管理和数据分析,更具体地,涉及一种基于chatgpt模型的行业数据验证方法和系统。


技术介绍

1、随着数字化时代的到来,组织和企业面临着越来越多的数据挑战,包括数据准确性、完整性和安全性等多个方面。为了确保数据的可靠性和合规性,数据巡查和验证成为一项重要的任务。

2、目前,尽管也有一些用于数据验证的方法、规则引擎和机器学习技术,但这些技术通常依赖于预定义的规则、模式或算法来检查数据的准确性和合规性,存在以下缺点:1)现有数据检测规则通常是刚性的,传统的数据验证方法和规则引擎通常使用预先定义的规则集,对特定的数据格式或模式进行检查;这些规则需要手动编写和维护,并不能适应复杂和多样化的场景,当数据的规则发生变化时,需要手动更新规则,导致耗时和易出错;2)现有技术对语义的理解比较有限,传统的机器学习技术通常基于特征工程和模型训练,但在语义理解方面存在限制;传统模型的表达能力可能受限于特征的选择和语义信息的捕捉,难以处理复杂的自然语言问题或具有高度语境相关性的数据巡查任务;3)传统方法人工工作量较大,包括规则编写、特征提取和模型训练等,这些过程耗时且容易出现人为错误,限制了数据巡查的效率和精确性。

3、现有技术公开了一种页面数据的验证方法、页面数据的验证装置、计算机可读介质以及电子设备,页面数据的验证方法包括:从数据展示页面中获取待验证的页面数据,所述页面数据为所述数据展示页面中显示的业务数据;获取与所述页面数据相对应的原始数据,并确定与所述页面数据相关的业务计算规则;利用所述业务计算规则对所述原始数据进行计算处理后得到真实业务数据;将所述页面数据与所述真实业务数据进行对比,以验证所述页面数据是否正确;尽管该方法引入了用于验证页面数据的机器学习模型,但通过模型训练来实现自动化验证数据的方案对于新的样本效果较差,且需要大量标注数据进行超参数调整,成本较高,效率也较低。


技术实现思路

1、本专利技术为克服上述现有技术通常基于静态的规则,无法适应复杂多变的数据环境,泛化能力有限、精度较低,且往往需要手动编写大量的规则,费时费力、容易出错的缺陷,提供一种基于chatgpt模型的行业数据验证方法和系统,能够高效、灵活、智能地进行数据验证,能够处理大规模的数据,并能够快速响应业务需求的变化。

2、为解决上述技术问题,本专利技术的技术方案如下:

3、一种基于chatgpt模型的行业数据验证方法,包括以下步骤:

4、s1:获取特定行业的行业数据并构建对应的行业数据库;

5、s2:基于chatgpt模型建立行业数据验证模型并进行初始化;

6、s3:利用获取到的行业数据对初始化后的行业数据验证模型进行训练优化,获取最优的行业数据验证模型;

7、s4:从特定行业的数据展示页面中获取待验证的行业数据并输入行业数据库,将待验证的行业数据输入最优的行业数据验证模型中进行数据验证,获取数据验证结果;

8、s5:对数据验证结果进行后处理,获取后处理结果;所述后处理包括人工复核和杂音剔除;

9、根据后处理结果对最优的行业数据验证模型进行校正更新;

10、s6:重复步骤s4~s5,对行业数据库和最优的行业数据验证模型进行更新,将每次更新所获得的后处理结果作为对应行业数据最终的验证结果,完成行业数据的验证。

11、优选地,所述步骤s1中,行业数据具体为社交媒体和电商平台上的行业数据,类型包括文本数据、图像数据和语音数据。

12、优选地,所述步骤s2中,基于chatgpt模型建立行业数据验证模型并进行初始化的具体方法为:

13、基于chatgpt模型建立特定行业的行业数据验证模型,初始化行业数据验证模型的参数,并设置prompt引导行业数据验证模型进行验收,直至满足预设的验收标准,完成初始化;

14、所述参数包括输入数据条件、输入字段、输出字段、输入字段和输出字段的取值范围,以及杂音类型。

15、优选地,所述预设的验收标准具体为:

16、根据预设的品牌优先级设置对应的验收标准,所述预设的品牌优先级包括p1、p2和p3级别,对应的验收标准分别为:

17、p1级别:prompt引导行业数据验证模型的验证准确率大于等于95%;

18、p2级别:prompt引导行业数据验证模型的验证准确率大于等于90%;

19、p3级别:prompt引导行业数据验证模型的验证准确率大于等于85%。

20、优选地,所述步骤s5中,对数据验证结果进行后处理的具体方法为:

21、对数据验证结果进行人工复核,所述人工复核具体为etl后处理增强操作,包括确定预设范围内字段的类型、补充行业内新的品牌和品类名称、确定是否存在错误和违规信息,以及确定字段情感信息;

22、所述字段的类型包括:文本标题、文本内容、引用标签、品牌和品类名称;

23、基于人工复核后的数据验证结果,提取其中的文本标题、文本内容、引用标签、品牌和品类名称,以及利用ocr算法进行图像识别,利用asr算法进行语音识别,并共同保存为提取结果,根据最优的行业数据验证模型中的杂音类型,在提取结果中筛选杂音信息并进行杂音剔除,完成后处理。

24、优选地,所述杂音类型包括:广告类杂音信息和非广告类杂音信息。

25、优选地,所述步骤s3中,利用获取到的行业数据对初始化后的行业数据验证模型的参数进行训练优化;

26、所述步骤s5中,根据后处理结果对最优的行业数据验证模型中设置的prompt进行校正更新。

27、优选地,所述步骤s4中,将待验证的行业数据输入最优的行业数据验证模型中进行数据验证之前还包括:根据预设规则对待验证的行业数据进行异常检测操作,判断是否存在异常数据,若存在,则发出预警提示,并重新获取待验证的行业数据;若不存在,则直接将待验证的行业数据输入最优的行业数据验证模型中进行数据验证。

28、本专利技术还提供一种基于chatgpt模型的行业数据验证系统,应用上述的一种基于chatgpt模型的行业数据验证方法,包括:

29、行业数据库构建单元:用于获取特定行业的行业数据并构建对应的行业数据库;

30、模型建立单元:用于基于chatgpt模型建立行业数据验证模型并进行初始化;

31、模型训练单元:用于利用获取到的行业数据对初始化后的行业数据验证模型进行训练优化,获取最优的行业数据验证模型;

32、数据验证单元:用于从特定行业的数据展示页面中获取待验证的行业数据并输入行业数据库,将待验证的行业数据输入最优的行业数据验证模型中进行数据验证,获取数据验证结果;

33、后处理单元:用于对数据验证结果进行后处理,获取后处理结果;所述后处理包括人工复核和杂音剔除;

34、根据后处理结果对最优的行业数据验证模型进行校正更新;

本文档来自技高网...

【技术保护点】

1.一种基于ChatGPT模型的行业数据验证方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于ChatGPT模型的行业数据验证方法,其特征在于,所述步骤S1中,行业数据具体为社交媒体和电商平台上的行业数据,类型包括文本数据、图像数据和语音数据。

3.根据权利要求2所述的一种基于ChatGPT模型的行业数据验证方法,其特征在于,所述步骤S2中,基于ChatGPT模型建立行业数据验证模型并进行初始化的具体方法为:

4.根据权利要求3所述的一种基于ChatGPT模型的行业数据验证方法,其特征在于,所述预设的验收标准具体为:

5.根据权利要求4所述的一种基于ChatGPT模型的行业数据验证方法,其特征在于,所述步骤S5中,对数据验证结果进行后处理的具体方法为:

6.根据权利要求5所述的一种基于ChatGPT模型的行业数据验证方法,其特征在于,所述杂音类型包括:广告类杂音信息和非广告类杂音信息。

7.根据权利要求6所述的一种基于ChatGPT模型的行业数据验证方法,其特征在于,所述步骤S3中,利用获取到的行业数据对初始化后的行业数据验证模型的参数进行训练优化;

8.根据权利要求7所述的一种基于ChatGPT模型的行业数据验证方法,其特征在于,所述步骤S4中,将待验证的行业数据输入最优的行业数据验证模型中进行数据验证之前还包括:根据预设规则对待验证的行业数据进行异常检测操作,判断是否存在异常数据,若存在,则发出预警提示,并重新获取待验证的行业数据;若不存在,则直接将待验证的行业数据输入最优的行业数据验证模型中进行数据验证。

9.一种基于ChatGPT模型的行业数据验证系统,应用权利要求1~8任意一项中所述的一种基于ChatGPT模型的行业数据验证方法,其特征在于,包括:

10.一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~8任意一项所述方法中的步骤。

...

【技术特征摘要】

1.一种基于chatgpt模型的行业数据验证方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于chatgpt模型的行业数据验证方法,其特征在于,所述步骤s1中,行业数据具体为社交媒体和电商平台上的行业数据,类型包括文本数据、图像数据和语音数据。

3.根据权利要求2所述的一种基于chatgpt模型的行业数据验证方法,其特征在于,所述步骤s2中,基于chatgpt模型建立行业数据验证模型并进行初始化的具体方法为:

4.根据权利要求3所述的一种基于chatgpt模型的行业数据验证方法,其特征在于,所述预设的验收标准具体为:

5.根据权利要求4所述的一种基于chatgpt模型的行业数据验证方法,其特征在于,所述步骤s5中,对数据验证结果进行后处理的具体方法为:

6.根据权利要求5所述的一种基于chatgpt模型的行业数据验证方法,其特征在于,所述杂音类型包括:广告类杂音信息和非广告类杂音信息。<...

【专利技术属性】
技术研发人员:徐亚波李旭日周子良吴全张庆森
申请(专利权)人:广东横琴数说故事信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1