System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 领域数据收集方法、装置、电子设备及存储介质制造方法及图纸_技高网

领域数据收集方法、装置、电子设备及存储介质制造方法及图纸

技术编号:44759780 阅读:5 留言:0更新日期:2025-03-26 12:43
本申请公开了一种领域数据收集方法、装置、电子设备及存储介质,涉及数据处理技术领域,包括:获取开源语料库中的开源数据集,并对开源数据集中各数据进行领域相关性标注,得到标注数据集;根据标注的领域相关性对标注数据集进行筛选,得到与目标领域相关的标注数据子集;对标注数据子集中各数据进行合规性注释,得到注释数据子集;根据注释的合规性对注释数据子集进行筛选,得到目标领域数据。本申请实现了从大量开源语料库中高效提取出既具有金融领域相关性又符合合规要求的专业语料数据,确保了目标领域数据的数量和质量,为金融领域大模型的预训练提供了可靠的数据基础,从而提升了模型在金融领域的理解能力和表达准确性。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种领域数据收集方法、装置、电子设备及存储介质


技术介绍

1、当前特定领域大模型的预训练主要依赖于庞大的特定领域语料库,特定领域语料库可以帮助通用大语言模型理解复杂的特定领域的相关文本内容,例如金融领域语料库中的金融领域数据可以帮助通用大语言模型理解复杂的金融概念及准确把握金融行业特有的语言表达等,因此金融领域大模型的预训练过程,需要收集大量多样的、合规安全的金融领域专业语料,这些数据包括公司公告、财务分析报告、投资研报等。但由于这些数据通常涉及公司隐私、商业保密信息等,造成开源的金融领域语料库较少,仅包含fincorpus、finglm数据集。

2、因此,如何获取大量多样的、合规安全的特定领域专业语料数据,是目前亟需解决的一个问题。


技术实现思路

1、本申请的主要目的在于提供一种领域数据收集方法、装置、电子设备及存储介质,旨在解决如何获取大量多样的、合规安全的特定领域专业语料数据的技术问题。

2、为实现上述目的,本申请提出一种领域数据收集方法,所述领域数据收集方法包括:

3、获取开源语料库中的开源数据集,并对开源数据集中各数据进行领域相关性标注,得到标注数据集;

4、根据标注的领域相关性对标注数据集进行筛选,得到与目标领域相关的标注数据子集;

5、对标注数据子集中各数据进行合规性注释,得到注释数据子集;

6、根据注释的合规性对注释数据子集进行筛选,得到目标领域数据。

7、在一实施例中,开源数据集中各数据的领域相关性由第一数据分类模型标注,第一数据分类模型基于第一样本数据进行训练,该领域数据收集方法还包括:

8、抽取开源数据集中的部分数据作为第一样本数据;

9、通过预设大语言模型标注第一样本数据中各数据的领域相关性,得到第一标注样本数据;

10、将第一标注样本数据作为第一预训练语言模型的第一训练集,并基于第一训练集对第一预训练语言模型进行训练,得到第一数据分类模型。

11、在一实施例中,基于第一训练集对第一预训练语言模型进行训练,得到第一数据分类模型的步骤包括:

12、对于多种预设训练参数配置中任意一种训练参数,基于第一训练集对训练参数配置下的第一预训练语言模型进行训练,得到第一候选数据分类模型;

13、在遍历各训练参数后,得到各训练参数配置下的各第一候选数据分类模型;

14、从第一训练集中获取第一预训练语言模型的第一验证集,并基于第一验证集对各第一候选数据分类模型进行分类性能分数评估,得到第一评估结果,其中,第一评估结果包含各第一候选数据分类模型的分类性能分数;

15、将第一评估结果中最高分类性能分数对应的目标第一候选数据分类模型,作为第一数据分类模型。

16、在一实施例中,标注数据子集中各数据的合规性由第二数据分类模型注释,第二数据分类模型基于第二样本数据进行训练,该领域数据收集方法还包括:

17、抽取开源数据集中的部分数据作为第二样本数据;

18、通过预设大语言模型标注第二样本数据中各数据的合规性,得到第二标注样本数据;

19、将第二标注样本数据作为第二预训练语言模型的第二训练集,并基于第二训练集对第二预训练语言模型进行训练,得到第二数据分类模型。

20、在一实施例中,基于所述第二训练集对第二预训练语言模型进行训练,得到第二数据分类模型的步骤包括:

21、对于多种预设训练参数配置中任意一种训练参数,基于第二训练集对训练参数配置下的第二预训练语言模型进行训练,得到第二候选数据分类模型;

22、在遍历各训练参数后,得到各训练参数配置下的各第二候选数据分类模型;

23、从第二训练集中获取第二预训练语言模型的第二验证集,并基于第二验证集对各第二候选数据分类模型进行精确率和召回率的评估,得到第二评估结果;

24、根据第二评估结果确定各第二候选数据分类模型中的第二数据分类模型。

25、在一实施例中,根据所述第二评估结果确定各第二候选数据分类模型中的第二数据分类模型的步骤包括:

26、根据第二评估结果计算各第二候选数据分类模型的分类性能分数,并确定各分类性能分数中最高分类性能分数的预设分数区间内其余分类性能分数;

27、若存在其余分类性能分数,则选取最高分类性能分数和其余分类性能分数对应的各目标候选数据分类模型中,召回率最高的目标候选数据分类模型,作为第二数据分类模型;

28、若不存在其余分类性能分数,则将最高分类性能分数对应的第二候选数据分类模型,作为第二数据分类模型。

29、在一实施例中,对所述开源数据集中各数据进行领域相关性标注,得到标注数据集的步骤包括:

30、对开源数据集进行数据清洗,得到清洗后的开源数据集;

31、通过预设提示词引导下的预设大语言模型对清洗后的开源数据集进行领域相关性标注,得到标注数据集。

32、此外,为实现上述目的,本申请还提出一种领域数据收集装置,该领域数据收集装置包括:

33、领域标注模块,用于获取开源语料库中的开源数据集,并对开源数据集中各数据进行领域相关性标注,得到标注数据集;

34、领域筛选模块,用于根据标注的领域相关性对标注数据集进行筛选,得到与目标领域相关的标注数据子集;

35、合规注释模块,用于对标注数据子集中各数据进行合规性注释,得到注释数据子集;

36、合规筛选模块,用于根据注释的合规性对注释数据子集进行筛选,得到目标领域数据。

37、此外,为实现上述目的,本申请还提出一种电子设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如上文所述的领域数据收集方法的步骤。

38、此外,为实现上述目的,本申请还提出一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的领域数据收集方法的步骤。

39、此外,为实现上述目的,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上文所述的领域数据收集方法的步骤。

40、本申请提出的一个或多个技术方案,至少具有以下技术效果:

41、本申请首先获取开源语料库中的开源数据集,并对开源数据集中各数据进行领域相关性标注,得到标注数据集,为从开源语料库中筛选出特定领域数据提供了可靠的筛选依据;根据标注的领域相关性对标注数据集进行筛选,得到与目标领域相关的标注数据子集,通过缩小数据集的范围,得到数据子集更加聚焦于目标领域,提高了数据集与目标领域的相关性;对标注数据子集中各数据进行合规性注释,得到注释数据子集,为确保收集到的数据符合相关法律法规以及目标领域的安全本文档来自技高网...

【技术保护点】

1.一种领域数据收集方法,其特征在于,所述领域数据收集方法包括:

2.如权利要求1所述的领域数据收集方法,其特征在于,所述开源数据集中各数据的领域相关性由第一数据分类模型标注,所述第一数据分类模型基于第一样本数据进行训练,所述领域数据收集方法还包括:

3.如权利要求2所述的领域数据收集方法,其特征在于,所述基于所述第一训练集对所述第一预训练语言模型进行训练,得到所述第一数据分类模型的步骤包括:

4.如权利要求1所述的领域数据收集方法,其特征在于,所述标注数据子集中各数据的合规性由第二数据分类模型注释,所述第二数据分类模型基于第二样本数据进行训练,所述领域数据收集方法还包括:

5.如权利要求4所述的领域数据收集方法,其特征在于,所述基于所述第二训练集对所述第二预训练语言模型进行训练,得到所述第二数据分类模型的步骤包括:

6.如权利要求5所述的领域数据收集方法,其特征在于,所述根据所述第二评估结果确定所述各第二候选数据分类模型中的所述第二数据分类模型的步骤包括:

7.如权利要求1所述的领域数据收集方法,其特征在于,所述对所述开源数据集中各数据进行领域相关性标注,得到标注数据集的步骤包括:

8.一种领域数据收集装置,其特征在于,所述领域数据收集装置包括:

9.一种电子设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如权利要求1至7中任一项所述的领域数据收集方法的步骤。

10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的领域数据收集方法的步骤。

...

【技术特征摘要】

1.一种领域数据收集方法,其特征在于,所述领域数据收集方法包括:

2.如权利要求1所述的领域数据收集方法,其特征在于,所述开源数据集中各数据的领域相关性由第一数据分类模型标注,所述第一数据分类模型基于第一样本数据进行训练,所述领域数据收集方法还包括:

3.如权利要求2所述的领域数据收集方法,其特征在于,所述基于所述第一训练集对所述第一预训练语言模型进行训练,得到所述第一数据分类模型的步骤包括:

4.如权利要求1所述的领域数据收集方法,其特征在于,所述标注数据子集中各数据的合规性由第二数据分类模型注释,所述第二数据分类模型基于第二样本数据进行训练,所述领域数据收集方法还包括:

5.如权利要求4所述的领域数据收集方法,其特征在于,所述基于所述第二训练集对所述第二预训练语言模型进行训练,得到所述第二数据分类模型的步骤包括:<...

【专利技术属性】
技术研发人员:王露遥
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1