System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于领域知识的金融数据分级方法及装置制造方法及图纸_技高网

一种基于领域知识的金融数据分级方法及装置制造方法及图纸

技术编号:43981216 阅读:2 留言:0更新日期:2025-01-10 20:05
本申请提供一种基于领域知识的金融数据分级方法及装置,涉及人工智能领域,也可用于金融领域,包括:将标注数据集中的已分级金融数据输入各大语言模型,以确定所述已分级金融数据对应的全局领域关键词嵌入表示及专长领域关键词嵌入表示;根据所述全局领域关键词嵌入表示及所述专长领域关键词嵌入表示确定待分级金融数据匹配的大语言模型;利用所述匹配的大语言模型生成所述待分级金融数据的分级结果。本申请能够针对待测数据所属的细分领域,应用该领域上表现更优的模型进行预测,充分发挥模型在各细分领域的优势,提升金融数据的分级效果。

【技术实现步骤摘要】

本申请涉及人工智能领域,可以用于金融领域,具体是一种基于领域知识的金融数据分级方法及装置


技术介绍

1、金融数据具有较高的保密性,基于其数据的实践过程也具有一定的保密性要求,因此,数据的安全可控尤为关键。金融数据安全分级工作不仅需要充足的领域知识为基础来理解数据的业务含义,还需要对数据所蕴含的影响程度及影响对象具有评估能力。这项工作涉及面广、要求严格。目前,主要通过定性的工作方式来完成,并通过参考已完成的安全分级结果来提高定性工作的可靠性。然而,不同研究人员在很多结果上不能达成一致意见,甚至同一研究人员在不同阶段给出的结果也存在偏差。

2、随着对大语言模型(large language models,简称llms)研究的不断深入,越来越多的工作不再局限于模型本身的性能提升,而是更加关注如何在任务中实现更高效、更可靠的性能。即使是通用型的离线大语言模型,也在各种领域和任务中具有不同的专业知识,因此,如何将多个大语言模型集成在一起,实现更为一致的性能提升成为亟待解决的问题。

3、本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。


技术实现思路

1、针对现有技术中的问题,本申请提供一种基于领域知识的金融数据分级方法及装置,能够针对待测数据所属的细分领域,应用该领域上表现更优的模型进行预测,充分发挥模型在各细分领域的优势,提升金融数据的分级效果。

2、为解决上述技术问题,本申请提供以下技术方案:

3、第一方面,本申请提供一种基于领域知识的金融数据分级方法,包括:

4、将标注数据集中的已分级金融数据输入各大语言模型,以确定所述已分级金融数据对应的全局领域关键词嵌入表示及专长领域关键词嵌入表示;

5、根据所述全局领域关键词嵌入表示及所述专长领域关键词嵌入表示确定待分级金融数据匹配的大语言模型;

6、利用所述匹配的大语言模型生成所述待分级金融数据的分级结果。

7、进一步地,将标注数据集中的已分级金融数据输入各大语言模型,以确定所述已分级金融数据对应的全局领域关键词嵌入表示及专长领域关键词嵌入表示,包括:

8、将标注数据集中的领域关键词输入各大语言模型,得到对应的预测结果;

9、根据对应的预测结果将所述标注数据集划分为全部正确集合、部分正确集合及全部错误集合;

10、分别在所述全部正确集合与所述部分正确集合中抽取所述领域关键词的全局领域关键词嵌入表示及专长领域关键词嵌入表示;

11、针对所述部分正确集合中的各领域关键词,逐一确定针对该领域关键词表现最优的多个大语言模型。

12、进一步地,所述根据所述全局领域关键词嵌入表示及所述专长领域关键词嵌入表示确定待分级金融数据匹配的大语言模型,包括:

13、计算所述待分级金融数据与所述全局领域关键词嵌入表示的第一相似度;

14、计算所述待分级金融数据与所述专长领域关键词嵌入表示的第二相似度;

15、若所述第一相似度大于所述第二相似度,则将预先选取的k个大语言模型确定为所述待分级金融数据匹配的大语言模型;其中,k为正整数;

16、否则,根据所述待分级金融数据所属的领域,将预先选取的在该领域表现最优的大语言模型确定为所述待分级金融数据匹配的大语言模型。

17、进一步地,所述在该领域表现最优的大语言模型为所述待分级金融数据匹配的大语言模型;所述利用所述匹配的大语言模型生成所述待分级金融数据的分级结果,包括:

18、计算所述待分级金融数据与所述部分正确集合中各领域关键词的第三相似度;

19、根据所述第三相似度对各领域关键词进行排序,得到与所述待分级金融数据最相似的前k个领域关键词;其中,k为正整数;

20、利用前k个领域关键词各自对应的大语言模型对所述待分级金融数据进行分级,得到最终预测结果。

21、第二方面,本申请提供一种基于领域知识的金融数据分级装置,包括:

22、嵌入表示生成单元,用于将标注数据集中的已分级金融数据输入各大语言模型,以确定所述已分级金融数据对应的全局领域关键词嵌入表示及专长领域关键词嵌入表示;

23、语言模型确定单元,用于根据所述全局领域关键词嵌入表示及所述专长领域关键词嵌入表示确定待分级金融数据匹配的大语言模型;

24、分级结果生成单元,用于利用所述匹配的大语言模型生成所述待分级金融数据的分级结果。

25、进一步地,所述嵌入表示生成单元,包括:

26、预测结果生成模块,用于将标注数据集中的领域关键词输入各大语言模型,得到对应的预测结果;

27、正误集合划分模块,用于根据对应的预测结果将所述标注数据集划分为全部正确集合、部分正确集合及全部错误集合;

28、嵌入表示生成模块,用于分别在所述全部正确集合与所述部分正确集合中抽取所述领域关键词的全局领域关键词嵌入表示及专长领域关键词嵌入表示;

29、领域模型确定模块,用于针对所述部分正确集合中的各领域关键词,逐一确定针对该领域关键词表现最优的多个大语言模型。

30、进一步地,所述语言模型确定单元,包括:

31、第一相似确定模块,用于计算所述待分级金融数据与所述全局领域关键词嵌入表示的第一相似度;

32、第二相似确定模块,用于计算所述待分级金融数据与所述专长领域关键词嵌入表示的第二相似度;

33、第一模型确定模块,用于若所述第一相似度大于所述第二相似度,则将预先选取的k个大语言模型确定为所述待分级金融数据匹配的大语言模型;其中,k为正整数;

34、第二模型确定模块,用于否则,根据所述待分级金融数据所属的领域,将预先选取的在该领域表现最优的大语言模型确定为所述待分级金融数据匹配的大语言模型。

35、进一步地,所述分级结果生成单元,包括:

36、第三相似确定模块,用于计算所述待分级金融数据与所述部分正确集合中各领域关键词的第三相似度;

37、领域关键排序模块,用于根据所述第三相似度对各领域关键词进行排序,得到与所述待分级金融数据最相似的前k个领域关键词;其中,k为正整数;

38、最终预测模块,用于利用前k个领域关键词各自对应的大语言模型对所述待分级金融数据进行分级,得到最终预测结果。

39、第三方面,本申请提供一种电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述基于领域知识的金融数据分级方法的步骤。

40、第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述基于领域知识的金融数据分级方法的步骤。

41、第五方面,本申请提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/本文档来自技高网...

【技术保护点】

1.一种基于领域知识的金融数据分级方法,其特征在于,包括:

2.根据权利要求1所述的基于领域知识的金融数据分级方法,其特征在于,所述将标注数据集中的已分级金融数据输入各大语言模型,以确定所述已分级金融数据对应的全局领域关键词嵌入表示及专长领域关键词嵌入表示,包括:

3.根据权利要求1所述的基于领域知识的金融数据分级方法,其特征在于,所述根据所述全局领域关键词嵌入表示及所述专长领域关键词嵌入表示确定待分级金融数据匹配的大语言模型,包括:

4.根据权利要求2所述的基于领域知识的金融数据分级方法,其特征在于,所述在该领域表现最优的大语言模型为所述待分级金融数据匹配的大语言模型;所述利用所述匹配的大语言模型生成所述待分级金融数据的分级结果,包括:

5.一种基于领域知识的金融数据分级装置,其特征在于,包括:

6.根据权利要求5所述的基于领域知识的金融数据分级装置,其特征在于,所述嵌入表示生成单元,包括:

7.根据权利要求5所述的基于领域知识的金融数据分级装置,其特征在于,所述语言模型确定单元,包括:

8.根据权利要求6所述的基于领域知识的金融数据分级装置,其特征在于,所述分级结果生成单元,包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的基于领域知识的金融数据分级方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的基于领域知识的金融数据分级方法的步骤。

11.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至4任一项所述的基于领域知识的金融数据分级方法的步骤。

...

【技术特征摘要】

1.一种基于领域知识的金融数据分级方法,其特征在于,包括:

2.根据权利要求1所述的基于领域知识的金融数据分级方法,其特征在于,所述将标注数据集中的已分级金融数据输入各大语言模型,以确定所述已分级金融数据对应的全局领域关键词嵌入表示及专长领域关键词嵌入表示,包括:

3.根据权利要求1所述的基于领域知识的金融数据分级方法,其特征在于,所述根据所述全局领域关键词嵌入表示及所述专长领域关键词嵌入表示确定待分级金融数据匹配的大语言模型,包括:

4.根据权利要求2所述的基于领域知识的金融数据分级方法,其特征在于,所述在该领域表现最优的大语言模型为所述待分级金融数据匹配的大语言模型;所述利用所述匹配的大语言模型生成所述待分级金融数据的分级结果,包括:

5.一种基于领域知识的金融数据分级装置,其特征在于,包括:

6.根据权利要求5所述的基于领域知识的金融数据分...

【专利技术属性】
技术研发人员:朱珣励胜曾菊儒张兰兰
申请(专利权)人:银清科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1