System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于知识图谱的语料库实体提取模型调整方法及系统技术方案_技高网

基于知识图谱的语料库实体提取模型调整方法及系统技术方案

技术编号:44845976 阅读:2 留言:0更新日期:2025-04-01 19:41
本申请提供基于知识图谱的语料库实体提取模型调整方法及系统,采用知识图谱提供数据训练大参数通用大语言模型,并以此数据用于对比评估训练成果的准确程度。随后通过大参数通用大语言模型生产语料为调整小参数通用大语言模型服务,且二次利用从知识图谱导出的数据,对调整后的小参数通用大语言模型进行评估,用于筛选出优质的小参数通用大语言模型以投入使用。该调整方法使得小参数通用大语言模型具备较高的实体与关系的提取能力,同时不依赖于大量算力,可降低数据成本,并解决模型通用性差与任务完成质量不佳的问题。

【技术实现步骤摘要】

本专利技术涉及大语言模型领域,尤其涉及基于知识图谱的语料库实体提取模型调整方法及系统


技术介绍

1、知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱由节点和边组成,以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。利用知识图谱对事实、信息等的大量存储,人们借助计算机进一步提高了计算速度,在面对需大计算量的场景时,可有效及时地做出反应。

2、随着时代发展,各领域的文本积累量愈加庞大,于是为了高效处理或整合文本,语言模型应运而生。目前,根据处理数据数量的不同,语言模型可分为大参数与小参数语言模型,其中通用大语言模型可针对多种场景进行文本生成、文本翻译、文本归纳以及智能问答等。但在实际应用如实体与关系的提取中,大参数语言模型所需算力大,需要消耗较多资源,而小参数语言模型需要算力较少,却需要经过调整、加以干预等,且完成质量不高。


技术实现思路

1、本专利技术针对现有技术中的缺陷,目的之一是提供一种基于知识图谱的语料库实体提取模型调整方法,筛选出适合的大参数通用大语言模型用于生产语料,进而调整小参数通用大语言模型,使得小参数通用大语言模型能够以较少的算力准确地提取实体与关系。

2、本专利技术提供一种基于知识图谱的语料库实体提取模型调整方法,包括以下步骤:

3、s1.从知识图谱中导出三元组;

4、s2.将所述三元组输入大参数通用大语言模型,大参数通用大语言模型输出实体与关系;

5、s3.大参数通用大语言模型通过实体与关系输出自然语言文本;

6、s4.将所述自然语言文本输入大参数通用大语言模型,大参数通用大语言模型输出实体与关系;

7、s5.评估所述实体与关系,选出评分最高的大参数通用大语言模型;

8、s6.使用所述大参数通用大语言模型生产语料以形成语料库;

9、s7.使用所述语料库对小参数通用大语言模型进行调整;

10、s8.在调整后的小参数通用大语言模型中输入自然语言文本,以输出三元组;

11、s9.评估所述三元组,选出评分最高的小参数通用大语言模型。

12、在本方案中,通过知识图谱导出的三元组对大参数通用大语言模型进行筛选,挑选出适合的大参数通用大语言模型生产语料,为调整小参数通用大语言模型提供语料库,根据评估,可筛选出完成从自然语言文本中提取实体与关系质量较高的模型,解决了小参数通用大语言模型需要外加干预等仍无法较好完成文本提取任务的问题,既节省了算力,又提高了完成文本工作的质量。

13、在本专利技术较佳的技术方案中,所述步骤s1中,所述三元组为事实三元组格式,所述三元组以一定格式输出。在本方案中,知识图谱以一定格式输出事实三元组文件,随后输入大参数通用大语言模型。

14、在本专利技术较佳的技术方案中,所述步骤s2中,将所述三元组与提示词输入若干大参数通用大语言模型,以一定格式输出实体与关系。在本方案中,三元组输入大参数通用大语言模型,使大参数通用大语言模型提取出实体与关系,并以json等格式输出为文件。

15、在本专利技术较佳的技术方案中,所述步骤s4中,将所述自然语言文本结合提示词输入若干大参数通用大语言模型,以一定格式输出所述实体与关系。在本方案中,将大参数通用大语言模型生产的自然语言文本输入大参数通用大语言模型,添加提示词,使之再次提取出文本中的实体与关系,并以一定格式输出为文件。

16、在本专利技术较佳的技术方案中,所述步骤s5与s6中,比对若干所述大参数通用大语言模型输出的实体与关系和从所述知识图谱中导出的所述三元组,相似度最高的大参数通用大语言模型为评分最高,并使用评分最高的大参数通用大语言模型生产语料以形成语料库。在本方案中,采用rough等指标比对大参数通用大语言模型输出的实体与关系和从知识图谱中导出的三元组中实体与关系的相似性,在多个大参数通用大语言模型中挑选出结果最相似的作为生产语料的语言模型,证明其提取准确度较高,能为调整小参数通用大语言模型生产语料以形成语料库。

17、在本专利技术较佳的技术方案中,所述步骤s7中,以a l paca数据集格式将所述语料库输入若干小参数通用大语言模型进行调整。在本方案中,筛选后的大参数通用大语言模型生产的语料库用于对小参数通用语言模型进行训练调整,使小参数通用语言模型更适用于某些特定的文本任务。

18、在本专利技术较佳的技术方案中,所述步骤s8中,将所述自然语言文本输入若干调整后的小参数通用大语言模型以输出json格式的三元组。输出json格式的三元组用于对调整后的小参数通用大语言模型进行评估,以筛选出提取能力较优的大语言模型。

19、在本专利技术较佳的技术方案中,所述步骤s9中,通过rough等指标对若干调整后的小参数通用大语言模型输出的结果进行对比,指标指数最高的小参数通用大语言模型为评分最高。在本方案中,使用rough等指标比对调整后的小参数通用大语言模型输出的三元组中的实体和知识图谱中导出的实体,以指标量化结果并按评分筛选出指数最大的小参数通用大语言模型,即可用于各种特定的应用场景中。

20、本专利技术的有益效果至少包括:

21、本专利技术提供的一种基于知识图谱的语料库实体提取模型调整方法,采用知识图谱提供数据训练大参数通用大语言模型,并以此数据用于对比评估训练成果的准确程度。随后通过大参数通用大语言模型生产语料为调整小参数通用大语言模型服务,且二次利用从知识图谱导出的数据,对调整后的小参数通用大语言模型进行评估,用于筛选出优质的小参数通用大语言模型以投入使用。该调整方法使得小参数通用大语言模型具备较高的实体与关系的提取能力,同时不依赖于大量算力,可降低数据成本,并提升模型通用性与任务完成质量。

22、本专利技术还提供一种系统,包括执行主体,所述执行主体上设置有可读存储介质,可读存储介质存储有计算机程序,当计算机运行所述计算机程序时,执行如上所述的基于知识图谱的语料库实体提取模型调整方法,可便捷运用于各类终端设备中,使得设备执行上述调整方法。

本文档来自技高网...

【技术保护点】

1.一种基于知识图谱的语料库实体提取模型调整方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于知识图谱的语料库实体提取模型调整方法,其特征在于:所述步骤S1中,所述三元组为事实三元组格式,所述三元组以一定格式输出。

3.根据权利要求1所述的基于知识图谱的语料库实体提取模型调整方法,其特征在于:所述步骤S2中,将所述三元组与提示词输入若干大参数通用大语言模型,以一定格式输出实体与关系。

4.根据权利要求1所述的基于知识图谱的语料库实体提取模型调整方法,其特征在于:所述步骤S4中,将所述自然语言文本结合提示词输入若干大参数通用大语言模型,以一定格式输出所述实体与关系。

5.根据权利要求1所述的基于知识图谱的语料库实体提取模型调整方法,其特征在于:所述步骤S5与S6中,比对若干所述大参数通用大语言模型输出的实体与关系和从所述知识图谱中导出的所述三元组,相似度最高的大参数通用大语言模型为评分最高,并使用评分最高的大参数通用大语言模型生产语料以形成语料库。

6.根据权利要求1所述的基于知识图谱的语料库实体提取模型调整方法,其特征在于:所述步骤S7中,以alpaca数据集格式将所述语料库输入若干小参数通用大语言模型进行调整。

7.根据权利要求1所述的基于知识图谱的语料库实体提取模型调整方法,其特征在于:所述步骤S8中,将所述自然语言文本输入若干调整后的小参数通用大语言模型以输出json格式的三元组。

8.根据权利要求1所述的基于知识图谱的语料库实体提取模型调整方法,其特征在于:所述步骤S9中,通过ROUGH等指标对若干调整后的小参数通用大语言模型输出的结果进行对比,指标指数最高的小参数通用大语言模型为评分最高。

9.一种系统,包括执行主体,所述执行主体上设置有可读存储介质,可读存储介质存储有计算机程序,其特征在于:当计算机运行所述计算机程序时,执行如权利要求1-8所述的基于知识图谱的语料库实体提取模型调整方法。

...

【技术特征摘要】

1.一种基于知识图谱的语料库实体提取模型调整方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于知识图谱的语料库实体提取模型调整方法,其特征在于:所述步骤s1中,所述三元组为事实三元组格式,所述三元组以一定格式输出。

3.根据权利要求1所述的基于知识图谱的语料库实体提取模型调整方法,其特征在于:所述步骤s2中,将所述三元组与提示词输入若干大参数通用大语言模型,以一定格式输出实体与关系。

4.根据权利要求1所述的基于知识图谱的语料库实体提取模型调整方法,其特征在于:所述步骤s4中,将所述自然语言文本结合提示词输入若干大参数通用大语言模型,以一定格式输出所述实体与关系。

5.根据权利要求1所述的基于知识图谱的语料库实体提取模型调整方法,其特征在于:所述步骤s5与s6中,比对若干所述大参数通用大语言模型输出的实体与关系和从所述知识图谱中导出的所述三元组,相似度最高的大参数通用大语言模型为评分最高,并使用评...

【专利技术属性】
技术研发人员:王建华黄仁欢吴波飞洪利聪周锦锋张子健方展桌黄铭杰张怡琳张展华陈倩明查云起龙拥兵兰玉彬
申请(专利权)人:华南农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1