System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据挖掘领域,更为具体的,涉及一种面向知识发现的科学实验知识图谱构建方法及系统。
技术介绍
1、科技文献中蕴含大量“可信、专业、规范”的领域知识与科学数据,是重要的科技创新要素,可有效支撑数智驱动的科学发现与知识发现。科学实验是科技文献的核心内容,如何从海量科技文献中提取科学实验核心的实验要素,对科学实验进行动态、细粒度、富语义的知识表示并构建知识图谱,为科学实验知识发现和决策提供支持已成为现阶段亟待解决的难题。
技术实现思路
1、本专利技术的目的在于克服现有技术的不足,提供一种面向知识发现的科学实验知识图谱构建方法及系统,提升了科技文献中科学实验知识挖掘和知识发现的效率和质量等。
2、本专利技术的目的是通过以下方案实现的:
3、一种面向知识发现的科学实验知识图谱构建方法,包括以下步骤:
4、s1,确定数据源;
5、s2,标注预训练数据;
6、s3,基于大语言模型结合标注数据进行领域知识抽取;
7、s4,知识图谱构建:将科学实验按结构化三元组的方式进行形式化分解,并存储到图数据库中。
8、进一步地,在步骤s1中,所述数据源包括osc领域的数据,所述osc领域的数据包括期刊论文和专利。
9、进一步地,在步骤s2中,所述预训练数据标注包括子步骤:
10、s21,提取选定领域的研究人员对待标数据集进行初次人工标注后的数据至于依标注模板中,并在pdf原文对应处进行批注;
11、s22,检查数据有无错标和漏标的情况,并纠正错误标注结果;
12、s23,对步骤s22中检查无误后的数据进行归类。
13、进一步地,在步骤s3中,所述基于大语言模型结合标注数据进行领域知识抽取包括子步骤:
14、s31,本地化部署chatglm-6b模型,基于标注数据和p-tuning v2技术微调模型;
15、s32,利用mot机制构建提示prompt并注入本体中蕴含的语义知识,通过与chatglm-6b的多轮问答实现专业领域复杂知识抽取。
16、进一步地,在步骤s31中,所述本地化部署chatglm-6b模型,基于标注数据和p-tuning v2技术微调模型,包括子步骤:
17、s311,冻结chatglm-6b模型全部参数,通过p-tuning v2引导模型完成下游文献挖掘任务,在极大压缩所需更新参数量的同时达到模型微调的作用;
18、s312,构建连续提示与深度调优:连续提示由前缀向量、问题向量和答案向量三部分组成,其中,前缀向量由前缀编码器训练得到,问题向量和答案向量由大语言模型的嵌入层映射得到;深度调优将连续提示作为输入,在大语言模型的每一层都插入与科技文献挖掘任务相关的前缀向量,通过训练样例迭代更新前缀编码器参数。
19、进一步地,在步骤s32中,所述利用mot机制构建提示prompt并注入本体中蕴含的语义知识,通过与chatglm-6b的多轮问答实现专业领域复杂知识抽取,包括子步骤:
20、多次调节提示长度和训练的学习率以取得最优的模型微调效果:在模型的多轮问答阶段,通过领域本体构建目标问题,利用mot机制额外提供一组应用场景相关的问答样例,然后将目标问题与问答样例整合为提示,辅助chatglm-6b模型完成知识抽取任务;其中,mot机制基于标注数据生成了问题-答案对以形成外部记忆,通过doc2vec模型从外部记忆中选取最相关的k个问题-答案对作为问答样例;在领域本体中,实体类型被组织成树状结构,将命名实体识别视作一个文本层次分类任务,然后为类型树中每个叶子节点生成一条唯一的标签路径,利用大语言模型判断句子文本特征与不同标签路径的匹配度,并从mot机制中获取top-k个最有效的问题答案对,通过第一轮问答生成实体类型;然后将提示输入大语言模型后解析出实体,然后基于领域本体获取不同实体类型之间存在的语义关系,得到三元组。
21、进一步地,在步骤s4中,所述将科学实验按结构化三元组的方式进行形式化分解,并存储到图数据库中,包括子步骤:
22、s41,以spo三元组的形式将数据进行分布式表示,并导入neo4j图数据库中存储,spo中的subject和object均对应数据中的实体,predicate对应实体之间的关系,而事件则由一个以上的三元组表达;
23、s42,根据科学实验本体对实体、属性和关系的定义对neo4j图数据库中对应的节点即实体和边即关系进行定义;
24、s43,将已标注数据中的节点信息进行提取,将每个类单独存储为工作表;节点信息创建完毕后,再建立各个实体之间的关系,最后以三元组即节点-边-节点的形式存储;
25、s44,利用neo4j的cypher语句将节点和边依次导入图数据库中可视化呈现。
26、进一步地,在步骤s312中,所述前缀编码器包括transformer或多层神经网络。
27、一种面向知识发现的科学实验知识图谱构建系统,包括计算机系统和计算机程序,当所述计算机程序由计算机系统运行时执行如上任一项所述的方法。
28、进一步地,所述计算机系统包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载时执行如上所述的方法。
29、本专利技术的有益效果包括:
30、现今科技文献数量呈指数级增长,本专利技术提出的方法可从海量多源异构的文献数据中高效且高质量地抽取科学实验要素并对其进行自动化抽取、结构化组织、语义化关联与知识化存储,为实验方案推荐、知识发现、情报研究、ai for science等提供高质量数据支持。此外,将现今主流的大语言模型引入科技文献知识发现中,实现科技文献中科学实验数据和知识的自动标注,提升科技文献挖掘和知识发现的效率和质量。
31、本专利技术可以采用人机结合的方式构建科学实验知识图谱,分为两个阶段,第一阶段主要进行预训练数据人工标注,请专家依据构建的schema进行数据标注,第二阶段将标注的数据作为训练集,微调大语言模型进一步扩充标注数据集,最终构建特定领域的科学实验知识图谱。
本文档来自技高网...【技术保护点】
1.一种面向知识发现的科学实验知识图谱构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的面向知识发现的科学实验知识图谱构建方法,其特征在于,在步骤S1中,所述数据源包括OSC领域的数据,所述OSC领域的数据包括期刊论文和专利。
3.根据权利要求1所述的面向知识发现的科学实验知识图谱构建方法,其特征在于,在步骤S2中,所述预训练数据标注包括子步骤:
4.根据权利要求1所述的面向知识发现的科学实验知识图谱构建方法,其特征在于,在步骤S3中,所述基于大语言模型结合标注数据进行领域知识抽取包括子步骤:
5.根据权利要求4所述的面向知识发现的科学实验知识图谱构建方法,其特征在于,在步骤S31中,所述本地化部署ChatGLM-6B模型,基于标注数据和P-Tuning v2技术微调模型,包括子步骤:
6.根据权利要求4所述的面向知识发现的科学实验知识图谱构建方法,其特征在于,在步骤S32中,所述利用MOT机制构建提示prompt并注入本体中蕴含的语义知识,通过与ChatGLM-6B的多轮问答实现专业领域复杂知识抽取,包括子
7.根据权利要求1所述的面向知识发现的科学实验知识图谱构建方法,其特征在于,在步骤S4中,所述将科学实验按结构化三元组的方式进行形式化分解,并存储到图数据库中,包括子步骤:
8.根据权利要求5所述的面向知识发现的科学实验知识图谱构建方法,其特征在于,在步骤S312中,所述前缀编码器包括Transformer或多层神经网络。
9.一种面向知识发现的科学实验知识图谱构建系统,其特征在于,包括计算机系统和计算机程序,当所述计算机程序由计算机系统运行时执行如权利要求1~8中任一项所述的方法。
10.根据权利要求9所述的面向知识发现的科学实验知识图谱构建系统,其特征在于,所述计算机系统包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载时执行如权利要求1~8任一项所述的方法。
...【技术特征摘要】
1.一种面向知识发现的科学实验知识图谱构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的面向知识发现的科学实验知识图谱构建方法,其特征在于,在步骤s1中,所述数据源包括osc领域的数据,所述osc领域的数据包括期刊论文和专利。
3.根据权利要求1所述的面向知识发现的科学实验知识图谱构建方法,其特征在于,在步骤s2中,所述预训练数据标注包括子步骤:
4.根据权利要求1所述的面向知识发现的科学实验知识图谱构建方法,其特征在于,在步骤s3中,所述基于大语言模型结合标注数据进行领域知识抽取包括子步骤:
5.根据权利要求4所述的面向知识发现的科学实验知识图谱构建方法,其特征在于,在步骤s31中,所述本地化部署chatglm-6b模型,基于标注数据和p-tuning v2技术微调模型,包括子步骤:
6.根据权利要求4所述的面向知识发现的科学实验知识图谱构建方法,其特征在于,在步骤s32中,所述利用mot机制...
【专利技术属性】
技术研发人员:胡正银,石栖,陈文杰,
申请(专利权)人:中国科学院成都文献情报中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。