System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及科学数据管理,更具体地,涉及一种科学数据集命名规范检查方法、系统、设备及存储介质。
技术介绍
1、科学数据主要涉及到自然科学、工程技术科学等领域,是通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式,取得并用于科学研究活动的原始数据及其衍生数据。科学数据集则是基于一定规则标准组织和管理的科学数据集合。科学数据集普遍存在命名不规范、命名冗余及信息不完整等问题,这些问题优惠导致对科学数据检索困难、科学数据质量降低、科学数据重复使用率低等困境。特别是科学数据作为科技成果的主要形式、科研项目的验收依据、成果转化的重要载体,其命名要求和目的是多样复杂的,命名不规范便极大降低了数据审核的验收效率和数据的共享水平,对数据进行验收、对数据质量进行审核、对数据进行使用等相关人员,很难基于数据文件夹、数据文件名称找到目标数据。为了确保数据的可读性、可追溯性和一致性,迫切需要一种辅助上述相关人员的科学数据集命名规范检查方法,能够根据不同学科领域的特点和需求,自动生成和更新命名规则,确保科学数据集的命名标准化和规范化,提升数据管理的效率和质量。
技术实现思路
1、本专利技术旨在克服上述现有技术的至少一种缺陷(不足),提供一种科学数据集命名规范检查方法、系统、设备及存储介质,实现对科学数据集命名的规范性检测。
2、根据本申请的第一方面,提供了一种科学数据集命名规范检查方法,包括:
3、获取待检查科学数据集的参考配套信息载体,根据所述
4、根据所述参考配套信息载体获取命名语义信息,基于所述命名语义信息构建命名特征网络图,基于所述参考命名规则从所述命名特征网络图中获取参考命名结构;
5、获取所述待检查科学数据集对应的实际配套信息载体,根据所述实际配套信息载体获取实际命名需求,并且根据所述实际命名需求获取实际命名规则;
6、根据所述实际配套信息载体、实际命名需求和实际命名规则获取提示词模板,并基于所述提示词模板生成待检查科学数据集的描述信息;
7、从待检查科学数据集提取实际命名信息特征,基于所述实际命名信息特征和所述描述信息,获取实际命名结构;
8、对比所述实际命名结构和所述参考命名结构获取差异数据,根据所述差异数据对所述待检查科学数据集的命名进行更新,记录命名更新日志。
9、可理解的是,将生成的参考命名结构和实际命名结构作对比,能够定位实际命名中的不规范问题,用户可以根据所述命名规范检查报告对不规范命名进行更新,保证所述科学数据集命名的规范性。
10、可选地,所述获取待检查科学数据集的参考配套信息载体,根据所述参考配套信息载体获取参考命名需求,并且根据所述参考命名需求获取参考命名规则,具体包括:
11、根据所述参考配套信息载体获取参考命名需求,从所述参考命名需求中提取所述参考命名需求相关语料;
12、从所述参考命名需求相关语料中获取与所述待检查科学数据集命名相关的文本内容,形成规则描述文本集;
13、提取所述规则描述文本集的关键词和主题,通过向量聚类分析获取所述关键词和主题的关联语义特征,优化所述规则描述文本集;
14、将所述优化后的规则描述文本集进行标识,得到参考命名规则特征,定义所述参考命名规则的结构,再将所述参考命名规则特征根据所述参考命名规则的结构,格式化为参考命名规则,其中所述参考命名规则包括命名字段和命名字段所需要遵循的规则。
15、可理解的是,从所述参考命名需求的语义特征中提取出的内容转化为具体、可操作的小参考命名规则,以确保参考命名规则的系统性、可执行性和适用性。
16、可选地,所述根据所述参考配套信息载体获取命名语义信息,具体包括:
17、从所述参考配套信息载体中提取命名实体和所述命名实体相关联的上下文语义特征,形成命名信息参考集;
18、将所述参考命名规则的命名字段对应所述命名信息参考集的命名实体,从所述命名信息参考集中获取所述参考命名规则的命名字段的关键命名信息;
19、构建语义网络,基于语义网络对所述关键命名信息进行概念聚类,生成参考概念聚簇,其中,所述参考概念聚簇包括概念-命名实体特征集和概念-语义特征集;
20、根据所述参考概念聚簇获取命名特征分布,根据命名特征分布生成所述命名语义信息。
21、可理解的是,获取所述待检查科学数据集配套信息载体的命名语义信息,能够从该命名语义信息中得到命名的依据,以至对待检查科学数据集的命名更加规范,与相关的配套信息载体中的内容一一对应,方便数据管理人员辨认和管理。
22、可选地,所述基于所述命名语义信息构建命名特征网络图,基于所述参考命名规则从所述命名特征网络图中获取参考命名结构,具体包括:
23、初始化命名特征网络图;
24、将所述参考概念聚簇中的概念-命名实体特征集和概念-语义特征集中的概念词作为所述命名特征网络图的节点,并为每个所述节点定义语义标签和特征描述;
25、根据所述参考概念聚簇对应的命名特征分布,建立所述命名特征网络图的连接边,将所述概念词进行逻辑上或语义上的关联;
26、将所述参考命名规则映射到所述命名特征网络图中,获取符合所述命名规则的参考命名结构;
27、其中,所述参考命名结构包括所述待检查科学数据集的参考命名格式、参考命名字段可取内容、所在文件夹的参考层级关系和参考配套信息载体。
28、可理解的是,建立命名特征网络图能够清晰得理清各概念和各命名主体之间的联系,以至于能够提高命名信息处理效率,提高建立参考命名结构的效率。
29、可选地,所述根据所述实际配套信息载体、实际命名需求和实际命名规则获取提示词模板,具体包括:
30、根据所述实际配套信息载体定义实际命名需求输入框架;
31、根据实际命名规则定义实际概念聚簇输入框架;
32、根据实际配套信息载体确定信息提取任务;
33、根据所述实际命名需求、所述实际概念聚簇与所述实际配套信息载体的关联性,确定所述待检查科学数据集的描述信息生成任务。
34、可理解的是,提示词模板的设定,能够生成实际命名的辅助信息,并且定义的输入框架,使得用户在命名过程中简化输入和操作,同时根据实际配套信息载体和实际命名规则定义输入框架,可以在一定程度上确保实际命名的规范性符合要求,从而可以引导实际命名结构的创建。
35、可选地,所述从待检查科学数据集提取实际命名信息特征,基于所述实际命名信息特征和所述描述信息,获取实际命名结构,具体包括:
36、根据所述待检查科学数据集所在的文件夹、所述文件夹其他文件名关键词和所述描述信息中的关键字段,提取所述实际命名信息特征;
37、根据所述文件夹的层级、所本文档来自技高网...
【技术保护点】
1.一种科学数据集命名规范检查方法,其特征在于,包括:
2.根据权利要求1所述的一种科学数据集命名规范检查方法,其特征在于,所述获取待检查科学数据集的参考配套信息载体,根据所述参考配套信息载体获取参考命名需求,并且根据所述参考命名需求获取参考命名规则,具体包括:
3.根据权利要求1所述的一种科学数据集命名规范检查方法,其特征在于,所述根据所述参考配套信息载体获取命名语义信息,具体包括:
4.根据权利要求3所述的一种科学数据集命名规范检查方法,其特征在于,所述基于所述命名语义信息构建命名特征网络图,基于所述参考命名规则从所述命名特征网络图中获取参考命名结构,具体包括:
5.根据权利要求1所述的一种科学数据集命名规范检查方法,其特征在于,所述根据所述实际配套信息载体、实际命名需求和实际命名规则获取提示词模板,具体包括:
6.根据权利要求1所述的一种科学数据集命名规范检查方法,其特征在于,所述从待检查科学数据集提取实际命名信息特征,基于所述实际命名信息特征和所述描述信息,获取实际命名结构,具体包括:
7.根据权利要
8.一种科学数据集命名规范检查系统,其特征在于,包括:
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令,实现如权利要求1-7任一项所述的一种科学数据集命名规范检查方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1-7任一项所述的一种科学数据集命名规范检查方法。
...【技术特征摘要】
1.一种科学数据集命名规范检查方法,其特征在于,包括:
2.根据权利要求1所述的一种科学数据集命名规范检查方法,其特征在于,所述获取待检查科学数据集的参考配套信息载体,根据所述参考配套信息载体获取参考命名需求,并且根据所述参考命名需求获取参考命名规则,具体包括:
3.根据权利要求1所述的一种科学数据集命名规范检查方法,其特征在于,所述根据所述参考配套信息载体获取命名语义信息,具体包括:
4.根据权利要求3所述的一种科学数据集命名规范检查方法,其特征在于,所述基于所述命名语义信息构建命名特征网络图,基于所述参考命名规则从所述命名特征网络图中获取参考命名结构,具体包括:
5.根据权利要求1所述的一种科学数据集命名规范检查方法,其特征在于,所述根据所述实际配套信息载体、实际命名需求和实际命名规则获取提示词模板,具体包括:
6.根据权利要求...
【专利技术属性】
技术研发人员:周俊杰,赵晓萌,方少亮,林珠,
申请(专利权)人:广东省科技基础条件平台中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。