System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据提取验证领域,具体是生物安全数据库提取验证方法和系统。
技术介绍
1、生物安全数据库是一个用于存储、管理和分析生物安全相关数据的数据库系统。它涉及的范围广泛,包括但不限于动物疫病、植物疫情、人类传染病、植物有害生物、入侵物种等方面的数据,这些数据反映了生物体及其相关因素对生态系统和人类健康的影响,同时,这些数据也是制定相关政策和采取应对措施的重要依据,可以为相关部门和研究人员提供科学、准确的数据支持,以更好地应对生物安全风险等。
2、目前,生物安全数据库的建设和管理通常由研究机构等负责,以确保数据的准确性。然而,生物安全数据库中的数据存在可能由于数据采集、处理或存储过程中的错误或疏漏存在不准确、不完整或不一致的情况,这些问题可能影响数据的可信度和分析结果的准确性。那么在提取生物安全数据后,如果不对数据进行充分的验证,将导致提取的数据不准确,并可能会导致错误的判断和决策等。目前生物安全数据库的数据提取根据实际需要和相关规定进行提取,提取后的数据往往因为验证方法的局限性可能会导致一些数据错误或者异常等,使得提取的数据不准确。
技术实现思路
1、(1)要解决的技术问题
2、本专利技术的目的在于提供生物安全数据库提取验证方法和系统,以解决从生物安全数据库提取数据准确性低的问题,通过获取生物安全数据库的数据,将数据进行数据清洗和获取数据在历史提取中的引证率、异常情况;将数据进行格式转换、数据编码,获取数据的数据分类和数据形态,获取处于设定置信度阈值区
3、(2)技术方案
4、为实现上述目的,一方面,本专利技术提供了生物安全数据库提取验证方法,所述方法包括:
5、获取从生物安全数据库提取的数据,将所述数据进行数据清洗后得到第一数据;所述数据清洗是使用数据处理方法将特有标定词的数据以及重复数据进行删除;获取第一数据在历史提取中的引证率、异常情况;所述异常情况是提取数据论证为异常值时,将该数据标记异常标定词;获取第一数据中引证率大于设定阈值且将带有异常标定词的数据赋予设定权重后记为第二数据;
6、将第二数据通过数据处理得到第三数据;所述数据处理包括数据格式转换、数据编码;所述数据格式转换是通过数据格式转换方法将不同格式的数据转换为预设定的统一格式;所述数据编码是采用编码算法将非数值型数据编码为数值型数据;
7、获取第三数据的数据分类以及数据形态;所述数据分类是将第三数据通过数据分类算法得到第四数据;所述数据形态是对第四数据进行描述性统计分析得到,并通过正态性检验方法检验第四数据是否服从正态分布;当服从正态分布时,获取处于设定置信度阈值区间的数据并记为第五数据;当不服从正态分布时,则第五数据等于第四数据;
8、获取已知的参照数据,将第五数据与所述参照数据进行比较,将第五数据与所述参照数据之间的差异值大于设定差异阈值的数据删除得到第六数据;将第六数据进行论证得到论证结果,根据所述论证结果对第六数据添加标定词并反馈给数据库管理中心;当数据库管理中心接收到反馈时,将生成数据反馈机制;若无已知的参照数据,则第六数据等于第五数据。
9、进一步地,所述引证率的获取方法包括:
10、获取提取者成功率和第一数据的特征属性模型,通过特征属性模型得到第一数据的第一引证率;所述特征属性包括第一数据在历史提取中的单位属性、时间属性、地域属性,所述特征属性模型通过神经网络算法建立单位属性、时间属性、地域属性与数据之间的映射关系;通过获取提取者的单位属性、时间属性、地域属性并记为提取者特征,将所述提取者特征输入特征属性模型得到所述第一引证率;将提取者成功率和第一引证率通过线性加权算法得到引证率。
11、进一步地,所述提取者成功率的获取方法包括:
12、通过提取者成功模型预测得到提取者成功率,所述提取者成功模型是通过神经网络算法建立提取者的理解度、数据留存率、检索频次与提取者之间的映射关系;将关键词通过专业水平模型得到理解度,所述关键词是通过提取检索信息得到关键词,所述专业水平模型通过神经网络算法建立词汇难度、提取者历史检索数据情况、提取者专业背景与关键词之间的映射关系;获取提取者历史提取数据的历史数据留存率和历史检索频次并通过时序预测模型预测得到数据留存率和检索频次;将所述理解度、数据留存率、检索频次输入提取者成功模型得到提取者成功率。
13、进一步地,所述方法还包括:
14、根据论证结果对数据添加的标定词包括异常标定词、差错标定词和缺陷标定词;当数据库管理中心监测数据有标定词时,将生成数据反馈机制;所述数据反馈机制是将带标定词的数据按照标定词分类生成对应讯息并反馈给数据源提供者,数据源提供者将根据讯息对带标定词的数据进行核实并向数据库管理中心反馈核实信息;当数据库管理中心接收到数据源提供者的反馈核实信息,将根据所述核实信息判定标定词是否摘除并对数据进行管理操作,同时生成通知信息反馈给数据的历史提取者。
15、进一步地,所述方法还包括:
16、当数据库管理中心接收到数据源提供者的反馈核实信息时,将引入第三方单位对数据进行验证并得出判定结果;根据判定结果,若数据符合摘除标定词条件则将数据标定词摘除并进行管理操作,所述管理操作包括删除数据、修正数据,若数据不符合摘除标定词条件,则管理操作是将数据列入停用数据库。
17、基于同一专利技术构思,本专利技术还提供了生物安全数据库提取验证系统,所述系统包括:
18、第一数据验证模块,用于获取从生物安全数据库提取的数据,将所述数据进行数据清洗后得到第一数据;所述数据清洗是使用数据处理方法将特有标定词的数据以及重复数据进行删除;获取第一数据在历史提取中的引证率、异常情况;所述异常情况是提取数据论证为异常值时,将该数据标记异常标定词;获取第一数据中引证率大于设定阈值且将带有异常标定词的数据赋予设定权重后记为第二数据;
19、第二数据验证模块,用于将第二数据通过数据处理得到第三数据;所述数据处理包括数据格式转换、数据编码;所述数据格式转换是通过数据格式转换方法将不同格式的数据转换为预设定的统一格式;所述数据编码是采用编码算法将非数值型数据编码为数值型数据;
20、第三数据验证模块,获取第三数据的数据分类以及数据形态;所述数据分类是将第三数据通过数据分类算法得到第四数据;所述数据形态是对第四数据进行描述性统计分析得到,并通过正态性检验方法检验第四数据是否服从正态分布;当服从正态分布时,获取处于设定置信度阈值区间的数据并记为第五数据;当不服从正态分布时,则第五数据等于第四数据;
21、数据论证反馈模块,用于获取已知的参照数据,将第五数据与所述参照数据进行比较,将第五数据与所述参照数据之间的差异值大于设定差异阈值的数据本文档来自技高网...
【技术保护点】
1.生物安全数据库提取验证方法,其特征在于,所述方法包括:
2.如权利要求1所述的生物安全数据库提取验证方法,其特征在于,所述引证率的获取方法包括:
3.如权利要求2所述的生物安全数据库提取验证方法,其特征在于,所述提取者成功率的获取方法包括:
4.如权利要求1所述的生物安全数据库提取验证方法,其特征在于,所述方法还包括:
5.如权利要求4所述的生物安全数据库提取验证方法,其特征在于,所述方法还包括:
6.生物安全数据库提取验证系统,其特征在于,所述系统包括:
7.如权利要求6所述的生物安全数据库提取验证系统,其特征在于,所述系统还包括:
8.如权利要求7所述的生物安全数据库提取验证系统,其特征在于,所述系统还包括:
9.如权利要求6所述的生物安全数据库提取验证系统,其特征在于,所述系统还包括:
10.如权利要求9所述的生物安全数据库提取验证系统,其特征在于,所述系统还包括:
【技术特征摘要】
1.生物安全数据库提取验证方法,其特征在于,所述方法包括:
2.如权利要求1所述的生物安全数据库提取验证方法,其特征在于,所述引证率的获取方法包括:
3.如权利要求2所述的生物安全数据库提取验证方法,其特征在于,所述提取者成功率的获取方法包括:
4.如权利要求1所述的生物安全数据库提取验证方法,其特征在于,所述方法还包括:
5.如权利要求4所述的生物安全数据库提取验证方法,其特征在于,所述方法还包...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。