System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据分析,尤其涉及一种基于分段线性拟合的病原体数据分析方法、装置、设备及存储介质。
技术介绍
1、在流行病学研究中,分段线性拟合能够应用于分析不同年龄段躯体对呼吸道病原体感染率的变化趋势,通过识别关键的年龄断点,帮助更好地分析和理解病原体的传播模式及高危年龄群体。因此,分段线性拟合方式的关键在于断点的选择。
2、目前,大多数分段线性拟合方式在确定断点个数时,通常基于人为确定断点或是采用固定数量的断点来构建分段拟合模型,然后基于赤池信息准则(aic)或贝叶斯信息准则(bic)最终确定目标拟合模型。这种主观性和固定性的方式在面对复杂、多样的病原体数据时缺乏灵活性,存在模型过拟合或欠拟合的问题,导致模型的适用性较差,进而影响基于模型所得的病原体数据分析结果的可靠性。
技术实现思路
1、本申请的主要目的在于提供一种基于分段线性拟合的病原体数据分析方法、装置、设备及存储介质,旨在解决现有的分段拟合方式通常基于人为确定断点或是采用固定数量的断点,难以适用于对复杂多样的病原体数据进行分析的技术问题。
2、为实现上述目的,本申请提出一种基于分段线性拟合的病原体数据分析方法,所述基于分段线性拟合的病原体数据分析的方法包括:
3、获取病原体数据,并对所述病原体数据进行预处理,获得处理后病原体数据;
4、确定若干候选断点个数,并基于各所述候选断点个数对所述处理后病原体数据进行模型拟合;
5、采用预设组合信息准则或决定系数对各所述候选断
6、将所述最优断点个数对应的拟合模型确定为目标拟合模型,并基于所述目标拟合模型获得数据分析结果。
7、在一实施例中,所述确定若干候选断点个数,并基于各所述候选断点个数对所述处理后病原体数据进行模型拟合的步骤,包括:
8、获取预设候选断点个数范围,基于所述预设候选断点个数范围确定若干候选断点个数,所述预设候选断点个数范围由用户基于任务需求预先配置获得;
9、采用r语言segmented包根据各所述候选断点个数对所述处理后病原体数据进行模型拟合,获得各所述候选断点个数对应的拟合模型。
10、在一实施例中,所述采用预设组合信息准则或决定系数对各所述候选断点个数对应的拟合模型进行模型评估,并依据最小化abic值或最大化r2值确定最优断点个数的步骤,包括:
11、基于预设组合信息准则计算各所述候选断点个数对应的拟合模型的abic值,其中所述预设组合信息准则为aic与bic的加权组合;
12、基于决定系数计算各所述候选断点个数对应的拟合模型的r2值;
13、将abic值最小的拟合模型的候选断点个数确定为最优断点个数;
14、或,将r2值最大的拟合模型的候选断点个数确定为最优断点个数。
15、在一实施例中,所述将r2值最大的拟合模型的候选断点个数确定为最优断点个数的步骤,包括:
16、在各所述候选断点个数对应的拟合模型中,选择在满足预设增长阈值条件下r2值最大的拟合模型,并将对应的候选断点个数确定为最优断点个数,其中,所述预设增长阈值条件表示为(1+r),r为增长系数;
17、所述r2值的计算公式为:
18、
19、式中,yi为观测值,为预测值,yi为观测值的平均数。
20、在一实施例中,所述abic值的计算公式为:
21、abic=α×aic+(1-α)×bic
22、式中,α为权重参数,aic为基于aic计算所得的各所述候选断点个数对应的拟合模型的aic值,bic为基于bic计算所得的各所述候选断点个数对应的拟合模型的bic值。
23、在一实施例中,所述将所述最优断点个数对应的拟合模型确定为目标拟合模型,并基于所述目标拟合模型获得数据分析结果的步骤,包括:
24、将所述最优断点个数对应的拟合模型确定为目标拟合模型,所述目标拟合模型表示为若干段线性方程;
25、采用r语言的绘图函数,根据所述病原体数据以及各所述线性方程生成所述目标拟合模型的可视化表示图。
26、在一实施例中,所述获取病原体数据,并对所述病原体数据进行预处理,获得处理后病原体数据的步骤,包括:
27、采集原始病原体数据,并基于所述原始病原体数据构建不同年龄阶段对应的数据集;
28、对各所述数据集中的病原体数据进行数据排序以及数据清洗,获得处理后病原体数据。
29、此外,为实现上述目的,本申请还提出一种基于分段线性拟合的病原体数据分析装置,所述装置包括:
30、数据预处理模块,用于获取病原体数据,并对所述病原体数据进行预处理,获得处理后病原体数据;
31、断点选择模块,用于确定若干候选断点个数,并基于各所述候选断点个数对所述处理后病原体数据进行模型拟合;采用预设组合信息准则或决定系数对各所述候选断个点对应的拟合模型进行模型评估,并依据最小化abic值或最大化r2值确定最优断点个数;
32、结果输出模块,用于将所述最优断点个数对应的拟合模型确定为目标拟合模型,并基于所述目标拟合模型获得数据分析结果。
33、此外,为实现上述目的,本专利技术还提出一种基于分段线性拟合的病原体数据分析设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于分段线性拟合的病原体数据分析程序,所述基于分段线性拟合的病原体数据分析程序配置为实现如上文所述的基于分段线性拟合的病原体数据分析方法的步骤。
34、此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储基于分段线性拟合的病原体数据分析程序,所述基于分段线性拟合的病原体数据分析程序被处理器执行时实现如上文所述的基于分段线性拟合的病原体数据分析方法的步骤。
35、本申请公开一种基于分段线性拟合的病原体数据分析方法,通过获取病原体数据,并对所述病原体数据进行预处理,获得处理后病原体数据;确定若干候选断点个数,并基于各所述候选断点个数对所述处理后病原体数据进行模型拟合;采用预设组合信息准则或决定系数对各所述候选断点个数对应的拟合模型进行模型评估,并依据最小化abic值或最大化r2值确定最优断点个数;将所述最优断点个数对应的拟合模型确定为目标拟合模型,并基于所述目标拟合模型获得数据分析结果。由于本申请通过在若干候选断点个数中确定最优断点个数,能够有效应对复杂多样的病原体数据,避免了传统方式中断点选择的局限性,从而提高了模型对不同类型数据的适用性和泛化能力。并具体地采用abic值或r2值作为最优断点个数的选择依据,相较于传统的单一标准优化方式,提高了断点选择的准确性和合理性,能够更好地平衡模型的复杂度和拟合度。
本文档来自技高网...【技术保护点】
1.一种基于分段线性拟合的病原体数据分析方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述确定若干候选断点个数,并基于各所述候选断点个数对所述处理后病原体数据进行模型拟合的步骤,包括:
3.如权利要求1所述的方法,其特征在于,所述采用预设组合信息准则或决定系数对各所述候选断点个数对应的拟合模型进行模型评估,并依据最小化ABIC值或最大化R2值确定最优断点个数的步骤,包括:
4.如权利要求3所述的方法,其特征在于,所述将R2值最大的拟合模型的候选断点个数确定为最优断点个数的步骤,包括:
5.如权利要求3所述的方法,其特征在于,所述ABIC值的计算公式为:
6.如权利要求1所述的方法,其特征在于,所述将所述最优断点个数对应的拟合模型确定为目标拟合模型,并基于所述目标拟合模型获得数据分析结果的步骤,包括:
7.如权利要求1所述的方法,其特征在于,所述获取病原体数据,并对所述病原体数据进行预处理,获得处理后病原体数据的步骤,包括:
8.一种基于分段线性拟合的病原体数据分析装置,
9.一种基于分段线性拟合的病原体数据分析设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于分段线性拟合的病原体数据分析程序,所述基于分段线性拟合的病原体数据分析程序配置为实现如权利要求1至7中任一项所述的基于分段线性拟合的病原体数据分析方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于分段线性拟合的病原体数据分析程序,所述基于分段线性拟合的病原体数据分析程序被处理器执行时实现如权利要求1至7任一项所述的基于分段线性拟合的病原体数据分析方法的步骤。
...【技术特征摘要】
1.一种基于分段线性拟合的病原体数据分析方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述确定若干候选断点个数,并基于各所述候选断点个数对所述处理后病原体数据进行模型拟合的步骤,包括:
3.如权利要求1所述的方法,其特征在于,所述采用预设组合信息准则或决定系数对各所述候选断点个数对应的拟合模型进行模型评估,并依据最小化abic值或最大化r2值确定最优断点个数的步骤,包括:
4.如权利要求3所述的方法,其特征在于,所述将r2值最大的拟合模型的候选断点个数确定为最优断点个数的步骤,包括:
5.如权利要求3所述的方法,其特征在于,所述abic值的计算公式为:
6.如权利要求1所述的方法,其特征在于,所述将所述最优断点个数对应的拟合模型确定为目标拟合模型,并基于所述目标拟合模型获得数据分析结...
【专利技术属性】
技术研发人员:石书婷,李亦学,姜雷明,林垂旭,肖庆宇,李映华,罗俊宇,
申请(专利权)人:广州金域医学检验中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。