一种肿瘤患者总体存活时间预测方法及系统技术方案

技术编号：43068007 阅读：19 留言：0更新日期：2024-10-22 14:44

本发明专利技术公开了一种肿瘤患者总体存活时间预测方法及系统，包括以下步骤：步骤一，获取肿瘤患者总体存活时间研究数据；步骤二，对所述数据进行特征选择，得到最佳特征；步骤三，使用步骤二中得到的最佳特征，利用两步建模方法建立预测模型；以最小化MSE目标函数J<subgt;1</subgt;为目标，训练预测初始模型；对于所获得的初始模型，以最小化Sigmoid目标函数J<subgt;2</subgt;<supgt;′</supgt;为目标，训练获得最终OSt预测模型。本发明专利技术在第一步建模阶段建立初始模型，以减少患者真实OSt/记录OSt与预测OSt之间的误差，在第二步建模阶段微调该初始模型，使存活患者预测OSt大于其记录OSt。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能与生物医学的交叉，具体涉及一种肿瘤患者总体存活时间预测方法及系统。

技术介绍

1、肿瘤是危害人类生命健康的重大疾病，在现代精准医疗中，准确地预测肿瘤患者的总体存活时间(overall survival time,ost)是一个十分关键的问题，不仅可以帮助患者了解其预期寿命，还可以帮助临床医生为患者制定个性化治疗方案。

2、在生存分析中，有两种类型的事件，一种是终点事件(如死亡)，该事件产生的是完整数据；另一种是删失事件(其他生存结果)，该事件产生的是一种不完整数据。由于各种原因，在许多情况下很难获得完整数据。共有三种类型的删失数据，分别是：左删失，区间删失和右删失，其中，右删失ost是临床研究中最常见的类型。研究对象在进入研究前所感兴趣的时间点已发生但无法明确具体时间，这种删失类型称为左删失。研究对象在两次随访区间内发生终点事件，但不知道准确的发生时间，这种删失类型称为区间删失。在最后一次随访时，只有当研究对象死亡时，记录ost才是他们的真实ost，这类死亡患者具有真实ost；当研究对象仍然存活时，患者真实ost是未知的且必然大于其记录ost，这类ost称为右删失ost。更重要的是，我们不知道存活患者是否在那之后死亡，也没有办法确定他们的死亡时间。

3、建立ost预测模型的目的，不是为死亡患者进行ost预测的，死亡患者已经死亡，对其ost的预测已没有意义。建立ost预测模型的目的是预测存活患者的ost。只用死亡患者的数据来预测存活患者ost是可行的，但是由于死亡患者的数量有限，导致预

4、现有的能够预测肿瘤患者ost的典型方法，比如：(1)将存活患者右删失ost视为其真实ost，使用svr方法构建ost预测模型，并使用传统的回归分析评价指标评价预测模型在测试患者上的性能；(2)使用一种基于非参数数据插补的方法处理存活患者右删失ost,估算得到该存活患者真实ost，且大于其右删失ost，再利用加速时间失效(acceleratedfailure time，aft)模型构建ost预测模型，并使用一个基于rmse的度量方法(adrmse)评价预测模型在测试患者上的性能。

5、通过上述分析，现有技术存在的问题及缺陷为：将存活患者右删失ost视为其真实ost，构建的ost预测模型不能准确地预测患者ost；使用非参数数据插补方法处理存活患者右删失ost，估算得到存活患者真实ost，但是该存活患者ost是未知的，该方法缺乏可靠性；未使用可靠的评价指标对存活患者进行评价，不能合理可靠地评价模型性能。

技术实现思路

1、为了克服上述现有技术存在的不足，本专利技术的目的在于提供一种肿瘤患者总体存活时间预测方法及系统，该预测方法通过分步建模的思想实现两步建模方法，使用mse作为第一步建模阶段的目标函数，sigmoid函数作为第二步建模阶段的目标函数；在第一步建模阶段建立初始模型，以减少患者真实ost/记录ost与预测ost之间的误差，在第二步建模阶段微调该初始模型，使存活患者预测ost大于其记录ost。

2、为了实现上述目的，本专利技术采用的技术方案是：

3、一种肿瘤患者总体存活时间预测方法，包括以下步骤：

4、步骤一，获取肿瘤患者总体存活时间研究数据；

5、步骤二，对所述数据进行特征选择；达到减少输入特征的目的；

6、步骤三，使用步骤二中得到的最佳特征，利用两步建模方法建立预测模型；以最小化mse目标函数j1为目标，训练预测初始模型；对于所获得的初始模型，以最小化sigmoid目标函数j2′为目标，训练获得最终ost预测模型；

7、步骤四，对步骤三中得到的ost预测模型进行模型性能评估；使用不同的评价指标，合理可靠地评价ost预测模型在死亡患者、存活患者和所有测试患者上的性能。

8、进一步，所述步骤一中，对于肿瘤患者总体存活时间的研究数据，变量x是患者的基因表达数据，主要包括ntrk3、magea3等基因，变量y是患者的总体存活时间，变量x和变量y分别是数据规模为n的变量。

9、进一步，所述步骤二中的特征选择包括：

10、对于数据规模为n的数据集d中的变量x和变量y，计算每个特征(即基因)的重要性系数，并根据重要性系数进行基因选择，识别出与患者ost相关的生物标志物；变量x是n行m列的矩阵，变量y是n行1列的列向量，系数(coefficient，coe)是m行1列的列向量，相互之间的对应关系为：数据集d描述为：d(x,y)；n是数据集的大小，描述为：n＝length(y)，length是长度；变量x和变量y及系数之间可以描述为：y＝x*coe。最终，选择出的基因特征，是依据在10倍交叉验证方法下得到的模型结果而确定的。对于不同的肿瘤类型，选择的基因特征的数量、类型是不同的。进一步，所述步骤三中的两步建模方法建立预测模型包括：

11、使用全部训练数据建立初始模型，以最小化患者真实ost/记录ost与预测ost之间的误差；使用全部训练数据对初始模型进行微调，当患者预测ost低于其记录ost时，对该模型进行微调，获得最终的ost预测模型。

12、由两个建模阶段组成的两步建模方法，在不同的建模阶段采用不同的目标函数；第一步建模阶段是建立初始模型，以减少患者真实ost/记录ost与预测ost之间的误差；第二步建模阶段是微调初始模型，使存活患者预测ost大于其记录ost。

13、在第一步建模阶段，使用均方误差(mean square error，mse)作为目标函数j1，用于估计患者真实ost/记录ost与记录ost之间的误差，根据以下公式计算得到：

14、

15、式中，yi是第i个患者的真实ost/记录ost，是第i个患者的预测ost，n是数据中患者的数目；

16、在第二步建模阶段，使用由符号u定义的单位阶跃函数作为目标函数j2，表达使存活患者预测ost必须大于其记录ost的要求，根据以下公式计算得到：

17、

18、式中，yi是第i个患者的真实ost/记录ost，是第i个患者的预测ost，n是数据中患者的数目。

19、通过一种成熟且广泛使用的优化方法——随机梯度下降法来优化目标函数从而构建预测模型，这种方法可以减少执行更多迭代的计算成本。单位阶跃函数在x＝0处不连续且不可微，其梯度无法计算。

20、为了便于优化和建模，使本文档来自技高网...

【技术保护点】

1.一种肿瘤患者总体存活时间预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种肿瘤患者总体存活时间预测方法，其特征在于，所述步骤一中，对于肿瘤患者总体存活时间的数据，变量x是患者的基因表达数据，主要包括NTRK3、MAGEA3基因，变量y是患者的总体存活时间，变量x和变量y分别是数据规模为N的变量。

3.根据权利要求2所述的一种肿瘤患者总体存活时间预测方法，其特征在于，所述步骤二中的特征选择包括：

4.根据权利要求3所述的一种肿瘤患者总体存活时间预测方法，其特征在于，所述步骤三中的两步建模方法建立预测模型包括：

5.根据权利要求4所述的一种肿瘤患者总体存活时间预测方法，其特征在于，在第一步建模阶段，使用均方误差(Mean Square Error，MSE)作为目标函数J1，用于估计患者真实OSt/记录OSt与记录OSt之间的误差，根据以下公式计算得到：

6.根据权利要求5所述的一种肿瘤患者总体存活时间预测方法，其特征在于，使用一个Sigmoid函数来逼近单位阶跃函数，由于单位阶跃函数在x＝0处出现跳跃，通

7.根据权利要求1所述的一种肿瘤患者总体存活时间预测方法，其特征在于，对得到的OSt预测模型进行模型性能评估；使用不同的评价指标，合理可靠地评价OSt预测模型在死亡患者、存活患者和所有测试患者上的性能；

8.根据权利要求7所述的一种肿瘤患者总体存活时间预测方法，其特征在于，对于模型在全部测试患者上的性能，使用一种基于传统评价指标RMSE改进的指标(adRMSE)进行评价，该指标综合考虑了误差和删失这两种情况，其中，该指标通过使用删失概率的倒数，对每个误差重新加权来考虑删失，根据以下公式得到：

9.一种应用所述权利要求1-8任一项所述预测方法的肿瘤患者总体存活时间预测系统，其特征在于，所述预测肿瘤患者总体存活时间系统，包括：

10.根据权利要求9所述预测方法的肿瘤患者总体存活时间预测系统，其特征在于，所述预测系统中的初始模型的架构是一个线性模型，线性模型的输入是特征选择后得到的最佳特征基因表达数据，线性模型的输出是患者的初始预测OSt；最终OSt预测模型的架构也是一个线性模型，OSt预测模型输入与初始模型的输入一样，OSt预测模型输出是患者的最终预测Ost，其中，最终OSt预测模型的输出是在初始模型输出的基础上得到。

...

【技术特征摘要】

1.一种肿瘤患者总体存活时间预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种肿瘤患者总体存活时间预测方法，其特征在于，所述步骤一中，对于肿瘤患者总体存活时间的数据，变量x是患者的基因表达数据，主要包括ntrk3、magea3基因，变量y是患者的总体存活时间，变量x和变量y分别是数据规模为n的变量。

3.根据权利要求2所述的一种肿瘤患者总体存活时间预测方法，其特征在于，所述步骤二中的特征选择包括：

4.根据权利要求3所述的一种肿瘤患者总体存活时间预测方法，其特征在于，所述步骤三中的两步建模方法建立预测模型包括：

5.根据权利要求4所述的一种肿瘤患者总体存活时间预测方法，其特征在于，在第一步建模阶段，使用均方误差(mean square error，mse)作为目标函数j1，用于估计患者真实ost/记录ost与记录ost之间的误差，根据以下公式计算得到：

6.根据权利要求5所述的一种肿瘤患者总体存活时间预测方法，其特征在于，使用一个sigmoid函数来逼近单位阶跃函数，由于单位阶跃函数在x＝0处出现跳跃，通过设置超参数μ沿x轴压缩sigmoid函数，使其更接近单位阶跃函数，由此，目标函数j2被替换为j′2，根据...

【专利技术属性】
技术研发人员：张军英，王盼如，
申请(专利权)人：西安电子科技大学杭州研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人