当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于多中心临床数据防作弊分析的疾病预测系统技术方案

技术编号:33669062 阅读:28 留言:0更新日期:2022-06-02 20:52
本发明专利技术公开了一种基于多中心临床数据防作弊分析的疾病预测系统,本发明专利技术利用区块链技术共享伪数据,并让所有医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数,保证临床数据量少的医疗机构的真实临床数据能够被充分利用的同时还使得医疗机构无法对本地临床数据质量评价结果进行作弊。本发明专利技术设计的模型参数投票迭代机制,每轮迭代中根据投票结果保留一家医疗机构提供的模型参数,可以使得质量好的临床数据在模型训练中发挥更大作用。本发明专利技术设计的投票权的初始化和更新机制,以及在迭代投票过程中的作弊检测机制,让临床数据质量好的医疗机构拥有更多投票权,也防止了单家或多家医疗机构勾结篡改投票结果。家或多家医疗机构勾结篡改投票结果。家或多家医疗机构勾结篡改投票结果。

【技术实现步骤摘要】
一种基于多中心临床数据防作弊分析的疾病预测系统


[0001]本专利技术属于医疗健康信息
,具体涉及一种基于多中心临床数据防作弊分析的疾病预测系统。

技术介绍

[0002]不同医疗机构由于其所在区域、治疗水平、医保报销、收费标准等因素的差别,在疾病数量分布上存在着较大的差异。单家医疗机构的临床数据不足以支撑一个高准确性的疾病预测模型构建。为了训练一个效果较好的疾病预测模型,往往需要大量高质量的临床数据。多中心临床数据的协同分析为大规模临床数据的整合分析利用提供了解决方案。但是,在数据安全和隐私保护的约束下,各家医疗机构的原始临床数据不能直接离开机构,导致多中心临床数据分析过程存在许多难点。
[0003]在多中心临床数据分析与建模的过程中,不仅需要保证临床数据不被窃取,还要保证参与协同分析建模的医疗机构无法单独或相互勾结后进行篡改疾病预测模型的模型参数、篡改疾病预测模型评价结果、泄露模型参数、提供噪声数据干扰模型训练、不提供真实临床数据或恶意提供低质量临床数据来获取最终模型参数等作弊行为。需要一种多中心临床数据防作弊分析方法,在保证临床数据安全性和防止医疗机构作弊的前提下,利用多家医疗机构的临床数据共同训练一个准确性高、泛化性好的疾病预测模型。现有的常见解决方案主要有:(1)联邦学习:由多家医疗机构和一个可信的中心服务器组成。医疗机构在本地利用临床数据训练预测模型,模型参数经过同态加密后发送给中心服务器。中心服务器利用同态加密的加法同态性和乘法同态性直接对模型参数的密文进行聚合处理,并将处理结果分发回医疗机构。医疗机构对聚合后的模型参数的密文进行解密后进行下一轮迭代,直至预测模型收敛。(2)群体智能:利用区块链,提供一种去中心化的协同分析建模方法。由医疗机构构成一个群网络,每家医疗机构在本地利用临床数据训练预测模型后通过区块链交换模型参数。模型参数在医疗机构本地进行模型聚合后进行下一轮迭代。
[0004]常见解决方案具有以下不足:联邦学习需要有一个中心服务器进行模型参数聚合等操作,医疗机构与中心服务器的地位不平等。不可信的中心服务器与医疗机构串通后会存在模型参数篡改、模型参数泄露等风险,甚至基于模型参数推断出原始临床数据。群体智能可以让医疗机构利用区块链传递模型参数,模型参数传递到单个医疗机构,与该机构本地训练的模型参数合并以后发送到下一家医疗机构。若存在不可信的医疗机构,则模型参数会存在泄露和被篡改的风险。
[0005]此外,联邦学习和群体智能在协同分析建模的过程中,各个医疗机构的临床数据具有相同的重要性。然而实际上部分医疗机构的临床数据质量较差,协同分析建模的过程中会对疾病预测模型的效果造成影响。
[0006]中国专利技术专利 CN114048515A公开了一种基于联邦学习和区块链的医疗大数据共享方法,利用传统的联邦学习框架进行协同分析建模,将训练过程中医疗机构每轮训练用时和准确率结果保存到区块链上。完成协同分析建模后,中心服务器根据每家医疗机构提
供的算力、每轮训练用时、提供的临床数据量、提供的临床数据质量来分配奖励,如模型使用权限等。然而,每家医疗机构提供的算力、每轮训练用时、提供的临床数据量、提供的临床数据质量都是由医疗机构自己提供的,缺少验证其真实性的方法,存在着作弊的风险。例如,该方法中验证医疗机构临床数据质量的方法是根据本地模型的准确率计算得到,不可信的医疗机构可通过上传虚假的准确率来获得更多的奖励,如更高的模型使用权限等。

技术实现思路

[0007]针对现有技术的不足,本专利技术提供一种基于多中心临床数据防作弊分析的疾病预测系统。
[0008]本专利技术的目的是通过以下技术方案实现的:一种基于多中心临床数据防作弊分析的疾病预测系统,该系统包括以下模块:初始化模块:用于发布疾病预测模型的协同分析建模协议,决定参与协同分析建模的医疗机构组成协同分析建模区块链;数据质量评估模块,包括伪数据生成子模块和伪数据质量评估子模块;伪数据生成子模块:用于各家医疗机构在本地利用临床数据训练生成对抗网络,并生成伪数据,各家医疗机构生成的伪数据的数据量相等;伪数据质量评估子模块:用于将各家医疗机构生成的伪数据上链,各家医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数;协同分析建模模块,包括模型训练子模块和投票子模块;模型训练子模块:用于各家医疗机构在本地利用临床数据训练单中心疾病预测模型,并将单中心疾病预测模型的模型参数上链;投票子模块:用于进行多轮迭代投票,在每轮投票中,动态更新各家医疗机构根据数据质量系数和之前轮次投票情况得到的投票权,各家医疗机构在本地利用临床数据计算所有单中心疾病预测模型的损失,结合自身投票权对单中心疾病预测模型进行投票,并将投票结果上链,票数最多的单中心疾病预测模型胜出,并作为本轮迭代得到的疾病预测模型,进入下一轮迭代;在迭代过程中进行作弊检测,将未通过作弊检测的医疗机构从协同分析建模区块链中剔除。
[0009]进一步地,所述初始化模块中,所述协同分析建模协议的内容包括疾病预测模型的模型结构、模型初始化参数、模型训练所需特征和标签、模型损失函数、生成伪数据用的生成对抗网络模型结构和参数、加权聚类模型的模型结构和参数。
[0010]进一步地,所述伪数据质量评估子模块中,数据质量系数的计算过程如下:对于训练疾病预测模型的任一特征,医疗机构生成的伪数据中特征的数据质量评分记为;M家医疗机构共同组成数据集,其中表示医疗机构生成的伪数据中特征的数据,将记为,其中表示第i个样本,N为伪数据的数据量,利用训练加权聚类模型,根据加权聚类模型的参数求得数据质量评分;
加权聚类模型训练完成后,计算每个样本中每个元素与跟该样本同一聚类的样本的对应元素距离的均值和每个样本中每个元素与跟该样本不同聚类的样本的对应元素距离的均值,得到的每一列的轮廓系数,根据轮廓系数与多样性阈值计算得到医疗机构生成的伪数据中特征的数据多样性评分;医疗机构的数据质量系数为医疗机构生成的伪数据中所有特征的数据质量评分与数据多样性评分之积的加权平均。
[0011]进一步地,所述伪数据质量评估子模块中,利用训练加权聚类模型,包括:设加权聚类模型的聚类个数为C,聚类表征矩阵为U,聚类中心的坐标集合为,其中表示第c个聚类中心坐标,记为中第j个元素到中第j个元素的距离;M家医疗机构对应的特征的数据质量评分构成数据质量评分集合;加权聚类模型的损失函数定义为,其中表示聚类表征矩阵U中第i行第c列的元素,通过训练迭代来减小的损失函数,训练迭代步骤如下:(1)随机设定初始化聚类中心的坐标集合Z、数据质量评分集合和聚类表征矩阵U;(2)通过以下公式更新聚类表征矩阵U;再计算新的,若保持不变,则停止迭代,否则进入步骤(3);(3)通过公式更新聚类中心的坐标集合Z,再计算新的,若保持不变,则停止迭代,否则进入步骤(4);(4)通过公式更新数据质量评分集合,其中,再计算新的,若保持不变,则停止迭代,否则返回步骤(2)迭代计算。
[0012]进一步地,所述伪数据质量评估子模块中,的第j列轮廓系数的计算公式为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,包括:初始化模块:用于发布疾病预测模型的协同分析建模协议,决定参与协同分析建模的医疗机构组成协同分析建模区块链;数据质量评估模块,包括伪数据生成子模块和伪数据质量评估子模块;伪数据生成子模块:用于各家医疗机构在本地利用临床数据训练生成对抗网络,并生成伪数据,各家医疗机构生成的伪数据的数据量相等;伪数据质量评估子模块:用于将各家医疗机构生成的伪数据上链,各家医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数;协同分析建模模块,包括模型训练子模块和投票子模块;模型训练子模块:用于各家医疗机构在本地利用临床数据训练单中心疾病预测模型,并将单中心疾病预测模型的模型参数上链;投票子模块:用于进行多轮迭代投票,在每轮投票中,动态更新各家医疗机构根据数据质量系数和之前轮次投票情况得到的投票权,各家医疗机构在本地利用临床数据计算所有单中心疾病预测模型的损失,结合自身投票权对单中心疾病预测模型进行投票,并将投票结果上链,票数最多的单中心疾病预测模型胜出,并作为本轮迭代得到的疾病预测模型,进入下一轮迭代;在迭代过程中进行作弊检测,将未通过作弊检测的医疗机构从协同分析建模区块链中剔除。2.根据权利要求1所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述初始化模块中,所述协同分析建模协议的内容包括疾病预测模型的模型结构、模型初始化参数、模型训练所需特征和标签、模型损失函数、生成伪数据用的生成对抗网络模型结构和参数、加权聚类模型的模型结构和参数。3.根据权利要求1所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特征在于,所述伪数据质量评估子模块中,数据质量系数的计算过程如下:对于训练疾病预测模型的任一特征,医疗机构生成的伪数据中特征的数据质量评分记为;M家医疗机构共同组成数据集,其中表示医疗机构生成的伪数据中特征的数据,将记为,其中表示第i个样本,N为伪数据的数据量,利用训练加权聚类模型,根据加权聚类模型的参数求得数据质量评分;加权聚类模型训练完成后,计算每个样本中每个元素与跟该样本同一聚类的样本的对应元素距离的均值和每个样本中每个元素与跟该样本不同聚类的样本的对应元素距离的均值,得到的每一列的轮廓系数,根据轮廓系数与多样性阈值计算得到医疗机构生成的伪数据中特征的数据多样性评分;医疗机构的数据质量系数为医疗机构生成的伪数据中所有特征的数据质量评分与数据多样性评分之积的加权平均。4.根据权利要求3所述的一种基于多中心临床数据防作弊分析的疾病预测系统,其特
征在于,所述伪数据质量评估子模块中,利用训练加权聚类模型,包括:设加权聚类模型的聚类个数为C,聚类表征矩阵为U,聚类中心的坐标集合为,其中表示第c个聚类中心坐标,记为中第j个元素到中第j个元素的距离;M家医疗机构对应的特征的数据质量评分构成数据质量评分集合;加权聚类模型的损失函数定义为,其中表示聚类表征矩阵U中第i行第c列的元素,通过训练迭代来减小的损失函数,训练迭代步骤如下:(1)随机设定初始化聚类中心的坐标集合Z、数据质量评分...

【专利技术属性】
技术研发人员:李冠男李劲松池胜强王宇清朱伟伟田雨周天舒
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1