一种基于多中心临床数据防作弊分析的疾病预测系统技术方案

技术编号：33669062 阅读：28 留言：0更新日期：2022-06-02 20:52

本发明专利技术公开了一种基于多中心临床数据防作弊分析的疾病预测系统，本发明专利技术利用区块链技术共享伪数据，并让所有医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数，保证临床数据量少的医疗机构的真实临床数据能够被充分利用的同时还使得医疗机构无法对本地临床数据质量评价结果进行作弊。本发明专利技术设计的模型参数投票迭代机制，每轮迭代中根据投票结果保留一家医疗机构提供的模型参数，可以使得质量好的临床数据在模型训练中发挥更大作用。本发明专利技术设计的投票权的初始化和更新机制，以及在迭代投票过程中的作弊检测机制，让临床数据质量好的医疗机构拥有更多投票权，也防止了单家或多家医疗机构勾结篡改投票结果。家或多家医疗机构勾结篡改投票结果。家或多家医疗机构勾结篡改投票结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多中心临床数据防作弊分析的疾病预测系统

[0001]本专利技术属于医疗健康信息
，具体涉及一种基于多中心临床数据防作弊分析的疾病预测系统。

技术介绍

[0002]不同医疗机构由于其所在区域、治疗水平、医保报销、收费标准等因素的差别，在疾病数量分布上存在着较大的差异。单家医疗机构的临床数据不足以支撑一个高准确性的疾病预测模型构建。为了训练一个效果较好的疾病预测模型，往往需要大量高质量的临床数据。多中心临床数据的协同分析为大规模临床数据的整合分析利用提供了解决方案。但是，在数据安全和隐私保护的约束下，各家医疗机构的原始临床数据不能直接离开机构，导致多中心临床数据分析过程存在许多难点。
[0003]在多中心临床数据分析与建模的过程中，不仅需要保证临床数据不被窃取，还要保证参与协同分析建模的医疗机构无法单独或相互勾结后进行篡改疾病预测模型的模型参数、篡改疾病预测模型评价结果、泄露模型参数、提供噪声数据干扰模型训练、不提供真实临床数据或恶意提供低质量临床数据来获取最终模型参数等作弊行为。需要一种多中心临床数据防作弊分析方法，在保证临床数据安全性和防止医疗机构作弊的前提下，利用多家医疗机构的临床数据共同训练一个准确性高、泛化性好的疾病预测模型。现有的常见解决方案主要有：（1）联邦学习：由多家医疗机构和一个可信的中心服务器组成。医疗机构在本地利用临床数据训练预测模型，模型参数经过同态加密后发送给中心服务器。中心服务器利用同态加密的加法同态性和乘法同态性直接对模型参数的密文进行聚合处理，并将处理结果分发回医疗机...

【技术保护点】

【技术特征摘要】
1.一种基于多中心临床数据防作弊分析的疾病预测系统，其特征在于，包括：初始化模块：用于发布疾病预测模型的协同分析建模协议，决定参与协同分析建模的医疗机构组成协同分析建模区块链；数据质量评估模块，包括伪数据生成子模块和伪数据质量评估子模块；伪数据生成子模块：用于各家医疗机构在本地利用临床数据训练生成对抗网络，并生成伪数据，各家医疗机构生成的伪数据的数据量相等；伪数据质量评估子模块：用于将各家医疗机构生成的伪数据上链，各家医疗机构在本地利用加权聚类模型根据伪数据计算数据质量系数；协同分析建模模块，包括模型训练子模块和投票子模块；模型训练子模块：用于各家医疗机构在本地利用临床数据训练单中心疾病预测模型，并将单中心疾病预测模型的模型参数上链；投票子模块：用于进行多轮迭代投票，在每轮投票中，动态更新各家医疗机构根据数据质量系数和之前轮次投票情况得到的投票权，各家医疗机构在本地利用临床数据计算所有单中心疾病预测模型的损失，结合自身投票权对单中心疾病预测模型进行投票，并将投票结果上链，票数最多的单中心疾病预测模型胜出，并作为本轮迭代得到的疾病预测模型，进入下一轮迭代；在迭代过程中进行作弊检测，将未通过作弊检测的医疗机构从协同分析建模区块链中剔除。2.根据权利要求1所述的一种基于多中心临床数据防作弊分析的疾病预测系统，其特征在于，所述初始化模块中，所述协同分析建模协议的内容包括疾病预测模型的模型结构、模型初始化参数、模型训练所需特征和标签、模型损失函数、生成伪数据用的生成对抗网络模型结构和参数、加权聚类模型的模型结构和参数。3.根据权利要求1所述的一种基于多中心临床数据防作弊分析的疾病预测系统，其特征在于，所述伪数据质量评估子模块中，数据质量系数的计算过程如下：对于训练疾病预测模型的任一特征，医疗机构生成的伪数据中特征的数据质量评分记为；M家医疗机构共同组成数据集，其中表示医疗机构生成的伪数据中特征的数据，将记为，其中表示第i个样本，N为伪数据的数据量，利用训练加权聚类模型，根据加权聚类模型的参数求得数据质量评分；加权聚类模型训练完成后，计算每个样本中每个元素与跟该样本同一聚类的样本的对应元素距离的均值和每个样本中每个元素与跟该样本不同聚类的样本的对应元素距离的均值，得到的每一列的轮廓系数，根据轮廓系数与多样性阈值计算得到医疗机构生成的伪数据中特征的数据多样性评分；医疗机构的数据质量系数为医疗机构生成的伪数据中所有特征的数据质量评分与数据多样性评分之积的加权平均。4.根据权利要求3所述的一种基于多中心临床数据防作弊分析的疾病预测系统，其特
征在于，所述伪数据质量评估子模块中，利用训练加权聚类模型，包括：设加权聚类模型的聚类个数为C，聚类表征矩阵为U，聚类中心的坐标集合为，其中表示第c个聚类中心坐标，记为中第j个元素到中第j个元素的距离；M家医疗机构对应的特征的数据质量评分构成数据质量评分集合；加权聚类模型的损失函数定义为，其中表示聚类表征矩阵U中第i行第c列的元素，通过训练迭代来减小的损失函数，训练迭代步骤如下：(1)随机设定初始化聚类中心的坐标集合Z、数据质量评分...

【专利技术属性】
技术研发人员：李冠男，李劲松，池胜强，王宇清，朱伟伟，田雨，周天舒，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人