本发明专利技术提供一种对个人健康医疗数据的系统化脱敏方法,属于计算机软件技术领域和医疗信息化技术领域,本发明专利技术包括脱敏数据准备、脱敏设置、脱敏工具库、脱敏审核、限制环境下开放5个部分,分别完成目标数据的准备、脱敏、质控、开放和监测;实现数据高效脱敏、达到“保护个人隐私、确保信息安全”的最佳可用状态,从而支撑个人健康医疗数据的实际应用。
【技术实现步骤摘要】
一种对个人健康医疗数据的系统化脱敏方法
本专利技术涉及计算机软件
和医疗信息化技术,尤其涉及一种对个人健康医疗数据的系统化脱敏方法。
技术介绍
健康医疗大数据对医疗科研、医疗行为、医疗产业、个人健康、政府监管具有极大的应用价值,要实现其应用价值必须经过数据汇集、数据治理、数据脱敏、数据开放、最终在软件应用中完成数据利用。其中,保护个人隐私、确保信息安全的“数据脱敏”环节是健康医疗数据应用的关键环节。但目前的数据脱敏大多依靠人工手动处理,存在处理效率低、手动产生的随机误差多等问题,最终导致数据不具备开放、应用支撑条件,从而阻碍了健康医疗大数据的应用价值转化。因此,急需一种高效、准确、系统化的的个人健康医疗数据脱敏方法来解决这一问题。
技术实现思路
为了解决以上技术问题,本专利技术提供了一种对个人健康医疗数据的系统化脱敏方法。本专利技术的技术方案是:一种对个人健康医疗数据的系统化脱敏方法,包括脱敏数据准备、脱敏设置、建立脱敏工具库、脱敏审核、限制环境下开放5个步骤,分别完成目标数据的准备、脱敏、质控、开放和监测。其中,a)脱敏数据准备根据业务目标确定开放数据内容,包括数据范围和类型;配套复制迁移目标数据到脱敏准备数据库的程序,自动完成脱敏数据集准备;b)脱敏设置操作员根据数据将要使用的业务场景需求,设置脱敏条件;c)建立脱敏工具库脱敏工具库是依据行业规范、法律规范、应用场景需求开发形成的程序工具组成的工具库;d)脱敏审核数据经程序脱敏后,就进入脱敏审核环节。该环节包括“程序全量审核”和“人工抽检审核”两部分。程序全量审核,是包括敏感词库和由分词技术、NLP、ORC等技术,结合设置的脱敏条件形成“扫描程序”对脱敏后数据进行全量扫描,并审核标记出问题数据。人工抽检,是操作员手动在“操作平台”抽查脱敏数据,并进行审核标记e)限制环境下开放“限制环境”是按不同数据脱敏等级,配套相应监测限制措施的数据应用环境,在对应数据应用环境下开放数据。进一步的,脱敏条件包括圈定脱敏数据表、字段和字段类型、文件和文件类型、选择脱敏工具;其中,字段包括身份证号、性别、出生日期、籍贯;字段类型包括字符串、数值、图片、标记的;选择脱敏工具是从“脱敏工具库中”选择已封装好的工具,并在选择后完成工具的作用属性设置。设置脱敏后,即可控制数据导入程序脱敏。程序脱敏过程是服务端按脱敏条件自动完成的延时任务,完成后将处理后的数据推入脱敏审核环节。进一步的,脱敏工具涵盖分词、NLP、OCR、加密的计算机技术,支持数据一致性脱敏、可逆性脱敏、泛化脱敏、保格式脱敏、遮蔽脱敏的脱敏方式;数据处理由选择脱敏工具处置。偶联其它系统套件,支持导入数据、脱敏处理、建立关联关系、以及导出到目标数据库。脱敏工具组合或单独调用时,拥有作用属性设置特性,可设置形成不同脱敏等级“组合服务”;另外还具备持续的机器学习和人工反馈-优化能力。全部脱敏工具组合形成可供操作员选择的脱敏工具库。进一步的,脱敏审核通过的数据推送到限制开放环境;未通过的,由调整脱敏工具和脱敏条件重新对准备数据进行脱敏。进一步的,限制环境包括:内网访问环境、VPN访问环境、互联网访问环境。监测限制措施包括监测数据应用行为、应用环境、使用者行为、限制使用方式、限制使用目的。本专利技术的有益效果是最大程度提高脱敏效率,规避手动脱敏操作带来的误差,确保数据可用。在持续应用中,该系统支持机器学习和人工反馈-优化机制,可持续“进化”;同时,该系统连接原数据输入、应用环境输出,支持全程控制和数据透明流转,可最大限度地保障数据安全应用。附图说明图1是本专利技术的工作流程示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本方法为实现大数据从原始库到应用的必要中间环节,脱敏环节,提供了一种解决方案。涉及分词、NLP、OCR、加密、大数据处理、储存等计算机技术。是一种包括脱敏数据准备、脱敏设置、脱敏工具库、脱敏审核、限制环境下开放共5部分的系统方案。a)脱敏数据准备根据业务目标确定开放数据内容,包括数据范围和类型。配套复制迁移目标数据到脱敏准备数据库的程序,自动完成脱敏数据集准备。此过程有支持操作人员控制数据处理过程的大数据数据库管理技术和操作平台。b)脱敏设置操作员根据数据将要使用的业务场景需求,包括目的、应用环境、应用程序、使用人等,设置脱敏条件。脱敏条件包括圈定脱敏数据表、字段和字段类型、文件和文件类型、选定脱敏工具。字段通常包括身份证号、性别、出生日期、籍贯等个人隐私字段;字段类型包括字符串、数值、图片、标记等类型;脱敏工具选择是从“脱敏工具库中”选择已封装好的工具,并在选择后完成工具的作用属性设置。设置脱敏后,操作员即可控制数据导入程序脱敏。程序脱敏过程是服务端按脱敏条件自动完成的延时任务,完成后将处理后的数据推入脱敏审核环节。c)脱敏工具库脱敏工具库是依据行业规范、法律规范、应用场景需求(包括科研、医用、个人、产业、部门5类需求)开发形成的程序工具组成的工具库。这些脱敏工具涵盖分词、NLP、OCR、加密等计算机技术,支持数据一致性脱敏、可逆性脱敏、泛化脱敏、保格式脱敏、遮蔽脱敏等脱敏方式;数据处理由选择脱敏工具处置,比如,选择“数据一致性脱敏工具”,在对目标数据字段加密处理后进一步保持原数据间表的主外建、非主外建的关联关系。偶联其它系统套件,支持导入数据、脱敏处理、建立关联关系、以及导出到目标数据库。脱敏工具组合或单独调用时,拥有作用属性设置特性,可设置形成不同脱敏等级“组合服务”;另外还具备持续的机器学习和人工反馈-优化能力。全部脱敏工具组合形成可供操作员选择的脱敏工具库。d)脱敏审核数据经程序脱敏后,就进入脱敏审核环节。该环节包括“程序全量审核”和“人工抽检审核”两部分。程序全量审核,是包括敏感词库和由分词技术、NLP、ORC等技术,结合设置的脱敏条件形成“扫描程序”对脱敏后数据进行全量扫描,并审核标记出问题数据。人工抽检,是操作员手动在“操作平台”抽查脱敏数据,并进行审核标记。脱敏审核使用以上两种方法实现半自动或全自动脱敏数据审核,判定审核通过或未通过。通过的数据可由人工推送到限制开放环境;未通过的,可由调整脱敏工具和脱敏条件重新对准备数据进行脱敏。审核环节最大限度解决数据脱敏遗漏问题,实现脱敏质控。e)限制环境下开放“限制环境”是按不同数据脱敏等级,配套相应监测限制措施的数据应用环境。限制环境大致包括:内网本文档来自技高网...
【技术保护点】
1.一种对个人健康医疗数据的系统化脱敏方法,其特征在于,/n包括脱敏数据准备、脱敏设置、建立脱敏工具库、脱敏审核、限制环境下开放5个步骤;/n其中,/na)脱敏数据准备/n根据业务目标确定开放数据内容,包括数据范围和类型;配套复制迁移目标数据到脱敏准备数据库的程序,自动完成脱敏数据集准备;/nb)脱敏设置/n操作员根据数据将要使用的业务场景需求,设置脱敏条件;/nc)建立脱敏工具库/n脱敏工具库是依据行业规范、法律规范、应用场景需求开发形成的程序工具组成的工具库;/nd)脱敏审核/n数据经程序脱敏后,就进入脱敏审核环节;该环节包括“程序全量审核”和“人工抽检审核”两部分;程序全量审核,是包括敏感词库和由分词技术、NLP、ORC,结合设置的脱敏条件形成“扫描程序”对脱敏后数据进行全量扫描,并审核标记出问题数据;人工抽检,是手动在“操作平台”抽查脱敏数据,并进行审核标记;/ne)限制环境下开放/n“限制环境”是按不同数据脱敏等级,配套相应监测限制措施的数据应用环境,在对应数据应用环境下开放数据。/n
【技术特征摘要】
1.一种对个人健康医疗数据的系统化脱敏方法,其特征在于,
包括脱敏数据准备、脱敏设置、建立脱敏工具库、脱敏审核、限制环境下开放5个步骤;
其中,
a)脱敏数据准备
根据业务目标确定开放数据内容,包括数据范围和类型;配套复制迁移目标数据到脱敏准备数据库的程序,自动完成脱敏数据集准备;
b)脱敏设置
操作员根据数据将要使用的业务场景需求,设置脱敏条件;
c)建立脱敏工具库
脱敏工具库是依据行业规范、法律规范、应用场景需求开发形成的程序工具组成的工具库;
d)脱敏审核
数据经程序脱敏后,就进入脱敏审核环节;该环节包括“程序全量审核”和“人工抽检审核”两部分;程序全量审核,是包括敏感词库和由分词技术、NLP、ORC,结合设置的脱敏条件形成“扫描程序”对脱敏后数据进行全量扫描,并审核标记出问题数据;人工抽检,是手动在“操作平台”抽查脱敏数据,并进行审核标记;
e)限制环境下开放
“限制环境”是按不同数据脱敏等级,配套相应监测限制措施的数据应用环境,在对应数据应用环境下开放数据。
2.根据权利要求1所述的方法,其特征在于,
脱敏条件包括字段和字段类型、选择脱敏工具;
其中,字段包括身份证号、性别、出生日期、籍贯;字段类型包括字符串、数值、图片、标记的;
选择脱敏工具是从“脱敏工具库中”选择已封装好的工具,并在选择后完成工具的作用属...
【专利技术属性】
技术研发人员:左霖,邓涛,
申请(专利权)人:山东健康医疗大数据有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。