一种用于去识别可视媒体数据的方法,包括:将来自可视媒体数据集合的图像序列合并为平均图像;界定平均图像的被确定为相对固定的部分,其中每个被界定部分由平均图像中的相应位置来识别;生成包括被界定部分和用于平均图像中的每个被界定部分的相应位置的模板;以及通过模糊化被界定部分的内容来去识别所述图像序列。
【技术实现步骤摘要】
用于可视媒体数据中的去识别的方法和系统
管制需求和业务考虑常常要求以安全的方式交换数据,特别是在保健中。1996年的“健康保险可移植性和责任法案”(HIPAA)规定要求安全地交换数据而不披露病人特定的信息。因此,某些类型的数据在被交换之前必须被修改以模糊化(obfuscate)敏感或保密信息。解决去识别(de-identification)的方法通常解决如下问题:(1)应当去识别什么,(2)应当去识别多少,以及(3)应当如何去识别?去识别文档和元数据的多种方法包括去除被标记为去识别的部分的内置代码,或者编写来自一文档类别中的文档的信息的基于模板的方法。去识别方法已被用于文本文档、诸如医学数字成像和通信(DICOM)元数据中的结构化元数据字段,但是当标识嵌入内容中时的可视媒体数据的去识别是困难的和耗时的。
技术实现思路
描述了系统的实施例。在一个实施例中,该系统是可视媒体去识别系统。该系统包括:图像合并器,其被配置为将来自可视媒体数据集合的图像序列合并为平均图像;以及去识别引擎,其被配置为:界定(bound)平均图像的被确定为相对固定的部分,其中每个被界定部分被平均图像中的相应位置标识;生成包括被界定部分和用于平均图像中的每个被界定部分的相应位置的模板;以及通过模糊化被界定部分的内容来去识别所述图像序列。还描述了该系统的其他实施例。还描述了计算机程序产品的实施例。在一个实施例中,该计算机程序产品包括存储计算机可读程序的计算机可读存储介质,其中该计算机可读程序当被计算机中的处理器执行时使得该计算机执行用于去识别可视媒体数据的操作。所述操作包括:将来自可视媒体数据集合的图像序列合并为平均图像;界定平均图像的被确定为相对固定的部分,其中每个被界定部分被平均图像中的相应位置标识;生成包括被界定部分和用于平均图像中的每个被界定部分的相应位置的模板;以及通过模糊化被界定部分的内容来去识别所述图像序列。还描述了该装置的其他实施例。还描述了方法的实施例。在一个实施例中,该方法是用于去识别可视媒体数据的方法。该方法包括:将来自可视媒体数据集合的图像序列合并为平均图像;界定平均图像的被确定为相对固定的部分,其中每个被界定部分被平均图像中的相应位置标识;生成包括被界定部分和用于平均图像中的每个被界定部分的相应位置的模板;以及通过模糊化被界定部分的内容来去识别所述图像序列。还描述了该方法的其他实施例。附图说明图1示出了可视媒体去识别系统的一个实施例的示意图;图2示出了图1的可视媒体去识别系统的一个实施例的示意图;图3示出了用于生成可视媒体去识别模板的方法的一个实施例的流程图;图4示出了图1的平均图像的一个实施例的示意图;图5示出了图1的平均图像的一个实施例的示意图;图6示出了图1的可视媒体去识别模板的一个实施例的示意图;图7示出了用于去识别可视媒体数据的方法的一个实施例的示意图;在整个说明书中,相似的标号可用于标识相似的部件。具体实施方式很容易理解,这里一般描述的并在附图中图示的各实施例的部件可以多种多样的不同的配置被安排和设计。因此,对如附图中表示的各实施例的以下详细描述并非旨在限制本公开的范围,而是仅用于说明各实施例。尽管实施例的多个方面在附图中呈现,附图不一定是按比例绘制的,除非特别指明。本专利技术可体现在其他特定形式中而不脱离其他精神或本质特点。所描述的实施例在所有方面将被理解为说明性的,而非限制性的。因此,本专利技术的范围由所附权利要求书指示,而不由该详细描述指示。处于权利要求的等价物的含义和范围之内的所有变化将包含在权利要求的范围之内。整个说明书中提及的特征、优点或相似的语言不意味着可用本专利技术实施的所有这些特征和优点应当或确定在本专利技术的单个实施例中。相反,提及特征和优点的语言被理解为意味着相关于实施例描述的特定特征、优点或特点被包括在本专利技术的至少一个实施例中。因此,整个说明书中对特点和优点的讨论和类似语言可以但非必须指相同的实施例。此外,所描述的本专利技术的特征、优点和特点可以任何方式在一个或多个实施例中被组合。相关领域的技术人员将理解,根据这里的描述,本专利技术可以在没有特定实施例的一个或多个特定特征或优点的情况下被实施。在其他情况中,在某些实施例中可识别出并非出现在本专利技术的所有实施例中的附图特征和优点。整个说明书中提及的“一个实施例”、“实施例”或类似语言意味着相关于所指示的实施例描述的特定特征、结构或特点被包括在本专利技术的至少一个实施例中。因此,整个说明书中的短语“在一个实施例中”、“在实施例中”或类似语言可以但非必须都指相同的实施例。尽管这里描述了很多实施例,至少一些所描述的实施例给出了用于去识别来自可视媒体数据的保密或敏感数据的系统和方法。更具体地,该系统合并来自可视媒体数据集合的图像序列,并自动地标识平均图像中很可能包含文本的位置。用户可以手动改进平均图像的所选择的部分,以确定哪些部分包含敏感或保密信息,并且系统从平均图像和所选择的部分生成模板,该模板可被应用到所述媒体数据集合中的图像序列,以便模糊化每个图像序列中的保密信息。用于确定在文本数据中去识别什么的一些常规方法包括:(i)使用编辑工具手动标记敏感区域,并且解决方案文档中的区域被手动标识以便删除;(ii)自动去识别,其中使用文本挖掘方法来发现文本的敏感片段,诸如名称、日期和地址,无论其在结构化数据字段中或是在自由文本(freetext)中;以及(iii)结构化数据中的固定已知字段,例如,名称、日期和地址,可由特别针对这种字段结构化的代码清除。常规方法还手动标记区域以便确定去识别多少。用于如何去识别的常规方法包括去除被识别部分的内置代码或者使用基于模板的方法。在常规的基于模板的方法中,该模板是通过在给定类别的样本文档中加亮(highlight)要编写的区域来手动创建的。当有限数量的格式(form)可用时,该方法可以是有用的。在图像和视频中,敏感信息可嵌入各种布局中,从而创建很多格式类型。特别对于DICOM图像和视频,在图像中看到的病人特定的数据将随着模式(modality)类型(回声还是血管造影)、制造商(不同的制造商可能在其屏幕上显示不同的信息)、以及检查本身(其进一步取决于相应的疾病及其检查结果)而变化。这些因素的组合导致在可视媒体数据中将看到的大量表彰类型,从而手动学习模板变得非常繁琐和成本低效。例如,在典型的回声记录中,可出现多达50个不同的格式类型,其对应于由超声波检查员记录的取决于疾病的超过大约146个检测。因此,能够至少半自动地生成用于去识别可视媒体数据的模板的系统可提供对各种类型的图像和视频的快速和高效的去识别。在一些实施例中,可从可视媒体数据源的样本集合学习模板。此外,可通过这里描述的半自动过程来实现模板的修正或修改。另外,在形成模板的训练阶段,可将模板(或模板的初级版本)应用于图像中的候选区域,以便识别模板的所识别的界定框中的图像/文本内容的一些或所有可能发生。图1示出了可视媒体去识别系统100的一个实施例的示意图。所示出的可视媒体去识别系统100包括以下详细描述的多种组件,其能够执行这里描述的功能和操作。在一个实施例中,去识别系统100中的至少一些组件在计算机系统中实现。例如,去识别系统100的一个或多个组件的功能可由存储在计算机本文档来自技高网...
【技术保护点】
一种用于去识别可视媒体数据的方法,包括:将来自可视媒体数据集合的图像序列合并为平均图像;界定平均图像的被确定为相对固定的部分,其中每个被界定部分由平均图像中的相应位置来识别;生成包括被界定部分和用于平均图像中的每个被界定部分的相应位置的模板;以及通过模糊化被界定部分的内容来去识别所述图像序列。
【技术特征摘要】
2012.01.16 US 13/351,1411.一种用于去识别可视媒体数据的方法,包括:将来自可视媒体数据集合的图像序列合并为平均图像;界定平均图像的被确定为相对固定的部分,其中每个被界定部分由平均图像中的相应位置来识别;生成包括被界定部分和用于平均图像中的每个被界定部分的相应位置的模板;以及通过模糊化被界定部分的内容来去识别所述图像序列,其中,界定平均图像的被确定为相对固定的部分还包括:界定来自平均图像的相连组件以发现字符并且产生字符图像;界定来自平均图像的单词以产生单词图像;以及保留被界定部分,在所述被界定部分中预定百分比的来自字符图像的被界定字符和来自单词图像的被界定单词重合,并且其中,界定来自平均图像的单词还包括:分析平均图像的部分以获得被分析的部分包含文本的置信度;以及响应于确定置信度满足单词阈值,确定分析的部分为单词候选,并且,所述方法还包括:建立用于被界定部分的查看权限,其中,所述查看权限确定何时被界定部分的内容对于给定用户是可查看的,并且所述平均图像中的不同的被界定部分所包含的不同内容可包括用于用户的不同查看权限。2.如权利要求1所述的方法,其中,合并图像序列还包括:跨图像序列中的所有图像来平均像素值,以获得平均图像;以及从平均图像中过滤掉不满足预定频率阈值的像素值。3.如权利要求1所述的方法,还包括:应用模板以去识别所述可视媒体数据集合中的其他图像序列。4.如权利要求1所述的方法,还包括:合并相互位于预定平均距离之内的被界定部分以形成短语。5.如权利要求1所述的方法,还包括:基...
【专利技术属性】
技术研发人员:T·F·希达马穆德,D·J·贝莫尔,O·U·F·肖克,D·B·庞塞里昂,时代,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。