用于为电子发现数据编索引的系统和方法技术方案

技术编号:8983340 阅读:191 留言:0更新日期:2013-08-01 02:07
描述用于高效处理电子存储信息(ESI)的系统和方法。系统和方法描述在准备诉讼或者与诉讼关联时处理ESI。本发明专利技术在处理和为数据编索引时保留在文档之间的上下文关系,从而允许在数据分析期间增加查准率与查全率。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及处理数据的领域;更具体地涉及对电子存储信息的获取、处理、组织和分析。
技术介绍
作为法律发现的部分,诉讼方必须产生大量信息。参见Fed.R.Civ.P.45(d)(需要响应于传票产生文档)。文档审查是诉讼的关键、耗时部分并且越来越多地变成诉讼过程的最昂贵部分。KIKER, Dennis R.' How to Manage ESI to Rein In RunawayCosts '。在 Law.com 的 Corporate Counsel 。2011 年 7 月 18 日 ο 从以下因特网网址获取:<URL:http://law.com/ jsp/cc/PubAr t i c I eCC.jsp id = 1202503308698&src = EMC-EmaiI&et = editoral&bu = Corporate %20Counsel&pt = Corporate % 20Counsel % 20In-House % 20Tech % 20Alert&cn = In_House_Tech_20110719&kw = How% 20to % 20Manage % 20ESI % 20to % 20Rein% 20In%20Runaway% 20Costs>。每方通常提出广泛请求让它的对手产生它认为包含与它的主张和辩护相关的信息的文档。电子存储和传输的电子存储信息(“EST”)量的迅速攀升造成许多问题、比如存储、搜索、查全率、查准率等问题。C0RTESE,Alfred ff.,Jr.' SkyrocketingElectronic Discovery Costs Require New Rules'。在 ALEC (美国立法交流委员会,American Legislative Exchange Council)Policy Forum。 2009 年 3 月 ο 从以下因特网网址获取:<URL:http://www.alec, org/am/pdf/apf/electronicdiscovery.pdf>。虽然计算机可以处置大批搜索杂务,但是涉及到大量人力仍然必要。因此,往往发现的成本经常很高并且不断增加。由于在涉及到ESI的任何法律程序一这代表所有民事和刑事诉讼中的多数,皇见 PASSARELLA, Gina, " E-Discovery Evolution':Costs of Electronic DiscoveryAre Growing ' , In post-gazette, com(Pittsburgh Post-Gazette) ,2011 年 8月15日,从以下因特网网址获取:〈URL:http:post-gazette.com/pg/11227/1166927-499-0.stm>——中涉及到的高成本,所以诉讼人更可能参加早期案情评估(“ECA”)。ECA允许诉讼人在更广泛的实质审查发生之前确定在它们的ESI中包含什么° SILVA, Oliver, ' Early Case Assessment (ECA) -1ncorporating ECA intoYour Discovery Strategy '。在 e-LegalTechnology.0rg。2010 年。从以下因特网网址获取:<URL:http://www.e-legal techno logy, org/member-articles/article-detai1.php id = 39>。这在确定是否提出潜在诉讼或者如何针对潜在诉讼进行辩护而又都使高成本人力审查最少时特别重要。当前可用ECA处理工具反映一种传统的、几乎基于纸件的文档再现方式。在典型纸件档案柜中,可以基于特定方法将所有文档组织成序列或者线性文件。如果用户寻找特定文档,则用户可以找到相关文件、然后需要按照序列顺序浏览每个文档以便找到特定文档。典型ECA处理工具将相同概念方式、即序列或者线性方法用于再现和获取电子信息。例如电子邮件数据库代表纸件档案柜。每个电子邮件文件,并且将在文件中包括附到该电子邮件的任何文档(“附件”)。ECA处理工具将每个电子邮件存储为记录,并且按照序列顺序再现电子邮件正文和任何附件,这与将针对纸件文件所做的相同。遗憾的是,电子消息不再限于这样的线性或者序列存储方法。个别电子文档可以不仅存储于其它电子文档之后而且通过对象链接和嵌入(“OLE”)嵌入于其它电子文档内和链接到其它电子文档,OLE是Microsoft 开发的允许向文档和其它对象嵌入和链接的技术。不仅必须审查每个电子邮件或者文档,而且必须保留文档的上下文和关系。在不知道创建文档的上下文的情况下,经常丢失它的完整含义。甚至也必须仔细保留文档内的信息的上下文,从而高级语义和语言分析工具可以在文档之间恰当评价并且准确比较概念。因此,文档的任何恰当获取需要精确和准确地获取文档中的信息和关于文档的信息。因此存在对开发可以用如下方式组织和搜索数据的方法和系统的增长需要,该方式保留信息的上下文并且允许审查嵌入对象,而又仍然维持恰当上下文中的文本(或者内容(substantive))以及概念 信息。本专利技术提供这样的方法和系统,该方法和系统用于从包含多个嵌入对象的文档提取信息或者数据。该方法和系统保留在文档及其嵌入对象之间的总体关系并且允许针对大量数据、即兆兆字节到千兆字节的迅速和高效数据提取和分析。
技术实现思路
本专利技术提出一种用于为一个或者多个文档Cli编索引的方法并且包括以下步骤:(a)确定一个或者多个文档Cli中的每个文档的文件类型fi ; (b)执行从一个或者多个文档Cli对数据Clai的提取ei ; (C)针对一个或者多个嵌入对象dk测试从文档Cli的提取ei恢复的数据Clai,并且如果检测到一个或者多个嵌入对象dk,则向缓冲器追加来自一个或者多个嵌入对象dk的数据Clai,其中数据存在于一个或者多个文档Cli中,以及(d)针对一个或者多个文档Cli递归地重复步骤(a)到(C)直至在一个或者多个文档Cli中未检测到附加的嵌入对象dk ;其中(I)在一个或者多个文档Cli中可视地表示数据Clai ; (2)数据(Iai包括文本、可视信息或者图形信息;(3)嵌入对象dk包含附加嵌入文档dk+n,其中η是代表在dk中相继嵌入的对象级数I的从I到η的整数;并且(4) 一个或者多个文档Cli的文件类型可由文件类型确定器标识;并且还包括生成索引i,其中索引表示在文档Cli与嵌入对象dk之中的至少一个关系集合,并且其中文档Cli和嵌入对象dk具有与文档Cli与嵌入对象dk中的每个文档和嵌入对象关联的至少一个个别标识符idi或者idk;关于在文档Cli中的文本在内容和位置上保留Cli内的dk的可视表示的文本tk ;并且针对每个文件类型A存在个体的对应提取ei。上文描述的方法还包括:针对所有嵌入对象dk递归地重复步骤(a)到(d),并且如果在dk中检测到至少一个附加嵌入对象,则执行提取附加嵌入对象直至在dk中未检测到附加的嵌入对象;并且其中用分级关系嵌入文档,分级关系由在Cli本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:M·韦德R·纳尔逊
申请(专利权)人:星汇数据解决方案公司
类型:
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1