进行非结构化信息管理和自动文本分析的系统和方法技术方案

技术编号:2866463 阅读:223 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及进行非结构化信息管理和自动文本分析的系统和方法。具体地,本发明专利技术公开了一种用于非结构化信息管理系统(UIMS)的系统架构、部件和搜索技术。UIMS可以作为中间件提供,用于在信息源的广泛阵列上有效地管理和交换非结构化信息。所述架构通常包括一个搜索引擎、数据存储器以及包含流水线化文档标注器和各种适配器的分析引擎。该搜索技术利用二级搜索技术。一个搜索查询包括一个搜索操作符,该操作符包括多个搜索子表达式,每一个子表达式具有相关的权重值。搜索引擎将权重值和大于权重值和阈值的文档返回。所述搜索操作符被实现为按照加权与(WAND)工作的布尔判定。(*该技术在2024年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术总体上涉及信息管理系统,更具体地涉及用于实现包括自动文本分析和信息搜索的非结构化信息管理系统的系统、方法和计算机程序。
技术介绍
在现代社会中,文本数据的量越来越大。其原因是多方面的,但其中一个重要的驱动力是个人计算机系统和数据库的广泛使用,以及电子邮件的不断增加。结果是广泛地产生和散布了各种格式和表现形式的文本数据并需要对其存储。尽管总体趋势是正面的,因为知识在社会上的传播一般都被视为是一个有益的目标。但是,也产生了问题,这是因为,文档数据的量远远超过了感兴趣的人或者组织对文档数据进行阅读、消化和归类的能力。尽管在目前文本数据代表了大多数的文档数据,并且在本专利申请的上下文中也主要讨论文本数据,但是,越来越多的文档是以多媒体的形式被创建和分发,比如是这样的形式文档既包含文本,又包含图像(静态的或者动态的,比如视频剪辑),或者既包含文本,又包含音频。作为对不断增加的基于文本的文档数据的回应,显然,必须开发一些有效的手段来管理不断增加的文档数据。这个研究领域可以称为非结构化信息管理(unstructured information management),并可以视为包括存储、访问、检索、导航和发现(主要)基于文本的信息中的知识的工具和方法。例如,随着业务方法的持续发展,以有效而彻底的方式处理非结构化信息的需求不断增长。这种信息的例子包括记录的自然语言对话、多语言对话、文本翻译、科学出版物等等。共同受让的美国专利US6553385B2,″Architecture of aFramework for Information Extraction from Natural LanguageDocuments”,by David E.Johnson andThomas Hampp-Bahnmueller,描述了一种从15种自然语言文档中提取信息的架构,该架构与应用无关,并提供高度的可重复使用性。该架构集成了不同的自然语言/及其学习技术,比如句法分析和分类。该架构的结构被集成在一个易于使用的访问层中。该架构执行一般信息提取、自然语言文档的分类/归类、自动电子数据传送(例如电子邮件和传真)处理和路由,以及句法分析。在该架构内,对信息提取的请求被传送给信息提取器。该架构能够包括应用数据的预处理和后处理和对提取器的控制。该架构还能够提供关于应用应该对数据采取的必要动作的建议。为了达到容易集成和扩展的目标,该架构提供了一种集成(外部)应用程序接口(API)和提取器(内部)API。在不与本专利技术的教导相冲突的方面,美国专利No.6553385B2的公开在此全部引为参考。所需要的是这样的能力对来自各种来源和各种格式的文档数据进行有效的、综合性的处理,以从文档数据提取出所需的信息,以用于但不限于下述目的搜索、索引(index)、分类以及数据和文本挖掘(data and textual mining)。
技术实现思路
根据本专利技术的优选实施例,克服了上述以及其它一些问题,实现了一些优点。这里所公开的是一种非结构化信息管理(UIM)系统。该UIM的重要方面包括UIM架构(UIMA)、其部件以及由UIMA实现的方法。UIMA提供一种有效、及时地处理来自各种来源的文档信息的机制。UIMA的一个重要优点在于吸收(消化)和处理非结构化信息的能力。UIMA的一个方面在于其是模块化的,使得其能够被部署在一台计算机上或者分布在多台计算机上,并且能够复制和/或优化其组件以便适应当前的非结构化信息管理任务。该UIMA能够与其它加强信息的应用有效地集成。一个非限制性的例子是,将UIMA与用于发现新药的生命科学应用相集成。UIMA的各方面还包括但不限于语义搜索引擎、文档库、文本分析引擎(TAE)、结构化知识源适配器、集合处理管理器和集合分析引擎。在优选实施例中,UIMA既接收结构化信息也接收非结构化信息以产生相关的知识。包括在TAE中的有公共分析系统(CAS)、标注器(Annotator)和控制器。公开的UIMA的一部分还包括使用二级检索处理的有效的查询评估处理器。还公开了一种数据处理系统,用来处理存储的数据,该系统包括用于存储数据单元的集合的数据存储器以及连接到该数据存储器的搜索引擎,该搜索引擎对从所述数据存储器中检索至少一个数据单元的查询作出响应。该查询包括一个搜索操作符,该搜索操作符由多个搜索子表达式构成,每一个子表达式具有相关的权重,所述搜索引擎将权重和大于权重和阈值的数据单元返回。在一个优选实施例中,数据单元包括文档。更具体地,该查询包括一个作为加权与(WeightedAND(WAND))工作的布尔判定(Boolean predicate)。WAND将一系列布尔变量X1、X2、......Xk、一系列相关正权重w1、w2、......wk和阈值θ作为参数,其中,如果Σ1≤i≤kxiwi≥θ,]]>则(WAND)(X1,w1,...Xk,wk,θ)为真。其中,xi是Xi的指示变量(indicator variable),其中如果Xi为真则xi=1,否则xi=0。WAND可以被用于通过下述方式实现AND函数和OR函数中的一个AND(X1,X2,...Xk)≡WAND(X1,1,X2,1,...Xk,1,k),以及OR(X1,X2,...Xk)≡WAND(X1,1,X2,1,...Xk,1,1)。本专利技术还公开了一种处理文档数据的方法,以及实现在计算机可读介质中的计算机程序产品,其中包含程序代码,用于指令与至少一个应用合作的文本情报系统的操作。该计算机程序产品包括一个用于存储数据单元的集合的计算机程度段,以及实现一个搜索引擎的计算机程序段,该搜索引擎对检索至少一个存储的数据单元的查询作出响应。该查询包括一个搜索操作符,该搜索操作符由多个搜索子表达式构成,每一个子表达式具有相关的权重,所述搜索引擎将权重和大于权重和阈值的数据单元返回。附图说明在下面结合附图对优选实施例的详细说明中,本专利技术的前述及其它方面会更加清楚。附图中图1的框图表示本专利技术的非结构化信息管理系统的总体架构;图2的框图表示简单分析引擎;图3的框图表示聚集分析引擎;图4A的流程图用于说明公共分析系统(CAS)中的工作流的一个例子,该流程图还可以视为构成文本分析引擎的一部分的多个串联标注器的一个例子;图4B图示了相互连接的标注器的另一个实施方式的例子,其中,有至少两个并行的标注器路径;图5是一个举例的类型定义的图表;图6是一个举例的特征定义的图表;图7是图示举例的部件列表的图表;图8是描述工作流的生成的流程图; 图9是描述工作流验证的流程图;图10A描述了单个继承树中的关系的一个例子;图10B描述了使用多个继承的数据建模的例子;图11的框图提供了公共分析系统的总览;图12的框图用于描述文本分析引擎的另外的关系;图13是举例的标注结构的图形描述;图14的框图用于描述标注器的操作;图15的框图用于指出标记(token)和跨度(span)之间的关系,并且是倒排文件系统的一个例子;图16的框图提供了跨度分布(跨度的出现,span occurrence)的替代表达;图17的示意本文档来自技高网
...

【技术保护点】
一种用于处理存储的数据的数据处理系统,包括:用于存储数据单元的集合的数据存储器;和连接到该数据存储器的搜索引擎,该搜索引擎对用于从所述数据存储器中检索至少一个数据单元的查询作出响应;其中所述查询包括一个搜索操作符,该 操作符由多个搜索子表达式构成,每一个子表达式有一个相关的权重值,并且,其中,所述搜索引擎将权重值和大于一个权重值和阈值的数据单元返回。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:安德雷Z布拉德戴维卡梅尔迈克尔赫斯克维奇阿雅索弗贾森泽恩
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1