进行非结构化信息管理和自动文本分析的系统和方法技术方案

技术编号：2866463 阅读：223 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及进行非结构化信息管理和自动文本分析的系统和方法。具体地，本发明专利技术公开了一种用于非结构化信息管理系统（ＵＩＭＳ）的系统架构、部件和搜索技术。ＵＩＭＳ可以作为中间件提供，用于在信息源的广泛阵列上有效地管理和交换非结构化信息。所述架构通常包括一个搜索引擎、数据存储器以及包含流水线化文档标注器和各种适配器的分析引擎。该搜索技术利用二级搜索技术。一个搜索查询包括一个搜索操作符，该操作符包括多个搜索子表达式，每一个子表达式具有相关的权重值。搜索引擎将权重值和大于权重值和阈值的文档返回。所述搜索操作符被实现为按照加权与（ＷＡＮＤ）工作的布尔判定。（*该技术在2024年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术总体上涉及信息管理系统，更具体地涉及用于实现包括自动文本分析和信息搜索的非结构化信息管理系统的系统、方法和计算机程序。
技术介绍
在现代社会中，文本数据的量越来越大。其原因是多方面的，但其中一个重要的驱动力是个人计算机系统和数据库的广泛使用，以及电子邮件的不断增加。结果是广泛地产生和散布了各种格式和表现形式的文本数据并需要对其存储。尽管总体趋势是正面的，因为知识在社会上的传播一般都被视为是一个有益的目标。但是，也产生了问题，这是因为，文档数据的量远远超过了感兴趣的人或者组织对文档数据进行阅读、消化和归类的能力。尽管在目前文本数据代表了大多数的文档数据，并且在本专利申请的上下文中也主要讨论文本数据，但是，越来越多的文档是以多媒体的形式被创建和分发，比如是这样的形式文档既包含文本，又包含图像(静态的或者动态的，比如视频剪辑)，或者既包含文本，又包含音频。作为对不断增加的基于文本的文档数据的回应，显然，必须开发一些有效的手段来管理不断增加的文档数据。这个研究领域可以称为非结构化信息管理(unstructured information management)，并可以视为包括存储、访问、检索、导航和发现(主要)基于文本的信息中的知识的工具和方法。例如，随着业务方法的持续发展，以有效而彻底的方式处理非结构化信息的需求不断增长。这种信息的例子包括记录的自然语言对话、多语言对话、文本翻译、科学出版物等等。共同受让的美国专利US6553385B2，″Architecture of aFramework for Information Extraction f...

【技术保护点】
一种用于处理存储的数据的数据处理系统，包括：用于存储数据单元的集合的数据存储器；和连接到该数据存储器的搜索引擎，该搜索引擎对用于从所述数据存储器中检索至少一个数据单元的查询作出响应；其中所述查询包括一个搜索操作符，该操作符由多个搜索子表达式构成，每一个子表达式有一个相关的权重值，并且，其中，所述搜索引擎将权重值和大于一个权重值和阈值的数据单元返回。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：安德雷Z布拉德，戴维卡梅尔，迈克尔赫斯克维奇，阿雅索弗，贾森泽恩，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人