用于从非结构化描述生成结构化表示的系统和方法技术方案

技术编号:2847568 阅读:230 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种用于从非结构化描述生成结构化表示的方法和系统,所述方法包括:由计算机接收非结构化描述;以及由计算机基于该非结构化描述而生成结构化表示。

【技术实现步骤摘要】

本专利技术一般涉及用于结构化和形式化非结构化且不严密的信息的方法和系统。具体地说,它涉及用于通过来自提供指导的计算机系统的支持来获得非结构化信息并且使其结构化和形式化的方法和系统。另外,本专利技术涉及一种用于通过计算机的帮助来获得过程或任务的不严密描述并且使其严密且形式化的系统。
技术介绍
大量活动-特别是创造活动-包括工程,需要从业者制作对客户需要的解决方案的结构化图、文档或规范。例如,土木工程师在设计新桥梁时可能制作设计图和结构分析,信息技术(IT)架构师在设计IT系统以满足新业务需要时制作需求文档、以及设计模型,或者作曲者为电影制作配乐。在这些领域的每一个中,创造工作的结果是足以让他人建造或照办的、高度结构化的规范或设计。同时,存在专用于这些领域的系统,其以这些领域的形式化或结构化概念表示信息。作为示例,IT架构师的典型工具可以表示诸如组件、接口等的IT构造,而为电影配乐的典型工具表示配乐部分、由乐器演奏的音符以及电影的时间方面。相反,在这些活动的开始,可用信息典型地是非结构化的,并且在质量、数量和细节上是变化的,从而反映来自各种各样的来源的信息的起源。大多数输入来自从业者可以记录笔记的会谈和会议。其它输入由与从业者所受的培训不同的人或者由于其它原因使用非结构化格式而非使用创造领域中的工具来提供素材的人准备。例如,IT客户可以在文本文档中指定需求或业务目标。由于在开始可用于从业者的信息的内容和格式与行业工具和产物(artifact)所要求的信息内容和格式之间的这一不匹配,因此专用于这些领域的系统经常具有有限的吸引力。例如,在音乐和IT架构领域内,研究显示出从业者不使用领域特定工具,直至他们设计出解决方案的很多细节之后。其结果经常是低效和不准确。而且,虽然世界中的大部分数据采用非结构化且非形式化的格式(这包括包含采用英语和其它语言的信息的文档),但是计算机要求,在它们可以对信息执行高级处理活动,例如使用信息执行一系列步骤,检测信息的不一致等之前,该信息采用格式化且形式化的格式。信息的形式化表示具有可以在数学上定义的严密语法和语义。这允许采用形式化格式的信息被机器处理。例如,以严密的语义创建形式化表示对于一些信息处理活动例如查询数据库、创建系统的形式化模型、在数据集合上推理等是必要的。不幸的是,形式化表示的创建对于应用这些和相关的处理活动可能是瓶颈,因为拥有与应用领域有关的详细知识的专家经常不熟练于产生形式化表示。存在两个传统的方案来尝试解决该瓶颈。然而,这些传统方案都是严重受限的。传统地,当没有经验的人希望创建结构化、形式化的信息表示时,他们可能(1)寻找形式化表示法的专家来帮助他们,或者(2)试图自己学习表示法。第一方案是严重受限的,这是因为如上所述,熟悉领域的、形式化表示法的专家是非常少的,并且第二方案由于学习任何特定形式化表示法的复杂性的困难而也是受限的。存在现有的技术来尝试解决非结构化信息的处理和管理。这些传统的方案被称作非结构化信息管理(UIM)方案。然而,这些方案典型地与诸如文档分类、聚类以及检索的问题而非信息的推理和基于机器的信息执行有关。需要一种方法和系统,其能够自动地使用非形式化信息创建形式化表示中的元素,使得信息变得适于机器处理。
技术实现思路
鉴于传统方法和结构的前述和其它示例性问题、缺点和缺陷,本专利技术的示例性特征在于提供一种从非结构化表示生成结构化表示的方法和系统。在本专利技术的第一示例性方面,一种用于从非结构化描述生成结构化表示的方法包括由计算机接收非结构化描述,由计算机基于该非形式化描述而生成结构化表示。在本专利技术的第二示例性方面,一种用于部署计算机基础设施以便从非结构化描述生成结构化表示的方法包括将计算机可读代码集成到计算系统中。该计算机可读代码包括用于接收非结构化描述的指令、以及用于基于该非结构化描述而生成结构化表示的指令。在本专利技术的第三示例性方面,一种可由数字数据处理单元执行以便从非结构化描述生成结构化表示的信号承载介质包括接收非结构化描述,并且基于该非结构化描述而生成结构化表示。在本专利技术的第四示例性方面,一种用于从非结构化描述生成结构化表示的系统包括用于接收非结构化描述的装置、以及用于基于该非结构化描述而生成结构化表示的装置。为了解决上述问题,本专利技术的示例性实施例提供了使用领域信息的非结构化描述作为用于结构化该信息的基础的方案。本专利技术的示例性实施例允许用户通过来自系统的指导或自动帮助,根据领域规则结构化和形式化信息,并且从非结构化输入产生严密的结构化产物。本专利技术的示例性实施例使用用于非形式化地描述来自领域的信息的领域特定词汇表和语法。该词汇表应当包含足以允许对在词汇表中产生的语句进行分类的语法结构。本专利技术的示例性实施例包括用于非形式化地描述领域的词汇表和语法的编辑器。本专利技术的示例性实施例包括语句分类器,其自动地分类使用词汇表和语法表达的语句。本专利技术的示例性实施例使用形式化元模型,其描述形式化信息应当具有的形式。该模型为可以由词汇表和语法表示的每个语句类型定义信息的形式化版本的结构。本专利技术的示例性实施例包括一个或多个向导程序(wizard),其使领域专家通过一组非形式化信息收集步骤,并且基于所接收的非形式化信息而自动创建元模型元素的实例。本专利技术的示例性实施例包括用于每个语句类型的向导程序,每当对在编辑器中分类的语句采取操作时,可以调用它。本专利技术的示例性实施例使用检查形式化信息的一致性和完整性的方案。以这种方式,在发现形式化问题时,可以向领域专家提供反馈。本专利技术的示例性实施例是有利的,这是因为它使得能够将非形式化信息转换成不同于非形式化表示而可由机器处理的形式化表示。使用该技术的形式化大大简单于手动完成它,并且仅仅需要学习自然语言的结构化词汇表。自然语言是人类形成的语言,例如英文、法文、中文等。本专利技术的示例性实施例是有利的,这是因为它可以提供向导程序,其仅仅通过以非形式化表示的方式从用户接收输入来为用户创建形式化表示。本专利技术的示例性实施例是有利的,这是因为信息可以在非形式化和形式化表示中同时可用,因而可以由专家和非专家以同样的方式检查和分析它。本专利技术的示例性实施例是有利的,这是因为从非形式化表示到形式化表示的信息转换允许通过编程构造来捕获(capture)信息。这使得能够完全地执行和推理信息。这些和很多其它优点可以通过本专利技术来实现。附图说明根据下面参考附图对本专利技术的示例性实施例的详细描述,将会更好地理解前述和其它示例性目的、方面和优点,其中图1示出了利用并且并入本专利技术的示例性硬件/信息处理系统100; 图2示出了用于存储根据本专利技术的方法的程序步骤的信号承载介质200(例如,存储介质);图3示出了根据本专利技术示例性实施例的形式化环境300;图4示出了根据本专利技术的控制例程的示例性实施例的流程图400,其中该控制例程用于基于由用户提供的信息的非形式化表示而获得该信息的形式化表示;图5示出了用于管理部门502和项目504的简单系统的示例性数据领域模型500;图6示出了示例性用例模型600,其示出了图5的数据领域模型的各个用例606;图7示出了根据本专利技术的示例性图形用户界面700;图8示出了根据本专利技术的示例性实施例的、用于形式化用例的示例性元模型800;图9示出了根据本专利技术的本文档来自技高网
...

【技术保护点】
一种用于从非结构化描述生成结构化表示的方法,包括:由计算机接收非结构化描述;以及由所述计算机基于所述非结构化描述而生成结构化表示。

【技术特征摘要】
US 2005-5-23 11/134,5001.一种用于从非结构化描述生成结构化表示的方法,包括由计算机接收非结构化描述;以及由所述计算机基于所述非结构化描述而生成结构化表示。2.如权利要求1所述的方法,其中所述非结构化描述包括文本。3.如权利要求1所述的方法,其中所述非结构化描述包括图形。4.如权利要求1所述的方法,还包括接收所述非结构化描述的部分的识别。5.如权利要求4所述的方法,还包括为所述非结构化描述的所述识别部分接收候选分类的识别。6.如权利要求5所述的方法,其中所述生成包括基于所述识别部分的所述识别候选类别,生成结构化产物。7.如权利要求1所述的方法,还包括接收用户输入;以及基于所述用户输入,构造结构化产物。8.如权利要求1所述的方法,其中所述结构化表示包括软件表示。9.如权利要求1所述的方法,其中所述生成包括参考元模型。10.如权利要求1所述的方法,其中所述结构化表示包括软件测试序列。11.如权利要求1所述的方法,其中所述生成包括识别所述非结构化描述的特征。12.如权利要求1所述的方法,其中所述生成还包括对所述特征进行分类...

【专利技术属性】
技术研发人员:史蒂夫埃伯拉姆斯巴德布卢姆马修卡普兰保罗T凯瑟道格拉斯N克梅尔曼埃里克M内尔森温迪D纽伯格托瓦罗斯伊恩西蒙斯史蒂文SH唐约翰M维斯迪斯克莱E威廉斯
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1