当前位置: 首页 > 专利查询>微软公司专利>正文

用于创造基于规则的语法的方法和系统技术方案

技术编号:2868315 阅读:186 留言:0更新日期:2012-04-11 18:40
生成基于规则的语法。在训练数据中识别分段歧义。列举歧义分段的重写规则并且为其每一个生成概率。基于该概率来解析歧义。在一个具体实施例中,通过应用期望最大(EM)算法来进行。

【技术实现步骤摘要】

技术介绍
本专利技术涉及语法创造。更具体地说,本专利技术涉及自动语法创造系统中的分段歧义消除。为了推动能够应用及服务的语言的发展,基于语义的加强理解系统当前处于研发状态下。这种系统被广泛地用在会话式的研究系统中。但是,在传统系统的执行中,对于传统的研发者的使用来说,它们并不是特别实用。在很大程度上,这种执行已依赖于特定领域语法的人工研发。而这个任务不仅耗时、易出错而且还需要领域中的大量专门技术。为了推进能够应用及服务的语言的发展,已经提出了基于实例的语法写作工具。该工具通称为“SGStudio”,其进一步被描述在Y.Wang和A.Acero所著的“GRAMMAR LEARNING FOR SPOKEN LANGUAGE UNDERSTANDING”(IEEE Workshop on Automatic Speech Recognition and Understanding、MadonnaD.Campiglio Italy、2001)和“EVALUATION OF SPOKEN LAGUAGEGRAMMAR LEARNING IN ATIS DOMAIN”(Proceeding of ICASSP,Orlando,FL2002)中。这个工具通过利用先前信息的许多不同的资源,极大地减轻了语法开发的负担。该工具还允许稍微具有语言知识的普通研发者为口语理解构造语义语法。该系统推进了具有少数数据的相对高质量语义语法的半自动生成。而且,该工具不但显著地减少了涉及发展语法的努力,而且遍及不同领域地改善了理解准确性。但是,可以改善这个工具。当必须解决歧义时,该工具常常求助于使用者,以便归纳语法规则。这是一种干扰,并且可减慢语法开发的速度。专利技术综述生成基于规则的语法。在训练数据中识别分段歧义。列举歧义的分段的重写规则,并且为每个重写规则产生概率。基于该概率解决歧义。在一个具体实施例中,通过应用期望值最大(EM)算法来进行。附图摘要附图说明图1为在其中可以使用本专利技术的一个典型环境的结构图。图2A为根据本专利技术一个具体实施例的模型创造部件的一个具体实施例的结构图。图2B说明实例图解。图2C说明为实例图解产生的一实例组规则。图2D说明已注释语句的实例。图2E说明实例语法分析树。图2F说明用于实例中的单词的可能前终端的表格。图2G为与计数和概率关联的重写规则的表格。图3A详细地示出语法写作组件的机构图。图3B为说明图3B所示的语法创造部件的操作的流程图。示例性具体实施例的详述本专利技术涉及语法创造工具。更具体地说,本专利技术涉及在语法创造期间分段歧义的自动消除。然而,在详述本专利技术之前,将描述在其中可以使用本专利技术的一个典型环境。图1说明适当计算系统环境100的实例,在该环境中可以执行本专利技术。该计算系统环境100只是适当计算环境中的一个实例,因此其并不趋向于是对本专利技术的使用或功能的任何限制。不应将计算环境100解释为具有关于典型操作环境100所示部件的任何一个或组合的任何从属或要求。本专利技术可与各种其它通用或专用计算环境或结构一起操作。公知的可适于与本专利技术一起使用的计算系统、环境和/或结构包括(但不限于)个人电脑、服务器计算机、手持式或膝上型电脑、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、微电脑、大型计算机、分布式计算环境,等等。分布式计算环境包括上述任何系统或装置。能以计算机可执行指令的通用上下文关系的方式来描述本专利技术,诸如由计算机执行的编程模块。编程模块通常包括例行程序,程序、对象、部件、数据结构等,它们执行特定的任务或执行特定的抽象数据类型。也可以在分布式计算环境中实施本专利技术,在该环境中由通过通信网络链接的远程处理设备来执行任务。在分布式计算机环境中,编程模块可以位于包括存储器装置的本地和远程计算机存储介质中。请参考图1,执行本专利技术的典型系统包括以计算机100的形式出现的通用计算设备110。计算机110的组件包括(但不限于)处理单元120、系统存储器130以及将各种系统组件(包括系统存储器)连接至处理单元120的系统总线121。系统总线121能以几种总线结构中的任何一种总线结构,包括存储器总线或存储器控制器、外围总线和使用任何一种总线体系结构的本地总线。举例而言(但不限于),这种体系结构包括工业标准结构(ISA)总线,微通道结构(MCA)总线、扩展工业标准结构(EISA)总线、视频电子标准协会(VESA)本地总线,以及外设部件互连(PCI)总线。该外设部件互连(PCI)总线也称为附加板总线。计算机110通常包括各种计算机可读介质。计算机可读介质可为任何可用的介质,其可由计算机110访问并且包括易失性和非易失性、可移动和固定介质两者。举例而言(但不限于),计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括易失性和非易失性、可移动和固定介质两者。该等介质是为存储信息而以各种方法或技术实现的,该信息诸如计算机可读指令、数据结构、编程模块或其它数据。计算机存储介质包括(但不限于)RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字化视频光盘(DVD)或其它磁盘存储器,或者其它的可以用于存储所期望信息且可由计算机100访问的介质。通信介质一般具体化为有计算机可读指令,数据结构、程序模块或其它以调制数据信号形式出现的数据,诸如载体WAV或其它传输机制。通信介质包括任何信息发布介质。术语“调制数据信号”意指一种信号,该信号具有一个或多个特征集合或以将信息编码在信号中的方式来变化。举例而言(但不限于),通信介质包括有线媒体(诸如有线网络或直接的有线接头)和无线网络,诸如传音、FR、红外线和其它无线媒体。上述任意的组合也应包括在计算机可读介质中。系统存储器130包括易失和/或非易失存储器形式的计算机可读介质,诸如只读存储器(ROM)131和随机存取存储器(RAM)132。包含有基本例行程序的基本输入/输出系统133(BIOS)诸如在启动期间帮助计算机110中的元件之间的信息传输,其一般存储在ROM 131中。RAM 132一般包括数据和/或程序模块,该等数据和/或程序模块可即时访问和/或随后不久由处理单元120操作。举例而言(但不限于),图1说明操作系统134、应用程序135、其它程序模块136和程序数据137。计算机110还可以包括其它移动/固定、易失/非易失计算机介质。仅举例而言,图1说明了硬盘驱动器141、磁盘驱动器151和光盘驱动器155。其中硬盘驱动器141从移动、非易失磁介质读取数据或将数据写入;而磁盘驱动器151从移动、非易失磁盘152读取数据或将数据写入;光盘驱动器155从诸如CD-ROM或其它介质此类的移动、非易失光盘156读取数据或将数据写入。其它的移动/固定、易失/非易失计算机存储介质包括(但不限于)磁带、闪存卡、数字视频光盘、数字视频带、静态RAM、静态ROM等。硬盘驱动器141通常通过固定存储器接口连接于系统总线121,而光盘驱动器155通常通过移动存储器接口而连接于系统总线121,诸如通过接口150。图1所示的和以上描述的该等驱动器以及与其关联的计算机存储介质存储用于计算机100的计算机可读指令、数据结构、程序模块和其它数据。例如,在图1中,被说明的硬盘驱动器本文档来自技高网...

【技术保护点】
一种用于自然语言处理的生成基于规则的语法的方法:识别训练数据中的分段歧义,其中训练数据的分段是有歧义的;列举所有歧义分段的重写规则;以及通过基于由训练数据所支持的重写规则的发生来生成每个列举的重写规则的概率,从而自动 解析分段歧义。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:王野翊A埃西罗
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1