用于开发自然语言理解应用的方法和集成开发工具技术

技术编号:2920864 阅读:276 留言:0更新日期:2012-04-11 18:40
一种开发自然语言理解(NLU)应用的方法包括使用多遍处理技术从NLU训练文本语料库确定NLU解释信息。一遍的改变可自动改变随后一遍的输入。NLU解释信息可指定NLU训练文本语料库的至少一部分的解释。在数据库中存储NLU解释信息,并且可在图形编辑器中表现NLU解释信息的所选项目。还在图形编辑器中接收用户指定的编辑。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及自然语言理解领域,特别涉及一种用于构建自然语言理解应用的集成开发工具。自然语言理解(NLU)系统使计算机能够从人类语音理解和提取信息。该系统可以辅助的方式与其中需要理解人类语音的各种其他计算机应用如语音识别系统一起工作。NLU系统可提取包含在文本内的相关信息,然后将该信息提供给另一个应用程序或系统,以用于诸如预订航班、查找文档或总结文本的目的。目前在本
内,NLU系统采用若干不同技术来从文本串提取信息,其中文本串可以是指一组字符、词或句子。最常用的技术是使用上下文无关语法来解析文本串的语言学方法,其中上下文无关语法在本
内通常使用包括终结符和非终结符的巴克斯-诺尔范式(BNF)来表示。终结符是指不能被进一步分解的词或其他符号,而典型地,非终结符是指语音部分或短语如动词短语或名词短语。因此,NLU的语法方法根据BNF语法寻求解析每个文本串而不使用统计处理。为了构建这样的基于语法的NLU系统,典型地需要语言学家,这可能为应用开发增加了大量的时间和开支。然而,由于预测每个潜在用户请求或对提示的响应上的困难,尤其是在有关电话交谈风格的情况下,NLU应用的质量不能令人满意。显然地,尽管使用语言学家,也可能发生这样的不满意结果。NLU系统用来从文本串提取信息的另一种技术是统计方法,其中在分析文本串中不使用语法。目前,该系统从带注解句子的大语料库中学习含义。带注解句子汇集成文本语料库,其可称作训练语料库。用来开发统计NLU系统和对文本进行注解的工具包括了诸如ASCII文件、传统文本编辑器和键盘宏这样的不同元素。使用这些低效工具,可指定词关系并可构建统计模型。然而,迄今为止,尚未开发出高效且准确的图形可视编辑工具。结果,典型地只有受过训练的专家才能进行统计NLU应用的开发。使用传统NLU应用开发工具的另一个缺点是团队环境下的开发可能是困难的。显然地,由于现有工具利用不同组件,这些开发工具不能跟踪或标志一个团队成员所作的修改以防止另一个团队成员覆写或者重新注解文本的相同部分。而且,传统开发工具不能识别以相互不一致的方式注解训练语料库内特定句子的多个实例的情形。在此公开的本专利技术涉及一种如权利要求1、37和38所述的用于构建自然语言理解(NLU)应用的方法、系统和可机读存储装置。具体地说,在此公开的本专利技术可向用户提供在其中构建统计模型的集成开发工具。不是使用一系列文本文件、文本编辑器和键盘宏来指定表示文本语料库的解释、含义或结构的解释信息,本专利技术可利用数据库以及图形编辑和可听工具的组合来指定解释信息。本专利技术的数据库功能性,包括本专利技术同步和标注用户编辑的能力使本专利技术特别适用于联网或工作组环境。结果,本专利技术可提供增加的功能性。表现(presenting)步骤最好可包括作为包括代表数据项的终结符和非终结符节点的含义树(meaning tree)表现NLU解释信息。根据本专利技术的一个实施例,可确定表示含义树的一部分是否正确的概率。如果概率不超过预定阈值概率,则可以可视地标识含义树的那个部分。可选地,可确定NLU解释信息内含义树子结构的出现次数。如果出现次数不超过预定阈值,则可以可视地标识含义树的子结构。该方法还可包括从NLU解释信息确定含义树的所选节点的相交(intersection),将所选节点的相交表现为用于向含义树添加附加节点的选项,然后将节点添加到含义树的所选节点之上。显然地,可从所表现的选项中选择所添加的节点。含义树的附加节点可响应用户命令而创建。附加节点可代表附加数据项。用户还可输入所添加节点的描述,当输入该描述时可对其进行拼写检查。在选择了含义树的节点的情况下,响应用户请求,可显示具有用于显示节点和节点参数的一列或多列的词典视图。显然地,词典视图可包括或集中于具有由含义树的高亮显示节点代表的数据项的词典区域。含义树可根据预定注解数据如数据项词典或者指定文本解释的模型来自动完成。在一个实施例中,可判定数据项词典的单个数据项是否与NLU训练文本语料库的词相关联。如果是,则可将这个数据项分配给该词。NLU解释信息的所选项目可采用工具提示的方式来显示,并且可显示表示所表现的含义树是否是正确解释的概率。该方法还可包括在NLU解释信息内搜索指定含义树结构。可识别数据项的相交并将其表现为用于注解NLU训练文本语料库的用户指定词的选择。最好,本专利技术可包括在词典视图中表现NLU解释信息。在这种情况下,NLU解释信息可使用用于显示父亲和孩子数据项及其参数的一列或多列来表现。词典视图可包括用于表示数据项的孩子的列和表示数据项的父亲的列。这些数据项可根据包括父亲和孩子列的多列中的任一列来排序。如果数据项具有超过预定阈值的概率或计数,则可以可视地区分在词典视图中显示的数据项。在词典视图中显示的具有不超过预定阈值的概率或计数的数据项可以被隐藏而不可见。响应用户选择具有关联的特定数据项,则可在NLU解释信息内搜索包括代表该关联的终结符和非终结符节点的含义树。该方法还可包括根据诸如数据项源、数据项目标、与数据项相关联的方向、与数据项相关联的注解符、注解状态、节点计数、数据文件、句子范围和/或使用状态的参数对NLU解释信息进行过滤。还可显示从NLU解释信息获得的直方图信息。最好,本专利技术可包括在句子视图中表现NLU解释信息。可显示与单独文本短语相关联的NLU解释信息。例如,可以逐句子和/或短语地显示诸如注解状态、计数、指定使用、收集信息、正确性概率和正确性等级的信息。最好,本专利技术可包括在分裂屏幕视图中作为一个或多个含义树表现NLU解释信息。分裂屏幕视图可至少包括用于显示第一含义树的第一窗口和用于显示第二含义树的第二窗口。该方法可包括响应用户请求在第二窗口内表现不同含义树,同时在第一窗口内显示第一含义树。这些含义树可以是相同上下文中相同文本短语的不同解释、两个不同上下文中相同文本短语的不同解释,或者可以是不同遍处理的结果。例如,第一窗口可表现在第一遍处理之后所确定的含义树,而第二窗口可表现在随后一遍处理之后所确定的结果含义树。可选地,第一含义树可代表文本短语的正确解释;而第二含义树可代表根据统计模型的文本短语预测解释。如果正确解释的得分大于预测解释的得分,则可提供统计模型不正确的指示。在第一含义树代表第一文本短语的情况下,该方法可包括在第一窗口中接收对第一含义树的编辑,并且响应用户编辑,搜索与所编辑的第一含义树相对应的不同文本短语的含义树,并且在第二窗口中显示不同文本短语的含义树。该方法可包括可视地表示第一含义树与第二含义树之间的差别,并且使第一含义树遵循第二含义树。最好,本专利技术可包括自动导入NLU训练句子并且根据从NLU训练文本语料库确定的统计可能性自动确定NLU训练句子的解释。可选地,可自动导入训练句子的NLU解释,并且将其应用于NLU训练文本语料库。可以响应指定多遍之一的用户输入来显示由多遍中的任一遍产生的NLU解释信息。该方法还可包括根据文本短语的NLU解释信息的属性在句子视图中对NLU训练文本语料库的文本短语进行排序,并且作为含义树顺序显示至少二个文本短语的NLU解释信息。可根据句子视图中的排序来显示含义树。该集成开发工具还可包括用于指定对NLU解释信息的数据项中的所选数据项进行搜索的图形用户接口。该本文档来自技高网...

【技术保护点】
一种开发自然语言理解(NLU)应用的方法,包括:使用多遍处理技术从NLU训练文本语料库确定NLU解释信息,其中一遍的改变自动改变随后一遍的输入,所述NLU解释信息指定所述NLU训练文本语料库的至少一部分的解释;在数据库(20 5)中存储所述NLU解释信息;以及在图形编辑器(310)中,表现NLU解释信息的所选项目(330),并且接收对所述NLU解释信息的用户指定编辑。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:马克爱德华爱普斯坦莎伦巴巴拉琼斯罗伯特托德沃德
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1