当前位置: 首页 > 专利查询>清华大学专利>正文

自然语言理解系统及方法技术方案

技术编号:9434561 阅读:118 留言:0更新日期:2013-12-12 00:36
本发明专利技术涉及自然语言处理技术领域,公开了一种自然语言理解系统及方法。该系统包括:网络库构建模块,用于预先建立有向图文法网络库,所述有向图文法网络库中存储根据句文法规则生成的有向图文法网络;接收模块,用于接收用户输入的自然语言;文本内容获取模块,用于获取所述自然语言对应的文本内容;匹配模块,用于将所述文本内容与所述有向图文法网络进行匹配,得到匹配路径;语义确定模块,用于获取并输出所述匹配路径上的语义信息。本发明专利技术可以满足用户针对海量文本数据的深层语义理解的需求。

【技术实现步骤摘要】
自然语言理解系统及方法
本专利技术涉及自然语言处理
,具体涉及一种自然语言理解系统及方法。
技术介绍
人工智能技术发展由来已久,而作为人工智能领域中最重要方向之一的自然语言理解技术也一直是研究的热点,可以说,让计算机理解自然语言是人类一直以来的梦想。目前,自然语言理解技术主要采用基于规则和基于统计两大类理论技术。基于规则的自然语言理解系统构建相对复杂,主要面对受限领域的理解问题。而基于统计的方法逐步成为自然语言处理领域的主流方法,通常适于在大量数据的基础上进行浅层语义理解,而对于深层语义问题往往无法处理。传统的基于规则的自然语言理解系统可以实现对自然语言的深层理解。对于一个给定的文本输入,其处理流程通常包括以下三个步骤。(1)词义分析:主要目的是对句子中的词汇提取语言学信息,获取词汇的词义。涉及分词、词性标注、命名体识别等等技术,同时在词义处理上需要词义相关的知识库的支持,对此语言专家已经做出了巨大努力,比如已有的知识库“知网”、《同义词词林》等等。(2)句法分析:主要目的是对句子或短语的结构进行分析,获取词汇、短语在句子中的语法功能和相互关系,常用的句法分析方法包括上下文无关文法分析和依存文法分析等等。(3)语义分析:主要目的是要获取句子要表达的实际意义,该部分是自然语言理解系统的核心。深层自然语言理解系统通常需要在该阶段构建相关语义理解的规则,这些规则主要是依赖语言学专家的语言知识和领域知识密切相关。一方面要定义语义项,另一方面要定义从词义、句法结构等信息至语义项的语义转换规则库。对于一个给定的文本输入,经过词义分析、句法分析之后,利用语义转换规则库最终实现获取语义的目的。传统的基于规则的自然语言理解系统主要涉及词义分析、句法分析和语义分析三部分,各部分都涉及专家知识规则、不同知识库的利用,虽然可以实现对自然语言的深层理解,但依然存在无法克服的缺点,主要有以下几点:(1)系统复杂,以上三部分涉及分词、词性标注、命名体识别、句法分析、词义消歧、语义角色分析等等众多技术点,每一项技术的性能不足都有可能对整个系统的性能造成较大影响,系统实现和维护难度都较大。(2)规则的构建严重依赖于语言学专家知识,而该方面的知识资源往往是有限的甚至是难以获取的。(3)现有方案的可推广性不强,难以处理自然语言错综复杂的变化,对于实际应用中的海量数据理解往往效果不佳。
技术实现思路
本专利技术实施例提供一种自然语言理解系统及方法,以满足用户针对海量文本数据的深层语义理解的需求。为此,本专利技术提供如下技术方案:一种自然语言理解系统,包括:网络库构建模块,用于预先建立有向图文法网络库,所述有向图文法网络库中存储根据句文法规则生成的有向图文法网络;接收模块,用于接收用户输入的自然语言;文本内容获取模块,用于获取所述自然语言对应的文本内容;匹配模块,用于将所述文本内容与所述有向图文法网络进行匹配,得到匹配路径;语义确定模块,用于获取并输出所述匹配路径上的语义信息。优选地,所述网络库构建模块包括:设置单元,用于获取用户设置的句文法规则;编译单元,用于对所述句文法规则进行编译,生成有向图文法网络;存储单元,用于将所述有向图文法网络存储到有向图文法网络库中。优选地,不同的有向图文法网络对应不同应用类型的文法规则;所述系统还包括:选择模块,用于确定用户选择的自然语言的应用类型;所述匹配模块,具体用于将所述文本内容与对应所述应用类型的有向图文法网络进行匹配,得到匹配路径。优选地,所述选择模块,具体用于通过按键方式或菜单方式确定用户选择的自然语言的应用类型。优选地,所述匹配模块包括:切分单元,用于对所述文本内容按字切分,所述字包括汉字、字母、数字;字匹配单元,将所述有向图文法网络的起始节点作为切分得到的第一个字的匹配起始节点,对切分得到的每个字,依次按以下方式与对应所述应用类型的有向图文法网络进行匹配:从所述匹配起始节点的出弧中查找弧上记录的字与当前待匹配的字相同的弧,并将查找出的弧的终止节点作为下一个待匹配的字的匹配起始节点;匹配路径获取单元,用于根据所述字匹配单元的匹配结果,得到对应所述文本内容的完整匹配路径。一种自然语言理解方法,包括:预先建立有向图文法网络库,所述有向图文法网络库中存储根据句文法规则生成的有向图文法网络;接收用户输入的自然语言,并获取所述自然语言对应的文本内容;将所述文本内容与所述有向图文法网络进行匹配,得到匹配路径;获取并输出所述匹配路径上的语义信息。优选地,所述建立有向图文法网络库包括:获取用户设置的句文法规则;对所述句文法规则进行编译,生成有向图文法网络;将所述有向图文法网络存储到有向图文法网络库中。优选地,不同的有向图文法网络对应不同应用类型的文法规则;所述方法还包括:在接收用户输入的自然语言之前,确定用户选择的自然语言的应用类型;所述将所述文本内容与所述有向图文法网络进行匹配,得到匹配路径包括:将所述文本内容与对应所述应用类型的有向图文法网络进行匹配,得到匹配路径。优选地,所述确定用户选择的自然语言的应用类型包括:通过按键方式或菜单方式确定用户选择的自然语言的应用类型。优选地,将所述文本内容与对应所述应用类型的有向图文法网络进行匹配,得到匹配路径包括:对所述文本内容按字切分,所述字包括汉字、字母、数字;将所述有向图文法网络的起始节点作为切分得到的第一个字的匹配起始节点;对切分得到的每个字,依次按以下方式与对应所述应用类型的有向图文法网络进行匹配:从所述匹配起始节点的出弧中查找弧上记录的字与当前待匹配的字相同的弧,并将查找出的弧的终止节点作为下一个待匹配的字的匹配起始节点;根据匹配结果得到对应所述文本内容的完整匹配路径。本专利技术实施例提供的自然语言理解系统及方法,利用当前计算机日益强大的计算、存储能力,预先建立存储了根据句文法规则生成的有向图文法网络的有向图文法网络库,在接收用户输入的自然语言后,将所述自然语言对应的文本内容与所述有向图文法网络进行匹配,得到匹配路径;获取并输出所述匹配路径上的语义信息。本专利技术方案实现了计算机对自然语言的句子或短语等的自动深层理解,满足了用户针对海量文本数据的深层语义理解的需求。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本专利技术实施例自然语言理解系统的一种结构框图;图2是本专利技术实施例自然语言理解系统中网络库构建模块的一种结构示意图;图3是本专利技术实施例中有向图网络的示意图;图4是本专利技术实施例自然语言理解系统的另一种结构框图;图5是本专利技术实施例中匹配模块的结构示意图;图6是本专利技术实施例自然语言理解方法的流程图;图7是本专利技术实施例中建立有向图文法网络库的一种流程图;图8是本专利技术实施例中利用有向图文法网络进行文本内容匹配的流程图。具体实施方式为了使本
的人员更好地理解本专利技术实施例的方案,下面结合附图和实施方式对本专利技术实施例作进一步的详细说明。针对现有技术中自然语言理解系统实现复杂、并且严重依赖于语言学专家知识的问题,本专利技术提供一种自然语言理解系统及方法,简单高效地实现对句子、短语等的深层自然本文档来自技高网
...
自然语言理解系统及方法

【技术保护点】
一种自然语言理解系统,其特征在于,包括:网络库构建模块,用于预先建立有向图文法网络库,所述有向图文法网络库中存储根据句文法规则生成的有向图文法网络;接收模块,用于接收用户输入的自然语言;文本内容获取模块,用于获取所述自然语言对应的文本内容;匹配模块,用于将所述文本内容与所述有向图文法网络进行匹配,得到匹配路径;语义确定模块,用于获取并输出所述匹配路径上的语义信息。

【技术特征摘要】
1.一种自然语言理解系统,其特征在于,包括:网络库构建模块,用于预先利用用户设置的句文法规则建立有向图文法网络库,所述有向图文法网络库中存储根据句文法规则生成的有向图文法网络;接收模块,用于接收用户输入的自然语言;文本内容获取模块,用于获取所述自然语言对应的文本内容;匹配模块,用于将所述文本内容与所述有向图文法网络进行匹配,得到匹配路径;语义确定模块,用于获取并输出所述匹配路径上的语义信息。2.根据权利要求1所述的系统,其特征在于,所述网络库构建模块包括:设置单元,用于获取用户设置的句文法规则;编译单元,用于对所述句文法规则进行编译,生成有向图文法网络;存储单元,用于将所述有向图文法网络存储到有向图文法网络库中。3.根据权利要求1所述的系统,其特征在于,不同的有向图文法网络对应不同应用类型的文法规则;所述系统还包括:选择模块,用于确定用户选择的自然语言的应用类型;所述匹配模块,具体用于将所述文本内容与对应所述应用类型的有向图文法网络进行匹配,得到匹配路径。4.根据权利要求3所述的系统,其特征在于,所述选择模块,具体用于通过按键方式或菜单方式确定用户选择的自然语言的应用类型。5.根据权利要求3或4所述的系统,其特征在于,所述匹配模块包括:切分单元,用于对所述文本内容按字切分,所述字包括汉字、字母、数字;字匹配单元,将所述有向图文法网络的起始节点作为切分得到的第一个字的匹配起始节点,对切分得到的每个字,依次按以下方式与对应所述应用类型的有向图文法网络进行匹配:从所述匹配起始节点的出弧中查找弧上记录的字与当前待匹配的字相同的弧,并将查找出的弧的终止节点作为下一个待匹配的字的匹配起始节点;匹配路径获取单元,用于根据所述字匹配单元的匹配结果,得到对应所述...

【专利技术属性】
技术研发人员:吴及贺志阳吕萍何婷婷
申请(专利权)人:清华大学安徽科大讯飞信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1