一种基于规则与学习的语义解析方法、装置和电子设备制造方法及图纸

技术编号:27321491 阅读:11 留言:0更新日期:2021-02-10 10:03
本发明专利技术公开了一种基于规则与学习的语义解析方法、装置和电子设备。该方法包括:基于规则集中的原有规则识别自然语言语句,生成结构化语句;判断所述结构化语句是否能完整的表达所述自然语言语句的语义,如果不能,则获取所述自然语言语句和所述结构化语句的差异文本,并将所述差异文本输入预先训练的学习模型,生成新的规则;利用所述新的规则更新所述规则集。采用本发明专利技术提供的方法利用机器学习得到了新的规则,扩展了自然语言的解析范围,使得不断更新的规则集不仅可以识别规则范围内的文本,还能灵活的随着语言发展而改变;而且该方法的可扩展性强,泛化能力强,解决了基于规则解析局限性的问题。解析局限性的问题。解析局限性的问题。

【技术实现步骤摘要】
一种基于规则与学习的语义解析方法、装置和电子设备


[0001]本专利技术涉及自然语言理解
,尤其涉及一种基于规则与学习的语义解析方法、装置和电子设备。

技术介绍

[0002]自然语言理解(NLU,Natural Language Understanding)是自然语言处理(NLP,Natrual Language Processing)的子领域,其目标是将人类语言解析成机器可理解并且结构化的完整语义。随着人工智能技术的发展,算法的丰富,算力的提升,自然语言理解也在新的时代迎来了新的发展。
[0003]目前,NLU工具主要包括百度的DDParser,腾讯的TexSmart,Rasa NLU,Facebook的Duckling,以及Google Syntaxnet。其中,前两者使用机器学习方法,后三者使用基于规则的识别方法。但是,这些NLU工具都有一定的局限性,完全使用深度学习的NLU工具(例如DDParser与TexSmart)的解析效果受模型训练影响,模型效果不稳定,例如Textsmart无法将时间段解析成结构化数据,无法识别出节日所代表的具体时间等。而基于规则的NLU工具(例如Duckling)仅仅可以识别规则范围内的文本,不能灵活的随着语言发展而改变,后期维护困难,泛化能力弱。

技术实现思路

[0004]为了解决现有技术中存在的问题,本专利技术提供了如下技术方案。
[0005]本专利技术一方面提供了一种基于规则与学习的语义解析方法,包括:基于规则集中的原有规则识别自然语言语句,生成结构化语句;判断所述结构化语句是否能完整的表达所述自然语言语句的语义;如果不能,则获取所述自然语言语句和所述结构化语句的差异文本;将所述差异文本输入预先训练的学习模型,生成新的规则;利用所述新的规则更新所述规则集。
[0006]优选地,所述判断所述结构化语句是否能完整的表达所述自然语言语句的语义,包括:计算所述结构化语句对所述自然语言语句的拟合度;判断计算得到的拟合度是否达到拟合度阈值,如果未达到拟合度阈值,则所述结构化语句未能完整的表达所述自然语言语句的语义。
[0007]优选地,按照下式计算所述拟合度:其中为文本编辑距离函数,为所述自然语言语句,为所述结构化语句,为由生成的自然语言文本。
[0008]优选地,所述获取所述自然语言语句和所述结构化语句的差异文本包括:
根据和的差异生成所述差异文本。
[0009]优选地,将所述差异文本输入预先训练的学习模型,生成新的规则包括:判断差异文本的数量是否达到预设阈值,若是,则将所述差异文本输入预先训练的学习模型。
[0010]优选地,所述利用所述新的规则更新所述规则集包括:对所述新的规则进行除冗操作,得到除冗后的新规则;将所述除冗后的新规则加入所述规则集并与所述规则集中的原有规则进行除冗操作,得到更新后的规则集。
[0011]优选地,所述除冗操作包括:计算待除冗操作的两个规则的文本编辑距离,当所述文本编辑距离低于距离阈值时,将待除冗操作的两个规则合并为一个规则。
[0012]本专利技术另一方面提供了一种基于规则与学习的语义解析装置,包括:规则解析模块,用于基于规则集中的原有规则识别自然语言语句,生成结构化语句;判断模块,用于判断所述结构化语句是否能完整的表达所述自然语言语句的语义;如果不能,则获取所述自然语言语句和所述结构化语句的差异文本;新规则生成模块,用于将所述差异文本输入预先训练的学习模型,生成新的规则;更新模块,用于利用所述新的规则更新所述规则集。
[0013]本专利技术第三方面提供了一种存储器,存储有多条指令,所述指令用于实现上述的方法。
[0014]本专利技术第四方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行上述的方法。
[0015]本专利技术的有益效果是:本专利技术提供了一种基于规则与学习的语义解析方法、装置和电子设备,该方法中,首先基于规则集中的原有规则识别自然语言语句,生成结构化语句;如果所述结构化语句不能完整的表达所述自然语言语句的语义,则获取所述自然语言语句和所述结构化语句的差异文本,并将所述差异文本输入预先训练的学习模型,生成新的规则;最后利用所述新的规则更新所述规则集。采用本专利技术提供的方法可以实现规则的学习,扩展自然语言的解析范围,不仅可以识别规则范围内的文本,还能灵活的随着语言发展而改变,而且该方法的可扩展性强,泛化能力强,解决了基于规则解析局限性的问题,同时利用机器学习得到了新的规则。
附图说明
[0016]图1为本专利技术所述基于规则与学习的语义解析方法流程图;图2为本专利技术所述基于规则与学习的语义解析装置结构示意图。
具体实施方式
[0017]为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
[0018]本专利技术提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如
下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
[0019]处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
[0020]存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
[0021]显示屏用于显示各个应用程序的用户界面。
[0022]除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
[0023]实施例一如图1所示,本专利技术实施例提供了一种基于规则与学习的语义解析方法,包括:S101,基于规则集中的原有规则识别自然语言语句,生成结构化语句;S102,判断所述结构化语句是否能完整的表达所述自然语言语句的语义,如果不能,则获取所述自然语言语句和所述结构化语句的差异文本;S103,将所述差异文本输入预先训练的学习模型,生成新的规则;S104,利用所述新的规则更新所述规则集。
[0024]在步骤S101中,规则集中存储有大量预先写好的原有规则,原有规则的表达形式可以采用自定义的上下文无关文法规则。语法实例可如下所示:<day_duration> = <cn_number><day_cn_before> | <cn_number><day_cn_aft本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于规则与学习的语义解析方法,其特征在于,包括:基于规则集中的原有规则识别自然语言语句,生成结构化语句;判断所述结构化语句是否能完整的表达所述自然语言语句的语义;如果不能,则获取所述自然语言语句和所述结构化语句的差异文本;将所述差异文本输入预先训练的学习模型,生成新的规则;利用所述新的规则更新所述规则集。2.如权利要求1所述的基于规则与学习的语义解析方法,其特征在于,所述判断所述结构化语句是否能完整的表达所述自然语言语句的语义,包括:计算所述结构化语句对所述自然语言语句的拟合度;判断计算得到的拟合度是否达到拟合度阈值,如果未达到拟合度阈值,则所述结构化语句未能完整的表达所述自然语言语句的语义。3.如权利要求2所述的基于规则与学习的语义解析方法,其特征在于,按照下式计算所述拟合度:其中为文本编辑距离函数,为所述自然语言语句,为所述结构化语句,为由生成的自然语言文本。4.如权利要求3所述的基于规则与学习的语义解析方法,其特征在于,所述获取所述自然语言语句和所述结构化语句的差异文本包括:根据和的差异生成所述差异文本。5.如权利要求4所述的基于规则与学习的语义解析方法,其特征在于,将所述差异文本输入预先训练的学习模型,生成新的规则包括:判断差异文本的数量是否达到预设阈值,若是,则将所述差异文本输入预先训练的学习模...

【专利技术属性】
技术研发人员:钱泓锦李晓桐刘占亮杨玉树窦志成曹岗文继荣
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1