一种通用自然语义识别方法及系统技术方案

技术编号:36382153 阅读:10 留言:0更新日期:2023-01-18 09:44
本发明专利技术的实施例公开了一种通用自然语义识别方法及系统,方法包括:将常用的单词数据属性预置在融合字典内;输入自然语言,对输入的语言进行初步分词和断句;对分词和断句后的词阵进行排列组合,根据词性进行聚合,得出适应场景的表述;对识别后的数据进行定量或定性解析;对识别后的数据进行推导计算。系统包括元语配置模块,读词模块,混词模块,语义解析模块和维度计算模块。本发明专利技术能够对定量数据进行识别,便于人机交互的关键信息识别;将定性词汇数值化,便于自然语义文档的数据分析;更流畅的将自然语言翻译成机器(软件)接口调用。畅的将自然语言翻译成机器(软件)接口调用。畅的将自然语言翻译成机器(软件)接口调用。

【技术实现步骤摘要】
一种通用自然语义识别方法及系统


[0001]本专利技术涉及语义识别
,特别涉及一种通用自然语义识别方法及系统。

技术介绍

[0002]“自然语言”包括文字记录除了被人类理解,在数字化浪潮中还需要被计算机理解并执行相应的语义动作(API操作)。自然语义到计算机数据的翻译过程被称作自然语义识别。对于自然语义识别,目前的做法多数是基于关键词的搜索技术,该技术通过关键词的索引表匹配信息,并通过关键词的匹配度给出评分。自然语义到软件接口和数据字段的映射方式,是现有技术急待解决的问题。
[0003]目前采用的技术方案有两种:
[0004](1)基于搜索(Search)技术的关键词识别,这种方式存在缺少关键词字典,无法识别定量数据,无法识别对象关系等缺点。通用的字典并不能匹配专业性很强的关键词,比如:金融、财会、犯罪、化工等专业词汇无法被计算机理解并做出相应的API操作。定量数据无法识别和计算,由于是基于关键词的匹配,搜索技术给出的是自然语言文档的整体评分,只关注匹配度,并不能对定量数据进行分析和计算。对象关系无法识别,人和人、人和组织、组织和组织等关系的识别,除了匹配关键词之外还要进行关系的推导,搜索技术无法进行关系的识别。
[0005](2)基于长短记忆的卷积神经网络(LTSM),这种方法的缺点是参数数以亿计、模型大、训练时间长、无法快速收敛等缺点。

技术实现思路

[0006]有鉴于此,本专利技术实施例的目的在于提供一种通用自然语义识别方法及系统,能够对定量数据进行识别,便于人机交互的关键信息识别;将定性词汇数值化,便于自然语义文档的数据分析;更流畅的将自然语言翻译成机器(软件)接口调用。
[0007]第一方面,本专利技术实施例提供了一种通用自然语义识别方法,其中,包括:
[0008]将常用的单词数据属性预置在融合字典内。
[0009]输入自然语言,对输入的语言进行初步分词和断句。
[0010]对分词和断句后的词阵进行排列组合,根据词性进行聚合,得出适应场景的表述。
[0011]对识别后的数据进行定量或定性解析。
[0012]根据场景对识别后的数据进行推导计算,分析语句意图。
[0013]结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,还包括:
[0014]对输入的自然语言进行预测识别。
[0015]进行预测识别时,不对分词和断句后的词阵进行排列组合。
[0016]结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,还包括:
[0017]将命中的关键词进行排序,得到高命中率词汇未命中计数和命中位置计数,将命中率数据修改到融合字典中。
[0018]结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,所述将常用的单词数据属性预置在融合字典内,包括:
[0019]将场景对象关键词、对象API元语、英文命名和中文常用词组预置在融合字典内。
[0020]将新增单词元属性预置在融合字典内,包括对象关键词、对象属性值、对象关系关键词、对象属性单位、场景值、场景命中率、形容程度值、词能量方向(褒贬)、词类型(中文、西语)。
[0021]所述元属性的数据格式包括以本词开始的剩余词汇、场景值及出现频率、词在语句中的位置和API元语位置。
[0022]设置词汇的正向、负向属性,将自然语言表示程度的词进行分档。
[0023]结合第一方面,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,所述输入自然语言,对输入的语言进行初步分词和断句,包括:
[0024]对输入的语言进行前后2~4个字的预混词。
[0025]根据融合字典的元属性,将明显不合条件的组词方式摒弃。
[0026]结合第一方面,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,所述对分词和断句后的词阵进行排列组合,根据词性进行聚合,得出适应场景的表述,包括:
[0027]根据词性进行元属性聚合处理。
[0028]集合场景值,若当前语句中不再包含当前场景值的关注对象,则判断为自然语言话题转换。
[0029]将西语和中文词的组合检出,剩余的西语词汇进行年份和数字的识别,根据出现的数字和单位推测对象的属性。
[0030]第二方面,本专利技术实施例还提供了一种自然语义识别系统,其中,包括:
[0031]元语配置模块,用于将常用的单词数据属性预置在融合字典内。
[0032]读词模块,用于输入自然语言,对输入的语言进行初步分词和断句。
[0033]混词模块,用于对分词和断句后的词阵进行排列组合,根据词性进行聚合,得出适应场景的表述。
[0034]语义解析模块,用于对识别后的数据进行定量或定性解析。
[0035]维度计算模块,用于根据场景对识别后的数据进行推导计算,分析语句意图。
[0036]结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中,还包括:
[0037]预测识别模块,用于对输入的自然语言进行预测识别。
[0038]命中率计数模块,用于将命中的关键词进行排序,得到高命中率词汇未命中计数和命中位置计数,将命中率数据修改到融合字典中。
[0039]结合第二方面,本专利技术实施例提供了第二方面的第二种可能的实施方式,其中,所述读词模块包括:
[0040]预混词单元,用于对输入的语言进行前后2~4个字的预混词。
[0041]组词单元,用于根据融合字典的元属性,将明显不合条件的组词方式摒弃。
[0042]结合第二方面,本专利技术实施例提供了第二方面的第三种可能的实施方式,其中,所
述混词模块包括:
[0043]聚合单元,用于根据词性进行元属性聚合处理。
[0044]话题转换判断单元,用于集合场景值,若当前语句中不再包含当前场景值的关注对象,则判断为自然语言话题转换。
[0045]定量数据识别单元,用于将西语和中文词的组合检出,剩余的西语词汇进行年份和数字的识别,根据出现的数字和单位推测对象的属性。
[0046]本专利技术实施例的有益效果是:
[0047]本专利技术的通用自然语义识别方法及系统,根据自然语言输入,将自然语言的语义翻译成计算机数据(软件对象)和其属性,并进行API的交互;识别自然语言或者文字记录中出现的数字和单位,同时支持非自然语言的图表数据识别,支持对数据提取并映射到机器语言;能够实现语言对象关系识别,对自然语言或者自然语言文本中出现的对象进行数据建模,将对象关系重建在计算机数据(软件对象)中;语义程度识别,将自然语言中的程度描述进行数字化映射,累积成正向、负向的语义评价并软件评分;场景计算,根据输入的场景将输入的数据进行监督的推导,推导出输入中没有出现但必须的信息。
附图说明
[0048]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通用自然语义识别方法,其特征在于,包括:将常用的单词数据属性预置在融合字典内;输入自然语言,对输入的语言进行初步分词和断句;对分词和断句后的词阵进行排列组合,根据词性进行聚合,得出适应场景的表述;对识别后的数据进行定量或定性解析;根据场景对识别后的数据进行推导计算,分析语句意图。2.根据权利要求1所述的通用自然语义识别方法,其特征在于,还包括:对输入的自然语言进行预测识别;进行预测识别时,不对分词和断句后的词阵进行排列组合。3.根据权利要求1所述的通用自然语义识别方法,其特征在于,还包括:将命中的关键词进行排序,得到命中率计数和命中位置计数,将命中率数据修改到融合字典中。4.根据权利要求1所述的通用自然语义识别方法,其特征在于,所述将常用的单词数据属性预置在融合字典内,包括:将场景对象关键词、对象API元语、英文命名和中文常用词组预置在融合字典内;将新增单词元属性预置在融合字典内,包括对象关键词、对象属性值、对象关系关键词、对象属性单位、场景值、场景命中率、形容程度值、词能量方向、词类型;所述元属性的数据格式包括以本词开始的剩余词汇、场景值及出现频率、词在语句中的位置和API元语位置;设置词汇的正向、负向属性,将自然语言表示程度的词进行分档。5.根据权利要求4所述的通用自然语义识别方法,其特征在于,所述输入自然语言,对输入的语言进行初步分词和断句,包括:对输入的语言进行前后2~4个字的预混词;根据融合字典的元属性,将不合条件的组词方式摒弃。6.根据权利要求1所述的通用自然语义识别方法,其特征在于,所述对分词和断句后的词阵进行排列组合,根据词性进...

【专利技术属性】
技术研发人员:李祖合
申请(专利权)人:北京猿语科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1