一种通用自然语义识别方法及系统技术方案

技术编号：36382153 阅读：23 留言：0更新日期：2023-01-18 09:44

本发明专利技术的实施例公开了一种通用自然语义识别方法及系统，方法包括：将常用的单词数据属性预置在融合字典内；输入自然语言，对输入的语言进行初步分词和断句；对分词和断句后的词阵进行排列组合，根据词性进行聚合，得出适应场景的表述；对识别后的数据进行定量或定性解析；对识别后的数据进行推导计算。系统包括元语配置模块，读词模块，混词模块，语义解析模块和维度计算模块。本发明专利技术能够对定量数据进行识别，便于人机交互的关键信息识别；将定性词汇数值化，便于自然语义文档的数据分析；更流畅的将自然语言翻译成机器(软件)接口调用。畅的将自然语言翻译成机器(软件)接口调用。畅的将自然语言翻译成机器(软件)接口调用。

全部详细技术资料下载

【技术实现步骤摘要】
一种通用自然语义识别方法及系统

[0001]本专利技术涉及语义识别
，特别涉及一种通用自然语义识别方法及系统。

技术介绍

[0002]“自然语言”包括文字记录除了被人类理解，在数字化浪潮中还需要被计算机理解并执行相应的语义动作(API操作)。自然语义到计算机数据的翻译过程被称作自然语义识别。对于自然语义识别，目前的做法多数是基于关键词的搜索技术，该技术通过关键词的索引表匹配信息，并通过关键词的匹配度给出评分。自然语义到软件接口和数据字段的映射方式，是现有技术急待解决的问题。
[0003]目前采用的技术方案有两种：
[0004](1)基于搜索(Search)技术的关键词识别，这种方式存在缺少关键词字典，无法识别定量数据，无法识别对象关系等缺点。通用的字典并不能匹配专业性很强的关键词，比如：金融、财会、犯罪、化工等专业词汇无法被计算机理解并做出相应的API操作。定量数据无法识别和计算，由于是基于关键词的匹配，搜索技术给出的是自然语言文档的整体评分，只关注匹配度，并不能对定量数据进行分析和计算。对象关系无法识别，人和人、人和组织、组织和组织等关系的识别，除了匹配关键词之外还要进行关系的推导，搜索技术无法进行关系的识别。
[0005](2)基于长短记忆的卷积神经网络(LTSM)，这种方法的缺点是参数数以亿计、模型大、训练时间长、无法快速收敛等缺点。

技术实现思路

[0006]有鉴于此，本专利技术实施例的目的在于提供一种通用自然语义识别方法及系统，能够对定量数据进行识别，便于人机交...

【技术保护点】

【技术特征摘要】
1.一种通用自然语义识别方法，其特征在于，包括：将常用的单词数据属性预置在融合字典内；输入自然语言，对输入的语言进行初步分词和断句；对分词和断句后的词阵进行排列组合，根据词性进行聚合，得出适应场景的表述；对识别后的数据进行定量或定性解析；根据场景对识别后的数据进行推导计算，分析语句意图。2.根据权利要求1所述的通用自然语义识别方法，其特征在于，还包括：对输入的自然语言进行预测识别；进行预测识别时，不对分词和断句后的词阵进行排列组合。3.根据权利要求1所述的通用自然语义识别方法，其特征在于，还包括：将命中的关键词进行排序，得到命中率计数和命中位置计数，将命中率数据修改到融合字典中。4.根据权利要求1所述的通用自然语义识别方法，其特征在于，所述将常用的单词数据属性预置在融合字典内，包括：将场景对象关键词、对象API元语、英文命名和中文常用词组预置在融合字典内；将新增单词元属性预置在融合字典内，包括对象关键词、对象属性值、对象关系关键词、对象属性单位、场景值、场景命中率、形容程度值、词能量方向、词类型；所述元属性的数据格式包括以本词开始的剩余词汇、场景值及出现频率、词在语句中的位置和API元语位置；设置词汇的正向、负向属性，将自然语言表示程度的词进行分档。5.根据权利要求4所述的通用自然语义识别方法，其特征在于，所述输入自然语言，对输入的语言进行初步分词和断句，包括：对输入的语言进行前后2～4个字的预混词；根据融合字典的元属性，将不合条件的组词方式摒弃。6.根据权利要求1所述的通用自然语义识别方法，其特征在于，所述对分词和断句后的词阵进行排列组合，根据词性进...

【专利技术属性】
技术研发人员：李祖合，
申请(专利权)人：北京猿语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人