一种语义分析方法、装置、设备及可读存储介质制造方法及图纸

技术编号:30764476 阅读:16 留言:0更新日期:2021-11-10 12:20
本发明专利技术公开了一种语义分析方法,该方法调用模型结构简单的第二模型对语义简单的长文本向量进行快速语义分析,长文本向量相比短文本向量可以保证文本内容的完整性以及相关性,减少文本信息的损失,同时可以降低整体提取模型的复杂程度,提升推理速度,实现全面快速的语义特征提取;同时调用模型结构复杂的第一模型对语义复杂的短文本向量进行语义分析,可以更加准确地对语义信息进行表达提取,得到更精准的语义分析结果,再对第一分析结果与第二分析结果进行语义信息合并,实现短文本+长文本、简单模型+复杂模型的多粒度语义分析,保证分析结果的完整性以及精准度。本发明专利技术还公开了一种语义分析装置、设备及可读存储介质,具有相应的技术效果。应的技术效果。应的技术效果。

【技术实现步骤摘要】
一种语义分析方法、装置、设备及可读存储介质


[0001]本专利技术涉及信息处理
,特别是涉及一种语义分析方法、装置、设备及可读存储介质。

技术介绍

[0002]自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。长文本数据在自然语言处理任务中是非常常见的处理对象,长文本数据指字符数较多的文本,长文本数据比如用户半年内累计输入长度超过3600个字符的搜索记录等。通过对这些长文本数据进行语义分析(Semantic Analysis)可以理解整个文本表达的真实语义,有助于促进其他自然语言处理任务的快速发展,具有较高的应用价值。
[0003]目前长文本数据的语义分析建模方法中,常见的是使用一些非常简单的模型(比如text_cnn,fasttext等)对长文本数据进行直接的语义识别,该种方式虽然保留了语义和时序信息,但模型无法对文本中的信息进行准确表达,语义分析精准度较差;同时也存在对长文本数据进行截断处理后调用复杂模型对截断后的长文本数据进行语义识别的方法,虽然使用复杂模型训练能得到更好的语义和时序表达结果,但对输入进行截断会导致模型丢失大量信息,造成提取对象不完整,模型识别到的结果也较为片面。
[0004]综上所述,如何实现针对长文本数据进行全面精准的语义识别,是目前本领域技术人员急需解决的技术问题。

技术实现思路

[0005]本专利技术的目的是提供一种语义分析方法、装置、设备及可读存储介质,以针对长文本数据进行全面精准的语义识别。
[0006]为解决上述技术问题,本专利技术提供如下技术方案:
[0007]一种语义分析方法,包括:
[0008]根据预设分析指标提取出文本数据中待分析的目标向量;
[0009]确定所述目标向量中的第一向量以及第二向量;其中,所述第一向量的处理难度系数高于所述第二向量,所述第一向量的长度小于所述第二向量;
[0010]调用第一模型对所述第一向量进行语义分析,生成第一分析结果;调用第二模型对所述第二向量进行语义分析,生成第二分析结果;其中,所述第一模型的测评精度高于所述第二模型;
[0011]对所述第一分析结果与所述第二分析结果进行语义信息合并,得到数据分析结果。
[0012]可选地,所述根据预设分析指标提取出文本数据中待分析的目标向量,包括:
[0013]根据预设分析指标提取出文本数据中待分析的信息,作为目标信息;
[0014]对所述目标信息进行分字处理,得到分字结果;
[0015]对所述目标信息进行分词处理,得到分词结果;
[0016]对所述分字结果以及所述分词结果进行向量映射,将生成的分字向量以及分词向量作为所述目标向量。
[0017]可选地,所述的语义分析方法还包括:
[0018]按照所述分字结果的分字顺序,对所述长文本数据进行对齐分词处理,得到对齐分词结果;
[0019]则相应地,所述对所述分字结果以及所述分词结果进行向量映射,将生成的分字向量以及分词向量作为所述目标向量,包括:对所述分字结果、所述对齐分词结果以及所述分词结果进行向量映射,将生成的分字向量、对齐分词向量以及分词向量作为所述目标向量。
[0020]可选地,所述对所述第一分析结果与所述第二分析结果进行语义信息合并,包括:
[0021]提取出所述第一分析结果中的指定位置输出结果;
[0022]将所述指定位置输出结果以及所述第二分析结果进行语义信息合并。
[0023]可选地,所述提取出所述第一分析结果中的指定位置输出结果,包括:
[0024]提取出所述第一分析结果中的首位置输出结果以及全位置输出结果,作为所述指定位置输出结果。
[0025]可选地,所述的语义分析方法还包括:
[0026]对所述全位置输出结果进行局部位置信息提取,得到信息提取结果;
[0027]将所述首位置输出结果以及所述信息提取结果作为所述指定位置输出结果。
[0028]可选地,在所述确定所述目标向量中的第一向量以及第二向量之前,还包括:
[0029]根据文本长度对所述目标向量进行顺序切分,得到若干分段向量;
[0030]则相应地,所述确定所述目标向量中的第一向量以及第二向量,包括:确定所述分段向量中的第一向量以及第二向量;
[0031]则相应地,在所述对所述第一分析结果与所述第二分析结果进行语义信息合并之后,还包括:获取各所述分段向量对应的所述合并结果,调用语义合并模型对各所述合并结果进行语义合并处理,并将输出结果作为所述数据分析结果。
[0032]一种语义分析装置,包括:
[0033]数据提取单元,用于根据预设分析指标提取出文本数据中待分析的目标向量;
[0034]目标分类单元,用于确定所述目标向量中的第一向量以及第二向量;其中,所述第一向量的处理难度系数高于所述第二向量,所述第一向量的长度小于所述第二向量;
[0035]分类识别单元,用于调用第一模型对所述第一向量进行语义分析,生成第一分析结果;调用第二模型对所述第二向量进行语义分析,生成第二分析结果;其中,所述第一模型的测评精度高于所述第二模型;
[0036]语义合并单元,用于对所述第一分析结果与所述第二分析结果进行语义信息合并,得到数据分析结果。
[0037]一种计算机设备,包括:
[0038]存储器,用于存储计算机程序;
[0039]处理器,用于执行所述计算机程序时实现上述语义分析方法的步骤。
[0040]一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被
处理器执行时实现上述语义分析方法的步骤。
[0041]本专利技术实施例所提供的方法,调用模型结构简单的第二模型对语义简单的长文本向量进行快速语义分析,长文本向量相比短文本向量可以保证文本内容的完整性以及相关性,减少文本信息的损失,同时可以降低整体提取模型的复杂程度,提升推理速度,从而调用第二模型可以实现全面快速的语义特征提取;同时调用模型结构复杂的第一模型对语义复杂的短文本向量进行语义分析,可以更加准确地对语义信息进行表达提取,得到更精准的语义分析结果,再对第一分析结果与第二分析结果进行语义信息合并,实现短文本+长文本、简单模型+复杂模型的多粒度语义分析,保证分析结果的完整性以及精准度。
[0042]相应地,本专利技术实施例还提供了与上述语义分析方法相对应的语义分析装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
[0043]为了更清楚地说明本专利技术实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义分析方法,其特征在于,包括:根据预设分析指标提取出文本数据中待分析的目标向量;确定所述目标向量中的第一向量以及第二向量;其中,所述第一向量的处理难度系数高于所述第二向量,所述第一向量的长度小于所述第二向量;调用第一模型对所述第一向量进行语义分析,生成第一分析结果;调用第二模型对所述第二向量进行语义分析,生成第二分析结果;其中,所述第一模型的测评精度高于所述第二模型;对所述第一分析结果与所述第二分析结果进行语义信息合并,得到数据分析结果。2.根据权利要求1所述的语义分析方法,其特征在于,所述根据预设分析指标提取出文本数据中待分析的目标向量,包括:根据预设分析指标提取出文本数据中待分析的信息,作为目标信息;对所述目标信息进行分字处理,得到分字结果;对所述目标信息进行分词处理,得到分词结果;对所述分字结果以及所述分词结果进行向量映射,将生成的分字向量以及分词向量作为所述目标向量。3.根据权利要求2所述的语义分析方法,其特征在于,还包括:按照所述分字结果的分字顺序,对所述长文本数据进行对齐分词处理,得到对齐分词结果;则相应地,所述对所述分字结果以及所述分词结果进行向量映射,将生成的分字向量以及分词向量作为所述目标向量,包括:对所述分字结果、所述对齐分词结果以及所述分词结果进行向量映射,将生成的分字向量、对齐分词向量以及分词向量作为所述目标向量。4.根据权利要求1所述的语义分析方法,其特征在于,所述对所述第一分析结果与所述第二分析结果进行语义信息合并,包括:提取出所述第一分析结果中的指定位置输出结果;将所述指定位置输出结果以及所述第二分析结果进行语义信息合并。5.根据权利要求4所述的语义分析方法,其特征在于,所述提取出所述第一分析结果中的指定位置输出结果,包括:提取出所述第一分析结果中的首位置输出结果以及全位置输出结果...

【专利技术属性】
技术研发人员:唐东格杨青
申请(专利权)人:重庆度小满优扬科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1