基于上下文语义的词义消歧方法、装置及相关设备制造方法及图纸

技术编号:31811938 阅读:21 留言:0更新日期:2022-01-08 11:14
本发明专利技术涉及自然语言处理技术领域,公开了一种基于上下文语义的词义消歧方法、装置、计算机设备及存储介质,该方法包括:通过获取文本数据,并对文本数据进行预处理,得到待处理数据,将待处理数据输入到预训练的语言模型进行训练,得到上文语境信息、歧义词信息和下文语境信息,根据上文语境信息、歧义词信息和下文语境信息,得到文本段语义信息,将文本段语义信息输入到预训练的分类器中进行训练,确定歧义词信息在当前语境中的定义,提高了词义消歧的准确性。歧的准确性。歧的准确性。

【技术实现步骤摘要】
基于上下文语义的词义消歧方法、装置及相关设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于上下文语义的词义消歧方法、装置、计算机设备及存储介质。

技术介绍

[0002]在语言词汇中存在着一定数量的歧义词,歧义词为自然语言的应用带来了便利,但也为自然语言的理解和翻译带来了一定的困难。随着人工智能的兴起,词义消歧在诸多高新领域中的应用越来越多,已经成为了一个自然语言处理中需要解决的重要难题。
[0003]目前,主要是确定每个待消歧的词语的上下文语句,对上下文句子和待消歧的词语所在词义句子进行表征学习后,计算每个待消歧的词语的每个定义和上下文语句的相似度,选择相似度最大的定义,作为待消歧的词语的定义,但是这种方式只能对待消歧的词语的定义进行粗分类,准确率较低,词义消歧准确性较差。

技术实现思路

[0004]本专利技术实施例提供一种基于上下文语义的词义消歧方法、装置、计算机设备和存储介质,以提高词义消歧准确性。
[0005]为了解决上述技术问题,本申请实施例提供一种基于上下文语义的词义消歧方法,包括:获取文本数据,并对所述文本数据进行预处理,得到待处理数据;将所述待处理数据输入到预训练的语言模型进行训练,得到上文语境信息、歧义词信息和下文语境信息,所述预训练的语言模型为自编码语言模型或自回归语言模型;根据所述上文语境信息、所述歧义词信息和所述下文语境信息,得到文本段语义信息;将所述文本段语义信息输入到预训练的分类器中进行训练,确定所述歧义词信息在当前语境中的定义,所述预训练的分类器为Softmax线性分类器。
[0006]为了解决上述技术问题,本申请实施例还提供一种基于上下文语义的词义消歧装置,包括:数据获取模块,用于获取文本数据,并对所述文本数据进行预处理,得到待处理数据;第一训练模块,用于将所述待处理数据输入到预训练的语言模型进行训练,得到上文语境信息、歧义词信息和下文语境信息,所述预训练的语言模型为自编码语言模型或自回归语言模型;文本段语义信息获取模块,用于根据所述上文语境信息、所述歧义词信息和所述下文语境信息,得到文本段语义信息;第二训练模块,用于将所述文本段语义信息输入到预训练的分类器中进行训练,确定所述歧义词信息在当前语境中的定义,所述预训练的分类器为Softmax线性分类器。
[0007]为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于上下文语义的词义消歧方法的步骤。
[0008]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于上下文语义的词义消歧方法的步骤。
[0009]本专利技术实施例提供的基于上下文语义的词义消歧方法、装置、计算机设备及存储介质,通过获取文本数据,并对文本数据进行预处理,得到待处理数据,将待处理数据输入到预训练的语言模型进行训练,得到上文语境信息、歧义词信息和下文语境信息,预训练的语言模型为自编码语言模型或自回归语言模型,根据上文语境信息、歧义词信息和下文语境信息,得到文本段语义信息,将文本段语义信息输入到预训练的分类器中进行训练,确定歧义词信息在当前语境中的定义,预训练的分类器为Softmax线性分类器,本专利技术通过将文本段语义信息输入到预训练的分类器中进行训练,确定歧义词信息在当前语境中的定义,由于文本段语义信息结合了上文语境信息和下文语境信息,提高了歧义词信息在当前语境中的定义的准确性,进而提高了词义消歧的准确性。
附图说明
[0010]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0011]图1是本申请可以应用于其中的示例性系统架构图;图2是本申请的基于上下文语义的词义消歧方法的一个实施例的流程图;图3是根据本申请的基于上下文语义的词义消歧装置的一个实施例的结构示意图;图4是根据本申请的计算机设备的一个实施例的结构示意图;图5是根据本申请的基于上下文语义的词义消歧方法的一个实施例的预训练的语言模型中词向量的结构示意图。
具体实施方式
[0012]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
[0013]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和
隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0014]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0015]请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0016]用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
[0017]终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3 )、MP4( Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
[0018]服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
[0019]需要说明的是,本申请实施例所提供的TiDB数据库的维护方法由服务器执行,相应地,TiDB数据库的维护装置设置于服务器中。
[0020]应该理解,图1中的终端设备本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于上下文语义的词义消歧方法,其特征在于,包括:获取文本数据,并对所述文本数据进行预处理,得到待处理数据;将所述待处理数据输入到预训练的语言模型进行训练,得到上文语境信息、歧义词信息和下文语境信息,所述预训练的语言模型为自编码语言模型或自回归语言模型;根据所述上文语境信息、所述歧义词信息和所述下文语境信息,得到文本段语义信息;将所述文本段语义信息输入到预训练的分类器中进行训练,确定所述歧义词信息在当前语境中的定义,所述预训练的分类器为Softmax线性分类器。2.如权利要求1所述的基于上下文语义的词义消歧方法,其特征在于,所述根据所述上文语境信息、所述歧义词信息和所述下文语境信息,得到文本段语义信息包括:对所述上文语境信息、所述歧义词信息和所述下文语境信息进行均值计算,得到文本段语义信息。3.如权利要求1所述的基于上下文语义的词义消歧方法,其特征在于,所述方根据所述上文语境信息、所述歧义词信息和所述下文语境信息,得到文本段语义信息包括:对所述上文语境信息和所述歧义词信息进行均值计算,得到第一语义信息;对所述下文语境信息和所述歧义词信息进行均值计算,得到第二语义信息;将所述第一语义信息和所述第二语义信息作为所述文本段语义信息。4.如权利要求1所述的基于上下文语义的词义消歧方法,其特征在于,所述预训练的分类器中配置有定义信息库,所述定义信息库包括歧义词信息的至少一个定义,所述将所述文本段语义信息输入到预训练的分类器中进行训练,确定所述歧义词信息在当前语境中的定义包括:将所述文本段语义信息输入到所述预训练的分类器中进行概率预测,得到歧义词信息对应的概率值信息;根据所述概率值信息,确定所述歧义词信息在当前语境中的定义。5.如权利要求4所述的基于上下文语义的词义消歧方法,其特征在于,所述根据所述概率值信息,确定所述歧义词信息在当前语境中的定义包括:所述概率值信息为歧义词信息对应的每个定义的概率分值;根据每个所述定义的概率分值,确定...

【专利技术属性】
技术研发人员:张剑陈雅珍
申请(专利权)人:东莞理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1