基于领域知识图谱的数据增强方法、装置、设备及介质制造方法及图纸

技术编号:33467202 阅读:15 留言:0更新日期:2022-05-19 00:45
本申请涉及知识图谱技术领域,本申请提供了一种基于领域知识图谱的数据增强方法、装置、电子设备及存储介质,方法包括将待增强的文本数据中的词汇划分为图谱词汇和非图谱词汇;对于非图谱词汇采用传统的EDA方法进行数据增强;对于图谱词汇,从所述领域知识图谱中选取替换用图谱词汇,使用所述替换用图谱词汇替换所述待替换图谱词汇,得到替换后的图谱词汇。如此,能有效减少样本文本增强时出现的信息丢失、语义丢失等问题,保证了增强后样本文本的有效性。在使用通过本申请的数据增强方法得到的增强文本数据进行训练,可以充分利用预先学习的知识,在样本数量较少的情况下也可以做到比较好的训练效果,提高机器学习的效率。提高机器学习的效率。提高机器学习的效率。

【技术实现步骤摘要】
基于领域知识图谱的数据增强方法、装置、设备及介质


[0001]本申请涉及知识图谱
,尤其涉及一种基于领域知识图谱的数据增强方法、装置、电子设备及存储介质。

技术介绍

[0002]自然语言处理要求机器对人类语言进行理解和分析。有效理解人类语言和意图是其下游产业的基础。例如在保险行业,存在许多需要理解人类语言的场景,如分类业务员与客户之间对话的意图。这类任务中,往往存在训练机器使用的样本少、质量差等问题,影响机器的学习效果。数据增强即基于现有样本,通过特定算法对样本数据进行拓展的方法,可以有效解决上述机器学习中存在的问题。但是目前主流的数据增强方法存在以下问题:目前主流的数据增强系统多是使用EDA数据增强方法对数据集进行增强,例如随机对文本进行替换、重复、添加和删除。此类方法的数据增强效果有限,不仅没有针对分类问题进行优化,许多EDA方法增强还存在产生的样本质量低等问题,常常严重影响模型的准确性。尤其是重复、替换等EDA方法,直接通过随机选取的方式进行文本编辑,很容易导致删减、改动文本中的重要信息,打乱、干扰文本的叙述语义逻辑等问题,进而使得采用此类增强文本进行模型训练时存在训练效果差、效率低等问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种基于领域知识图谱的数据增强方法、装置、电子设备及存储介质,旨在提高文本数据增强的语义准确性。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种基于领域知识图谱的数据增强方法,所述方法包括:
[0005]将待增强的文本数据进行分词,得到多个词汇;
[0006]将所述多个词汇划分为图谱词汇和非图谱词汇,其中,所述图谱词汇表征存在于预设的领域知识图谱中的词汇,所述非图谱词汇表征不存在于预设的领域知识图谱中的词汇;
[0007]对各个所述图谱词汇进行第一增强处理,其中,所述第一增强处理包括替换处理,所述替换处理包括:将满足第一预设被替换条件的所述图谱词汇作为待替换图谱词汇,将未满足第一预设被替换条件的所述图谱词汇作为保留的图谱词汇;对于所述待替换图谱词汇,从所述领域知识图谱中选取替换用图谱词汇,使用所述替换用图谱词汇替换所述待替换图谱词汇,得到替换后的图谱词汇;
[0008]对各个所述非图谱词汇进行第二增强处理,所述第二增强处理包括:采用EDA算法对所述非图谱词汇进行数据增强;
[0009]基于所述第一增强处理和所述第二增强处理得到增强文本数据。
[0010]根据本专利技术一些实施例提供的数据增强方法,所述第一预设被替换条件为所述图谱词汇的相似概率大于预设概率阈值;所述图谱词汇的数量为N个,N为正整数;
[0011]所述图谱词汇的相似概率通过如下方法获得:
[0012]基于N个所述图谱词汇和M个预设标签文本,构建N*M的第一相似度矩阵,所述第一相似度矩阵中的元素V
ij
表征第i个图谱词汇与第j个预设标签文本的相似度值,i为1至N之中的任意一个正整数,j为1至M之中的任意一个正整数;
[0013]采用第一归一化指数函数对所述第一相似度矩阵中的元素进行处理,得到各个所述图谱词汇的相似概率。
[0014]根据本专利技术一些实施例提供的数据增强方法,所述采用第一归一化指数函数对所述第一相似度矩阵中的元素进行处理,得到各个所述图谱词汇的相似概率,包括:
[0015]针对所述第一相似度矩阵中的每个元素,分别采用第一归一化指数函数计算所述元素对应的第一归一化值;
[0016]针对每个所述图谱词汇,获取与所述图谱词汇对应的元素的第一归一化值,在去除最大的第一归一化值之后,基于剩余的第一归一化值确定第二归一化值,并将所述第二归一化值作为所述图谱词汇的指数参数;
[0017]采用第一归一化指数函数对所述N个图谱词汇的指数参数进行处理,得到每个所述图谱词汇对应的相似概率。
[0018]根据本专利技术一些实施例提供的数据增强方法,所述从所述领域知识图谱中选取替换用图谱词汇,包括:
[0019]从所述领域知识图谱中确定与所述待替换图谱词汇对应的目标上级实体;
[0020]从目标上级实体的下级词汇中随机选取出所述替换用图谱词汇。
[0021]根据本专利技术一些实施例提供的数据增强方法,所述增强文本数据包括扩充数据;所述第一增强处理还包括数据扩充处理,所述数据扩充处理包括:
[0022]获取待扩充图谱词汇,所述待扩充图谱词汇包括所述保留的图谱词汇和所述替换后的图谱词汇;
[0023]针对每个所述待扩充图谱词汇,从所述领域知识图谱中确定与所述待扩充图谱词汇对应的关系元组;
[0024]将各个所述待扩充图谱词汇对应的关系元组作为扩充数据。
[0025]根据本专利技术一些实施例提供的数据增强方法,所述非图谱词汇的数量为K个,K为正整数;所述采用EDA算法对所述非图谱词汇进行数据增强,包括:
[0026]基于K个所述非图谱词汇和M个预设标签文本,构建K*M的第二相似度矩阵,所述第二相似度矩阵中的元素W
pj
表征第p个非图谱词汇与第j个预设标签文本的相似度值,p为1至K之中的任意一个正整数,j为1至M之中的任意一个正整数;
[0027]采用第二归一化指数函数对所述第二相似度矩阵中的元素进行处理,得到各个所述非图谱词汇的相似概率;
[0028]采用EDA算法对满足第二预设被替换条件的所述非图谱词汇进行数据增强,其中,所述第二预设被替换条件为所述非图谱词汇的相似概率小于等于预设概率阈值。
[0029]根据本专利技术一些实施例提供的数据增强方法,所述采用第二归一化指数函数对所述第二相似度矩阵中的元素进行处理,得到各个所述非图谱词汇的相似概率,包括:
[0030]针对每个所述非图谱词汇,获取与所述非图谱词汇对应的元素的平均值,采用第二归一化指数函数对所述平均值进行处理,得到所述非图谱词汇的相似概率。
[0031]为实现上述目的,本申请实施例的第二方面提出了一种基于领域知识图谱的数据增强装置,包括:
[0032]分词模块,用于将待增强的文本数据进行分词,得到多个词汇;
[0033]划分模块,用于将所述多个词汇划分为图谱词汇和非图谱词汇,其中,所述图谱词汇表征存在于预设的领域知识图谱中的词汇,所述非图谱词汇表征不存在于预设的领域知识图谱中的词汇;
[0034]第一增强处理模块,用于对各个所述图谱词汇进行第一增强处理,其中,所述第一增强处理包括替换处理,所述替换处理包括:将满足第一预设被替换条件的所述图谱词汇作为待替换图谱词汇,将未满足第一预设被替换条件的所述图谱词汇作为保留的图谱词汇;对于所述待替换图谱词汇,从所述领域知识图谱中选取替换用图谱词汇,使用所述替换用图谱词汇替换所述待替换图谱词汇,得到替换后的图谱词汇;
[0035]第二增强处理模块,用于对各个所述非图谱词汇进行第二增强处理,所述第二增强处理包括:采用EDA算法对所述非图谱词汇进行数据增强;...

【技术保护点】

【技术特征摘要】
1.一种基于领域知识图谱的数据增强方法,其特征在于,所述方法包括:将待增强的文本数据进行分词,得到多个词汇;将所述多个词汇划分为图谱词汇和非图谱词汇,其中,所述图谱词汇表征存在于预设的领域知识图谱中的词汇,所述非图谱词汇表征不存在于预设的领域知识图谱中的词汇;对各个所述图谱词汇进行第一增强处理,其中,所述第一增强处理包括替换处理,所述替换处理包括:将满足第一预设被替换条件的所述图谱词汇作为待替换图谱词汇,将未满足第一预设被替换条件的所述图谱词汇作为保留的图谱词汇;对于所述待替换图谱词汇,从所述领域知识图谱中选取替换用图谱词汇,使用所述替换用图谱词汇替换所述待替换图谱词汇,得到替换后的图谱词汇;对各个所述非图谱词汇进行第二增强处理,所述第二增强处理包括:采用EDA算法对所述非图谱词汇进行数据增强;基于所述第一增强处理和所述第二增强处理得到增强文本数据。2.根据权利要求1所述的方法,其特征在于,所述第一预设被替换条件为所述图谱词汇的相似概率大于预设概率阈值;所述图谱词汇的数量为N个,N为正整数;所述图谱词汇的相似概率通过如下方法获得:基于N个所述图谱词汇和M个预设标签文本,构建N*M的第一相似度矩阵,所述第一相似度矩阵中的元素V
ij
表征第i个图谱词汇与第j个预设标签文本的相似度值,i为1至N之中的任意一个正整数,j为1至M之中的任意一个正整数;采用第一归一化指数函数对所述第一相似度矩阵中的元素进行处理,得到各个所述图谱词汇的相似概率。3.根据权利要求2所述的方法,其特征在于,所述采用第一归一化指数函数对所述第一相似度矩阵中的元素进行处理,得到各个所述图谱词汇的相似概率,包括:针对所述第一相似度矩阵中的每个元素,分别采用第一归一化指数函数计算所述元素对应的第一归一化值;针对每个所述图谱词汇,获取与所述图谱词汇对应的元素的第一归一化值,在去除最大的第一归一化值之后,基于剩余的第一归一化值确定第二归一化值,并将所述第二归一化值作为所述图谱词汇的指数参数;采用第一归一化指数函数对所述N个图谱词汇的指数参数进行处理,得到每个所述图谱词汇对应的相似概率。4.根据权利要求1所述的方法,其特征在于,所述从所述领域知识图谱中选取替换用图谱词汇,包括:从所述领域知识图谱中确定与所述待替换图谱词汇对应的目标上级实体;从目标上级实体的下级词汇中随机选取出所述替换用图谱词汇。5.根据权利要求1所述的方法,其特征在于,所述增强文本数据包括扩充数据;所述第一增强处理还包括数据扩充处理,所述数据扩充处理包括:获取待扩充图谱词汇,所述待扩充图谱词汇包括所述保留的图谱词汇和所述替换后的图谱词汇;针对每个所述待扩充图谱词汇,从所述领域知识图谱中确定与所述待扩充图谱词汇对应的关系...

【专利技术属性】
技术研发人员:胡天瑞侯晓龙江炼鑫
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1