表示学习方法及相关设备技术

技术编号:34801908 阅读:32 留言:0更新日期:2022-09-03 20:08
本申请实施例公开人工智能领域中的一种表示学习方法及相关设备,该方法包括获取待学习数据的数据集,数据集包括至少一个子集合,子集合包括K种尺度的数据片段,在子集合中,第i种尺度数据片段为第i+1种尺度数据片段的一部分。数据集输入至编码器,基于编码器的参数,对数据片段进行特征提取,得到各种尺度数据片段对应的表示向量。将表示向量输入至交互模块,基于交互模块的参数,将子集合中尺度相邻的数据片段所对应的表示向量进行信息交互,分别得到各种尺度数据片段对应的融合后的表示向量。根据融合后的表示向量构建目标函数。优化目标函数,以调节编码器的参数和交互模块的参数,使得编码器和交互模块学习到待学习数据的高质量的表示向量。的高质量的表示向量。的高质量的表示向量。

【技术实现步骤摘要】
表示学习方法及相关设备


[0001]本专利技术涉及人工智能(Artificial Intelligence,AI)领域,特别涉及一种表示学习方法及相关设备。

技术介绍

[0002]人工智能需要大量的数据作为“思考”和“决策”的基础,例如大量的数据作为深度学习的“学习资料”,计算机可以从中找到规律。而我们所获得的数据,例如音频、视频、文本等都非常的复杂、冗长又多变,如何有效的提取出特征并且将其表达出来成为了一个重要挑战。
[0003]在机器学习中,表示学习(representation learning)是学习一个特征的技术的集合:将原始数据转换成为能够被机器学习来有效开发的一种形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征:学习如何学习。
[0004]然而,现有技术中表示学习所学习到的表示向量质量不高。例如对音乐进行表示学习场景下,通常对歌曲文件分割出相同时长的音频片段,然后对每一音频片段进行学习,得到音频片段的表示向量,随后聚合所有音频片段的表示向量,以得到关于整首歌曲表示向量,然而聚合方法受到高频特征影响,所得到整首歌曲表示向量不具有区分性。又或者,直接对整首歌曲进行学习,得到整首歌曲表示向量,然而该种方法所得到的表示向量缺少局部特征信息。

技术实现思路

[0005]本申请提供了一种表示学习方法及相关设备,通过将尺度不同且尺度相邻的数据片段所对应的表示向量进行信息交互,来挖掘出更深层次信息的潜力,使得第i种尺度数据片段的细粒度表示向量包括了第i+1种尺度的数据片段的粗粒度表示向量的信息,第i+1种尺度数据片段的粗粒度表示向量包括了第i种尺度的数据片段的细粒度表示向量的信息,进而可以得到高质量的表示向量。
[0006]第一方面,本申请实施提供一种表示学习方法,该方法可以应用于训练设备,该方法包括获取待学习数据的数据集,其中数据集包括至少一个子集合,子集合包括K种尺度的数据片段,K为大于或等于2的整数,在子集合中,第i种尺度的数据片段为第i+1种尺度的数据片段的一部分,i小于或等于K

1。将数据集输入至编码器,并基于编码器的参数,对数据片段进行特征提取,分别得到各种尺度的数据片段对应的表示向量。将表示向量输入至交互模块,并基于交互模块的参数,将子集合中尺度相邻的数据片段所对应的表示向量进行信息交互,分别得到各种尺度的数据片段对应的融合后的表示向量。根据融合后的表示向量构建目标函数。优化目标函数,以调节编码器的参数和交互模块的参数,使得编码器和交互模块学习待学习数据的表示向量。
[0007]需要说明的是,不限定第i种尺度和第i+1种尺度的顺序,可以理解,第i种尺度的数据片段为第i+1种尺度的数据片段的一部分,也即第i种尺度小于第i+1种尺度。在子集合
中,小尺度的数据片段为大尺度的数据片段的一部分。
[0008]其中,每种尺度的数据片段的数量为一个或多个,在子集合中尺度相邻的数据片段所对应的表示向量进行信息交互时,可以为进行交互的两种尺度所对应的所有的数据片段均进行交互,也可以为该两种所对应的数据片段中的部分数据片段进行信息交互。可以理解,有多少个数据片段进行信息交互,就分别对每个数据片段输出其对应的融合后的表示向量。
[0009]例如,第i种尺度的数据片段的数量为M个,第i+1种尺度的数据片段的数量为N个,在将第i种尺度和第i+1种尺度的数据片段进行信息交互时,可以将该M个数据片段均与该N个数据片段进行信息交互,则对该M个数据片段中每个数据片段输出其对应的融合后的表示向量,对该N个数据片段中每个数据片段输出其对应的融合后的表示向量;也可以将该M个数据片段中的部分数据片段(如为m个,m小于M)与该N个数据片段进行信息交互,则对该m个数据片段中每个数据片段输出其对应的融合后的表示向量,对该N个数据片段中每个数据片段输出其对应的融合后的表示向量;或将该M个数据片段与该N个数据片段中的部分数据片段(如为n个,n小于N)进行信息交互,则对该M个数据片段中每个数据片段输出其对应的融合后的表示向量,对该n个数据片段中每个数据片段输出其对应的融合后的表示向量。
[0010]在本申请实施例中,将同一子集合中,尺度不同且尺度相邻的数据片段所对应的表示向量进行信息交互,使得第i种尺度数据片段的表示向量包括第i+1种尺度数据片段的表示向量的信息,第i+1种尺度数据片段的表示向量包括第i种尺度数据片段的表示向量的信息,也即对于细粒度的表示向量(如第i种尺度数据片段的表示向量),其融合后的表示向量包括了粗粒度的表示向量(如第i+1种尺度数据片段的表示向量)的信息,而对于粗粒度的表示向量,其融合后的表示向量包括细粒度的表示向量的信息。再根据融合后的表示向量构建目标函数,通过该目标函数训练编码器和交互模块,使得编码器和交互模块可以挖掘出待学习数据中更深层次的信息,进而可以得到高质量的表示向量,也即所得到的表示向量包含尽可能多的、对后续任务有用的数据信息,使得其后续构建分类器或者其他预测任务时更容易提取有用信息的任务,提升了在下游任务(如分类)上的性能。且,对待学习数据可以学习其不同尺度数据频段所对应的表示向量,例如对于歌曲,可以学习出其整首歌曲的表示向量,也可以学习其音频片段的表示向量,由此可以针对不同任务提供不同粒度的表示向量。
[0011]可选地,该将表示向量输入至交互模块,并基于交互模块的参数,将子集合中尺度相邻的数据片段所对应的表示向量进行信息交互,分别得到各种尺度的数据片段对应的融合后的表示向量包括:将表示向量输入至交互模块。确定第n次要处理的尺度为第i种尺度和第i+1种尺度,将n的初始值赋为1,循环执行以下操作直至n=K

1,其中n=i,n为大于或等于1的整数;基于交互模块的参数,第n次将子集合中第i种尺度和第i+1种尺度的数据片段所对应的表示向量进行信息交互,分别得到各种尺度的数据片段对应的融合后的表示向量。
[0012]在本申请实施例中,基于同一子集合中尺度相邻的数据片段之间有信息上的重合和关联,使得表示向量在进行信息交互过程中更加匹配。进一步地,依据尺度由小到大的顺序确定各对表示向量进行信息交互的先后顺序,将子集合中最小的尺度以及倒数第二小的尺度先进行信息交互,随后将子集合中倒数第二小的尺度以及倒数第三小的尺度进行信息
交互,以此类推,依据尺度由小到大的顺序逐层地进行信息交互,可以保证信息在交互的过程是由细粒度逐渐融合至粗粒度,实现信息交互的层次化与精细化,进而提高表示向量的质量。
[0013]可选地,该当n为大于或等于2的整数时,第i种尺度的数据片段所对应的表示向量为第i种尺度的数据片段在第n

1次中进行信息交互后所得到的融合的表示向量。
[0014]在本申请实施例中,当n为大于或等于2的整数时,将学习到的融合表示向量继续用于下一次的学习表示,保证信息在交互的过程是由细粒度逐渐融合至粗粒度,实现信息交互的层次化与精细化,进而提高表示向量的质量。
...

【技术保护点】

【技术特征摘要】
1.一种表示学习方法,其特征在于,所述方法包括:获取待学习数据的数据集,其中所述数据集包括至少一个子集合,所述子集合包括K种尺度的数据片段,K为大于或等于2的整数,在所述子集合中,第i种尺度的数据片段为第i+1种尺度的数据片段的一部分,i小于或等于K

1;每种尺度的数据片段的数量为一个或多个;将所述数据集输入至编码器,并基于所述编码器的参数,对所述数据片段进行特征提取,分别得到各种尺度的数据片段对应的表示向量;将所述表示向量输入至交互模块,并基于所述交互模块的参数,将所述子集合中尺度相邻的数据片段所对应的表示向量进行信息交互,分别得到各种尺度的数据片段对应的融合后的表示向量;根据所述融合后的表示向量构建目标函数;优化所述目标函数,以调节所述编码器的参数和所述交互模块的参数,使得所述编码器和所述交互模块学习所述待学习数据的表示向量。2.如权利要求1所述方法,其特征在于,所述将所述表示向量输入至交互模块,并基于所述交互模块的参数,将所述子集合中尺度相邻的数据片段所对应的表示向量进行信息交互,分别得到各种尺度的数据片段对应的融合后的表示向量包括:将所述表示向量输入至交互模块;确定第n次要处理的尺度为第i种尺度和第i+1种尺度,将n的初始值赋为1,循环执行以下操作直至n=K

1,其中n=i,n为大于或等于1的整数;基于所述交互模块的参数,第n次将所述子集合中所述第i种尺度和所述第i+1种尺度的数据片段所对应的表示向量进行信息交互,分别得到各种尺度的数据片段对应的融合后的表示向量。3.如权利要求2所述方法,其特征在于,当n为大于或等于2的整数时,所述第i种尺度的数据片段所对应的表示向量为所述第i种尺度的数据片段在第n

1次中进行信息交互后所得到的所述融合的表示向量。4.如权利要求2或3所述方法,其特征在于,所述基于所述交互模块的参数,第n次将所述子集合中所述第i种尺度和所述第i+1种尺度的数据片段所对应的表示向量进行信息交互,分别得到各种尺度的数据片段对应的融合后的表示向量包括:将所述第i种尺度的数据片段所对应的表示向量作为第一表示向量,所述第i+1种尺度的数据片段所对应的表示向量作为第二表示向量;基于所述交互模块的参数,将所述第一表示向量映射成第一询问向量,将所述第二表示向量分别映射成第一键值向量和第一价值向量;通过注意力机制计算所述第一询问向量与所述第一键值向量的注意力分数,得到第一注意力分数;根据所述第一价值向量、所述第一注意力分数和所述第一表示向量得到所述第i种尺度的数据片段对应的融合的表示向量;基于所述交互模块的参数,将所述第二表示向量映射成第二询问向量,将所述第i种尺度的数据片段对应的融合的表示向量分别映射成第二键值向量和第二价值向量;通过所述注意力机制计算所述第二询问向量与所述第二键值向量的注意力分数,得到第二注意力分数;
根据所述第二价值向量、所述第二注意力分数和所述第二表示向量得到所述第i+1种尺度的数据片段对应的融合的表示向量。5.如权利要求1至4任一项所述方法,其特征在于,所述获取待学习数据的数据集包括:获取待学习数据和预设的尺度种类数量;对所述待学习数据进行分割,得到数据片段;对尺度最小的所述数据片段进行分割,直至所述子集合中的尺度种类数量达到所述预设的尺度种类数量。6.如权利要求1至5任一项所述方法,其特征在于,所述根据所述融合后的表示向量构建目标函数包括:获取其他待学习数据的整体表示向量,其中所述其他待学习数据与所述待学习数据为同一批次,所述整体表示向量为所述其他待学习数据中尺度最大的数据片段所对应的表示向量;计算每一所述融合后的表示向量与所述整体表示向量的相似度;针对每一种所述尺度,筛选出最低相似度所对应的所述融合后的表示向量;根据筛选出的所述融合后的表示向量构建目标函数。7.如权利要求6所述方法,其特征在于,所述根据筛选出的所述融合后的表示向量构建目标函数包括:将筛选出的所述融合后的表示向量映射为正样本;将同一批次的其他待学习数据对应的所述整体表示向量映射为负样本;基于对比学习,将所述正样本与所述负样本作为目标函数的子元素,构建目标函数。8.如权利要求7所述方法,其特征在于,所述优化所述目标函数,以调节所述编码器的参数和所述交互模块的参数,使得所述编码器和所述交互模块学习所述待学习数据的表示向量包括:将尺度相邻的两种尺度所对应的正样本作为正样本对;通过所述目标函数计算最大尺度所对应的所述正样本与所述负样本之间的第一相似度以及所述正样本对的第二相似度;根据所述第一相似度和所述第二相似度对所述目标函数进行优化,以更新所述编码器的参数和所述交互模块的参数。9.如权利要求1至8任一项所述方法,其特征在于,所述待学习数据为音频数据、文本数据或视频数据。10.一种表示学习方法,其特征在于,所述方法包括:获取待学习数据的数据集,其中所述数据集包括至少一个子集合,所述子集合包括K种尺度的数据片段,K为大于或等于2的整数,在所述子集合中,第i种尺度的数据片段为第i+1种尺度的数据片段的一部分,i小于或等于K

1;每种尺度的数据片段的数量为一个或多个;将所述数据集输入至训练好的编码器,并基于所述编码器的参数,对所述数据片段进行特征提取,分别得到各种尺度的数据片段对应的表示向量;将所述表示向量输入至训练好的交互模块,并基于所述交互模块的参数,将所述子集合中尺度相邻的数据片段所对应的表示向量进行信息交互,分别得到各种尺度的数据片段对应的融合后的表示向量,以完成对所述待学习数据的表示向量的学习。
11.如权利要求10所述方法,其特征在于,所述将所述表示向量输入至训练好的交互模块,并基于所述交互模块的参数,将所述子集合中尺度相邻的数据片段所对应的表示向量进行信息交互,分别得到各种尺度的数据片段对应的融合后的表示向量包括:将所述表示向量输入至训练好的交互模块;确定第n次要处理的尺度为第i种尺度和第i+1种尺度,将n的初始值赋为1,循环执行以下操作直至n=K

1,其中n=i,n为大于或等于1的整数;基于所述训练好的交互模块的参数,第n次将所述子集合中所述第i种尺度和所述第i+1种尺度的数据片段所对应的表示向量进行信息交互,分别得到各种尺度的数据片段对应的融合后的表示向量。12.如权利要求11所述方法,其特征在于,当n为大于或等于2的整数时,所述第i种尺度的数据片段所对应的表示向量为所述第i种尺度的数据片段在第n

1次中进行信息交互后所得到的所述融合的表示向量。13.如权利要求11或12所述方法,其特征在于,所述基于所述训练好的交互模块的参数,第n次将所述子集合中所述第i种尺度和所述第i+1种尺度的数据片段所对应的表示向量进行信息交互,分别得到各种尺度的数据片段对应的融合后的表示向量包括:将所述第i种尺度的数据片段所对应的表示向量作为第一表示向量,所述第i+1种尺度的数据片段所对应的表示向量作为第二表示向量;基于所述训练好的交互模块的参数,将所述第一表示向量映射成第一询问向量,将所述第二表示向量分别映射成第一键值向量和第一价值向量;通过注意力机制计算所述第一询问向量与所述第一键值向量的注意力分数,得到第一注意力分数;根据所述第一价值向量、所述第一注意力分数和所述第一表示向量得到所述第i种尺度的数据片段对应的融合的表示向量;基于所述训练好的交互模块的参数,将所述第二表示向量映射成第二询问向量,将所述第i种尺度的数据片段对应的融合的表示向量分别映射成第二键值向量和第二价值向量;通过所述注意力机制计算所述第二询问向量与所述第二键值向量的注意力分数,得到第二注意力分数;根据所述第二价值向量、所述第二注意力分数和所述第二表示向量得到所述第i+1种尺度的数据片段对应的融合的表示向量。14.如权利要求10至13任一项所述方法,其特征在于,所述获取待学习数据的数据集包括:获取待学习数据和预设的尺度种类数量;对所述待学习数据进行分割,得到数据片段;对尺度最小的所述数据片段进行分割,直至所述子集合中的尺度种类数量达到所述预设的尺度种类数量。15.一种训练设备,其特征在于,所述训练设备包括:获取模块,用于获取待学习数据的数...

【专利技术属性】
技术研发人员:朱杰明邓利群赵洲姚东董振华
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1