当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于学习和推理的跨媒介数据降维方法技术

技术编号:37423583 阅读:16 留言:0更新日期:2023-04-30 09:45
本发明专利技术提出一种基于学习和推理的跨媒介数据降维方法,涉及深度学习及数据降维的技术领域,为解决当前数据降维的方式无法有效地处理含时序特征的数据以及多媒介数据降维的问题。采集多媒介数据并按媒介种类分类,将每一个媒介数据输入至该媒介数据对应的编码器中,提取该媒介数据的特征向量,特征向量为时间维度与特征向量维度相乘的向量,实现了时序特征的提取,使降维后的向量保留了时序特征。利用向量拼接后的再次降维,将媒介与媒介之间的特征向量做出有效的融合。利用解码器将中间向量升维成若干个与原媒介数据格式相同的矩阵,能很好地处理带有时序信息以及多媒介的数据,有效地去除噪声,保留关键特征与信息,方便下游任务的计算与可视化。任务的计算与可视化。任务的计算与可视化。

【技术实现步骤摘要】
一种基于学习和推理的跨媒介数据降维方法


[0001]本专利技术涉及深度学习及数据降维的
,更具体地,涉及一种基于学习和推理的跨媒介数据降维方法。

技术介绍

[0002]近年来,随着数据获取变得越来越便利,人们对高维数据的获取也变得简单,但海量的高维数据需要进行有效的处理才能用于实际。高维数据具有数据量大、不易计算、信息冗余、含有噪声信息、不直观等特点。为了将这些数据含有的信息有效地提取出来、摒弃冗余与噪声信息,需要一个有效的降维方法。
[0003]现有的数据降维方法大多数是利用数据固有的特性,给出一种通用的手段。如将数据看成矩阵,进行矩阵分解(即线性变换)。又如,从多维数据中能代表数据之间不相关性的方差入手,相关性越大的数据给出的信息越少,故降维之后仍然希望保留更大的方差。这些方法应用广泛而有效,但是对于某一类特殊数据,如包含时序信息的数据,又缺乏针对性,从而难以取得最好的效果。特别的,对于多媒介的数据,传统降维方法难以将媒介之间的数据结合起来得到有用的信息。
[0004]与此同时,基于神经网络的降维方法由于用某类特殊数据经过了专门设计的网络学习,故对这一类数据的适用性非常高。如现有技术中提出了一种基于深度学习的动力系统高维测量数据降维方法,首先采集数据,并对获得的数据构造深度自编码器的神经网络及目标函数,再将数据输入神经网络进行训练,最后,将解码器丢弃,只用编码器降维。这种基于深度学习的降维算法既可以应对线性数据也可以应对非线性数据,在训练好的前提下模型的运行速度也比较快,而且具有显式的降维函数,深度自编码器对数据进行降维后在分类任务中取得的效果全面优于线性降维,但对数据的分布不具备针对性,尤其是针对于某些特定的大型多媒介含时序特征的数据,无法进行有效的降维。此外,该方案是首先获得数据,再根据数据构造神经网络,整体不够灵活,速度慢。

技术实现思路

[0005]为解决当前数据降维的方式无法有效地处理含时序特征的数据以及多媒介数据降维的问题,本专利技术提出一种基于学习和推理的跨媒介数据降维方法,降维灵活,降维后的数据保留时序信息特征,效果好。
[0006]为了达到上述技术效果,本专利技术的技术方案如下:
[0007]一种基于学习和推理的跨媒介数据降维方法,其特征在于,所述方法包括以下步骤:
[0008]S1.获取多媒介数据集,并将多媒介数据集按媒介分类;
[0009]S2.将每一个媒介数据输入至该媒介数据对应的编码器中,提取该媒介数据的特征向量,特征向量为时间维度与特征向量维度相乘的向量;
[0010]S3.将所有编码器输出的若干个媒介的特征向量拼接成一个向量;
[0011]S4.对拼接成的向量再次进行降维,得到维度下降后的中间向量;
[0012]S5.利用解码器将中间向量升维成若干个与原媒介数据格式相同的矩阵,以重建原多媒介数据;
[0013]S6.构建损失函数,将升维后的矩阵数据与原多媒介数据代入损失函数计算损失,更新编码器

解码器参数数据,重复执行步骤S1~S5,直至损失函数收敛;
[0014]S7.损失函数收敛后,将S5中的解码器丢弃,保留S2~S4中提及的网络组成部分。
[0015]优选地,在步骤S1中,每隔一定时间,利用若干种媒介对研究主体数据的若干种属性进行采样,并将某一时刻对某种属性采样的结果拉直为一个向量,将多媒介数据集按媒介分类后,每一个媒介数据的格式是时间维度相同的矩阵,以方便训练。
[0016]优选地,在步骤S2中,编码器的数量与媒介数量相同,并且每一个编码器的结构都相同。
[0017]优选地,所述编码器采用长短期记忆递归神经网络LSTM或门控循环单元GRU。
[0018]优选地,编码器使用循环神经网络,在提取该媒介数据的特征向量时,按照时间顺序,依次得到某个时刻的特征向量,其中,每一个特征向量由当前输入值以及上一个时刻保留下来的隐藏层的值决定;过程满足:
[0019]S
t
=f(U
·
x
y
+W
·
S
t
‑1)
[0020]y
t
=g(V
·
S
t
)
[0021]其中,x
t
是当前时刻的媒介数据输入向量,S
t
与S
t
‑1分别代表当前时刻和上一时刻保留的隐藏层的值;U和W表示两个不同的权重矩阵,f和g分别是ReLU激活函数和softmax激活函数,y
t
是当前时刻输出的媒介数据的特征向量,y
t
的维度远小于x
t
的维度;将y1,y2,
……
,y
t
按时间顺序首尾相连,形成一个新的向量y,维度为所有y
t
向量维度之和。
[0022]在此,利用循环神经网络的时间序列分析能力,进行一系列矩阵线性变换运算和激活运算,使得得到的结果保留包括时序信息的特征,并且得到的向量非直接得到,而是按照时间顺序,依次得到某个时刻的特征向量。
[0023]优选地,在步骤S3中,设某一媒介输出的特征向量为q
m
,m指第m个媒介,将所有编码器输出的若干个媒介的特征向量q1,q2,

,q
m


,q
M
按时间顺序首尾相连拼接成一个向量,该向量的维度为输出的若干个媒介的特征向量q
m
维度之和。
[0024]优选地,在步骤S4中,利用深度神经网络DNN对拼接成的向量再次进行降维,深度神经网络DNN由一层输入层、两层隐藏层和一层输出层构成,后一层的神经元个数为前一层神经元个数的0.25倍,前一层的神经元与后一层的神经元使用全连接的形式,即前一层的每一个神经元与后一层的每一个神经元均会连接;设前一层所有神经元的输出分别为a1,a2,

,a
n
,则后一层的某一个神经元的输出得出方式为:
[0025]S41.通过前一层的输出和此神经元的权重参数,得到加权后的线性之和:
[0026][0027]S42.利用ReLU函数激活,得到输出:
[0028]z=ReLU(h)
[0029]其中,w
i
为上一层第i个神经元的权重参数,z为此神经元的输出。
[0030]优选地,在步骤S4中,调整拼接前的输出的若干个媒介的特征向量,使输出的若干个媒介的特征向量的维度相同,将维度相同的若干个媒介的特征向量拼接成一个矩阵,然后再使用卷积神经网络CNN降维。
[0031]在此,使用深度神经网络,利用前向后向传播思路,结合偏移向量和ReLU激活函数进行一系列线性计算和激活运算,使得数据再次有效地降维。
[0032]优选地,在步骤S5中,利用解码器将中间向量升维成若干个与原媒介数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于学习和推理的跨媒介数据降维方法,其特征在于,所述方法包括以下步骤:S1.获取多媒介数据集,并将多媒介数据集按媒介分类;S2.将每一个媒介数据输入至该媒介数据对应的编码器中,提取该媒介数据的特征向量,特征向量为时间维度与特征向量维度相乘的向量;S3.将所有编码器输出的若干个媒介的特征向量拼接成一个向量;S4.对拼接成的向量再次进行降维,得到维度下降后的中间向量;S5.利用解码器将中间向量升维成若干个与原媒介数据格式相同的矩阵,以重建原多媒介数据;S6.构建损失函数,将升维后的矩阵数据与原多媒介数据代入损失函数计算损失,更新编码器

解码器参数数据,重复执行步骤S1~S5,直至损失函数收敛;S7.损失函数收敛后,将S5中的解码器丢弃,保留S2~S4中提及的网络组成部分。2.根据权利要求1所述的基于学习和推理的跨媒介数据降维方法,其特征在于,在步骤S1中,每隔一定时间,利用若干种媒介对研究主体数据的若干种属性进行采样,并将某一时刻对某种属性采样的结果拉直为一个向量,将多媒介数据集按媒介分类后,每一个媒介数据的格式是时间维度相同的矩阵。3.根据权利要求1所述的基于学习和推理的跨媒介数据降维方法,其特征在于,在步骤S2中,编码器的数量与媒介数量相同,并且每一个编码器的结构都相同。4.根据权利要求3所述的基于学习和推理的跨媒介数据降维方法,其特征在于,所述编码器采用长短期记忆递归神经网络LSTM或门控循环单元GRU。5.根据权利要求3所述的基于学习和推理的跨媒介数据降维方法,其特征在于,编码器使用循环神经网络,在提取该媒介数据的特征向量时,按照时间顺序,依次得到某个时刻的特征向量,其中,每一个特征向量由当前输入值以及上一个时刻保留下来的隐藏层的值决定;过程满足:S
t
=(U
·
x
t
+
·
S
t
‑1)y
t
=(V
·
S
t
)其中,x
t
是当前时刻的媒介数据输入向量,S
t
与S
t
‑1分别代表当前时刻和上一时刻保留的隐藏层的值;U和W表示两个不同的权重矩阵,f和g分别是ReLU激活函数和softmax激活函数,y
t
是当前时刻输出的媒介数据的特征向量,y
t
的维度远小于x
t
的维度;将y1,y2,
……
,y
t
按时间顺序首尾相连,形成一个新的向量y,维度为所有y
t
向量维度之和。6.根据权利要求1所述的基于学...

【专利技术属性】
技术研发人员:周凡陈小燕林格
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1