数据处理方法、电子设备及计算机可读介质技术

技术编号:26067129 阅读:16 留言:0更新日期:2020-10-28 16:40
本申请公开了一种数据处理方法、电子设备及计算机可读介质。数据处理方法包括:获取待处理数据的第一特征数据以及来源标识;根据来源标识确定自编码器中与其对应的第一不共享隐含单元,自编码器包括多个参数不共享的第一不共享隐含单元;将第一特征数据输入到确定的第一不共享隐含单元中进行噪声消除,并输出满足设定标准的第二特征数据;将第二特征数据输入自编码器的第一共享隐含单元中,通过第一共享隐含单元将第二特征数据映射到设定特征空间,并输出映射数据;将映射数据输入到自编码器的共享特征层,并输出通过共享特征层提取出的共性特征数据。该数据处理方法可以消除数据中噪声数据。

【技术实现步骤摘要】
数据处理方法、电子设备及计算机可读介质
本申请涉及计算机
,尤其涉及一种数据处理方法、电子设备及计算机可读介质。
技术介绍
随着科技的发展和进步,机器学习越来越受到人们的重视,机器学习的发展也越来越迅速。在机器学习过程中,训练样本的好坏是影响机器学习模型性能至关重要的因素。在有些场景中,作为训练样本的数据可能是相同类型但来源不同的异源数据。异源数据是指由于采集设备和/或采集环境不同导致其中包含的噪声数据不同,因此会导致训练出的机器学习模型受不同噪声数据的影响使性能下降。以语音数据为例,在录制语音数据时,会因硬件设施等录音设备的不同使录制的语音数据存在一定的差异,即异源语音数据,而且也会受到不同环境和噪声的干扰。这种异源数据会给机器学习模型提取某些共性特征带来干扰,进而影响到机器学习模型的训练,造成性能的下降。对于该问题,传统的处理方法是尽可能多地收集异源数据用来训练机器学习模型,并使训练样本覆盖更多的来源,增大训练数据量,提高机器学习模型的鲁棒性。然而,这种处理方法会不可避免地带来总体性能的下降,且收集大量训练样本成本很大,收集难度也会增加。
技术实现思路
本申请的目的在于提出一种数据处理方法、电子设备及计算机可读介质,用于解决上述的部分或全部问题。第一方面,本申请实施例提供一种数据处理方法,所述方法包括:获取待处理数据的第一特征数据和来源标识;根据所述来源标识,确定自编码器中与其对应的第一不共享隐含单元,所述自编码器包括多个参数不共享的第一不共享隐含单元;将所述第一特征数据输入到确定的所述第一不共享隐含单元中进行噪声消除,并输出满足设定标准的第二特征数据;将所述第二特征数据输入所述自编码器的第一共享隐含单元中,通过所述第一共享隐含单元将所述第二特征数据映射到设定特征空间,并输出映射数据;将所述映射数据输入到所述自编码器的共享特征层,并输出通过所述共享特征层提取出的所述第一特征数据中的共性特征数据。可选地,在本申请的任一实施例中,所述输出满足设定标准的第二特征数据,包括:输出满足第一设定维度的第二特征数据,其中,所述第一设定维度与所述第一共享隐含单元首层第一共享隐含层的特征维度相同。可选地,在本申请的任一实施例中,所述将所述第二特征数据输入所述自编码器的第一共享隐含单元中,通过所述第一共享隐含单元将所述第二特征数据映射到设定特征空间,并输出映射数据,包括:将所述第二特征数据输入到所述第一共享隐含单元中,所述第一共享隐含单元对所述多个第一不共享隐含单元的输出共享;通过所述第一共享隐含单元中各第一共享隐含层的权重矩阵和偏置向量将所述第二特征数据映射到所述设定特征空间,并输出所述映射数据。可选地,在本申请的任一实施例中,所述将所述映射数据输入到所述自编码器的共享特征层,并输出通过所述共享特征层提取出的所述特征数据中的共性特征数据,包括:将所述映射数据输入到所述自编码器的共享特征层,由所述共享特征层根据所述映射数据、所述共享特征层的权重矩阵和偏置向量计算获得所述特征数据中的共性特征数据。可选地,在本申请的任一实施例中,所述自编码器包括编码器、共享特征层和解码器,所述编码器包括所述第一共享隐含单元和所述多个第一不共享隐含单元,所述解码器包括第二共享隐含单元和多个第二不共享隐含单元,所述第二共享隐含单元与所述第一共享隐含单元关于所述共享特征层对称,各所述第二不共享隐含单元与对应的所述第一不共享隐含单元关于所述共享特征层对称;在所述获取待处理数据的第一特征数据以及所述第一特征数据对应的来源标识之前,所述方法还包括:使用从多个数据来源获取的训练样本训练所述自编码器。可选地,在本申请的任一实施例中,在所述使用从多个数据来源获取的训练样本训练所述自编码器,之前,所述方法还包括:根据所有训练样本中各数据来源对应的训练样本数量,设置各所述数据来源对应的所述第一不共享隐含单元的维度,以使任意两个数据来源对应的训练样本中,数量多的训练样本对应的第一不共享隐含单元的维度大于数量少的训练样本对应的第一不共享隐含单元的维度。可选地,在本申请的任一实施例中,所述使用从多个数据来源获取的训练样本训练所述自编码器,包括:获取训练样本的第一特征数据及对应的来源标识,并将所述第一特征数据输入到所述编码器中与所述来源标识对应的第一不共享隐含单元中;根据所述来源标识,通过所述编码器的第一不共享隐含单元和第一共享隐含单元,以及,所述共享特征层对所述第一特征数据进行处理,获得所述第一特征数据对应的共性特征数据;将所述共性特征数据输入所述解码器,并获取所述解码器输出的重构数据;根据所述重构数据对所述编码器中参数进行迭代训练,直至满足训练终止条件。可选地,在本申请的任一实施例中,所述根据所述重构数据对所述编码器中参数进行迭代训练,直至满足训练终止条件,包括:根据预设的损失函数、所述训练样本的第一特征数据和所述重构数据计算损失值,并根据所述损失值调整与所述来源标识对应的第一不共享隐含单元的参数和所述第一共享隐含单元的参数;返回获取训练样本的第一特征数据及对应的来源标识的步骤继续执行,直至满足训练终止条件。第二方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面中所述的方法。第三方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面中所述的方法。本申请提供的数据处理方法、电子设备及计算机可读介质,采用自编码器对各种不同数据来源的待处理数据进行处理,去除各待处理数据中的噪声数据,并从中提取出共性特征数据,用作后续其他神经网络模型的训练样本,解决现有技术中神经网络模型采用不同数据来源的训练样本直接进行训练,导致训练出的神经网络模型性能不好的问题。针对某个数据来源的待处理数据,使用与其数据来源对应的第一不共享隐含单元对其进行噪声消除,确保噪声消除效果,并输出第二特征数据;通过共享隐含单元对第二特征数据进行处理,将其映射到设定特征空间,并通过共享特征层提取出其中的共性特征数据。这样,不管数据来源于哪里,来源是否相同,都可以方便准确地提取出其中的共性特征数据,以作为后续其他神经网络模型的训练样本,从而解决了现有技术中异源数据对应的训练样本收集成本高、训练出的神经网络模型性能不好的问题。附图说明为了更清楚地说明本申请或现有技术中的技术方案,下面将实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本申请实施例一中数据处理方法流程示意图。图2为本申请实施例二中自编码器的结构示意图。图3为本申请实施例二中数据处理方法流程示意图。图4为本申请实施例三中数据处理装置的结构框图。图5为本申请实施例四中数据处理装置的结构框图。图6为本申请本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n获取待处理数据的第一特征数据和来源标识;/n根据所述来源标识,确定自编码器中与其对应的第一不共享隐含单元,所述自编码器包括多个参数不共享的第一不共享隐含单元;/n将所述第一特征数据输入到确定的所述第一不共享隐含单元中进行噪声消除,并输出满足设定标准的第二特征数据;/n将所述第二特征数据输入所述自编码器的第一共享隐含单元中,通过所述第一共享隐含单元将所述第二特征数据映射到设定特征空间,并输出映射数据;/n将所述映射数据输入到所述自编码器的共享特征层,并输出通过所述共享特征层提取出的所述第一特征数据中的共性特征数据。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理数据的第一特征数据和来源标识;
根据所述来源标识,确定自编码器中与其对应的第一不共享隐含单元,所述自编码器包括多个参数不共享的第一不共享隐含单元;
将所述第一特征数据输入到确定的所述第一不共享隐含单元中进行噪声消除,并输出满足设定标准的第二特征数据;
将所述第二特征数据输入所述自编码器的第一共享隐含单元中,通过所述第一共享隐含单元将所述第二特征数据映射到设定特征空间,并输出映射数据;
将所述映射数据输入到所述自编码器的共享特征层,并输出通过所述共享特征层提取出的所述第一特征数据中的共性特征数据。


2.根据权利要求1所述的方法,其特征在于,所述输出满足设定标准的第二特征数据,包括:
输出满足第一设定维度的第二特征数据,其中,所述第一设定维度与所述第一共享隐含单元首层第一共享隐含层的特征维度相同。


3.根据权利要求1所述的方法,其特征在于,所述将所述第二特征数据输入所述自编码器的第一共享隐含单元中,通过所述第一共享隐含单元将所述第二特征数据映射到设定特征空间,并输出映射数据,包括:
将所述第二特征数据输入到所述第一共享隐含单元中,所述第一共享隐含单元对所述多个第一不共享隐含单元的输出共享;
通过所述第一共享隐含单元中各第一共享隐含层的权重矩阵和偏置向量将所述第二特征数据映射到所述设定特征空间,并输出所述映射数据。


4.根据权利要求3所述的方法,其特征在于,所述将所述映射数据输入到所述自编码器的共享特征层,并输出通过所述共享特征层提取出的所述特征数据中的共性特征数据,包括:
将所述映射数据输入到所述自编码器的共享特征层,由所述共享特征层根据所述映射数据、所述共享特征层的权重矩阵和偏置向量计算获得所述特征数据中的共性特征数据。


5.根据权利要求1所述的方法,其特征在于,所述自编码器包括编码器、共享特征层和解码器,所述编码器包括所述第一共享隐含单元和所述多个第一不共享隐含单元,所述解码器包括第二共享隐含单元和多个第二不共享隐含单元,所述第二共享隐含单元与所述第一共享隐含单元关于所述共享特征层对称,各所述第二不共享隐含单元与对应的所述第一...

【专利技术属性】
技术研发人员:杨嵩黄健杨非刘子韬黄琰
申请(专利权)人:北京新唐思创教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1