数据处理方法、电子设备及计算机可读介质技术

技术编号：26067129 阅读：16 留言：0更新日期：2020-10-28 16:40

本申请公开了一种数据处理方法、电子设备及计算机可读介质。数据处理方法包括：获取待处理数据的第一特征数据以及来源标识；根据来源标识确定自编码器中与其对应的第一不共享隐含单元，自编码器包括多个参数不共享的第一不共享隐含单元；将第一特征数据输入到确定的第一不共享隐含单元中进行噪声消除，并输出满足设定标准的第二特征数据；将第二特征数据输入自编码器的第一共享隐含单元中，通过第一共享隐含单元将第二特征数据映射到设定特征空间，并输出映射数据；将映射数据输入到自编码器的共享特征层，并输出通过共享特征层提取出的共性特征数据。该数据处理方法可以消除数据中噪声数据。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、电子设备及计算机可读介质
本申请涉及计算机
，尤其涉及一种数据处理方法、电子设备及计算机可读介质。
技术介绍
随着科技的发展和进步，机器学习越来越受到人们的重视，机器学习的发展也越来越迅速。在机器学习过程中，训练样本的好坏是影响机器学习模型性能至关重要的因素。在有些场景中，作为训练样本的数据可能是相同类型但来源不同的异源数据。异源数据是指由于采集设备和/或采集环境不同导致其中包含的噪声数据不同，因此会导致训练出的机器学习模型受不同噪声数据的影响使性能下降。以语音数据为例，在录制语音数据时，会因硬件设施等录音设备的不同使录制的语音数据存在一定的差异，即异源语音数据，而且也会受到不同环境和噪声的干扰。这种异源数据会给机器学习模型提取某些共性特征带来干扰，进而影响到机器学习模型的训练，造成性能的下降。对于该问题，传统的处理方法是尽可能多地收集异源数据用来训练机器学习模型，并使训练样本覆盖更多的来源，增大训练数据量，提高机器学习模型的鲁棒性。然而，这种处理方法会不可避免地带来总体性能的下降，且收集大量训练样本成本很大，收集难度也会增加。
技术实现思路
本申请的目的在于提出一种数据处理方法、电子设备及计算机可读介质，用于解决上述的部分或全部问题。第一方面，本申请实施例提供一种数据处理方法，所述方法包括：获取待处理数据的第一特征数据和来源标识；根据所述来源标识，确定自编码器中与其对应的第一不共享隐含单元，所述自编码器包括多个参数不共享的第一不共享隐含单元；将所述第一...

【技术保护点】
1.一种数据处理方法，其特征在于，所述方法包括：/n获取待处理数据的第一特征数据和来源标识；/n根据所述来源标识，确定自编码器中与其对应的第一不共享隐含单元，所述自编码器包括多个参数不共享的第一不共享隐含单元；/n将所述第一特征数据输入到确定的所述第一不共享隐含单元中进行噪声消除，并输出满足设定标准的第二特征数据；/n将所述第二特征数据输入所述自编码器的第一共享隐含单元中，通过所述第一共享隐含单元将所述第二特征数据映射到设定特征空间，并输出映射数据；/n将所述映射数据输入到所述自编码器的共享特征层，并输出通过所述共享特征层提取出的所述第一特征数据中的共性特征数据。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：
获取待处理数据的第一特征数据和来源标识；
根据所述来源标识，确定自编码器中与其对应的第一不共享隐含单元，所述自编码器包括多个参数不共享的第一不共享隐含单元；
将所述第一特征数据输入到确定的所述第一不共享隐含单元中进行噪声消除，并输出满足设定标准的第二特征数据；
将所述第二特征数据输入所述自编码器的第一共享隐含单元中，通过所述第一共享隐含单元将所述第二特征数据映射到设定特征空间，并输出映射数据；
将所述映射数据输入到所述自编码器的共享特征层，并输出通过所述共享特征层提取出的所述第一特征数据中的共性特征数据。

2.根据权利要求1所述的方法，其特征在于，所述输出满足设定标准的第二特征数据，包括：
输出满足第一设定维度的第二特征数据，其中，所述第一设定维度与所述第一共享隐含单元首层第一共享隐含层的特征维度相同。

3.根据权利要求1所述的方法，其特征在于，所述将所述第二特征数据输入所述自编码器的第一共享隐含单元中，通过所述第一共享隐含单元将所述第二特征数据映射到设定特征空间，并输出映射数据，包括：
将所述第二特征数据输入到所述第一共享隐含单元中，所述第一共享隐含单元对所述多个第一不共享隐含单元的输出共享；
通过所述第一共享隐含单元中各第一共享隐含层的权重矩阵和偏置向量将所述第二特征数据映射到所述设定特征空间，并输出所述映射数据。

4.根据权利要求3所述的方法，其特征在于，所述将所述映射数据输入到所述自编码器的共享特征层，并输出通过所述共享特征层提取出的所述特征数据中的共性特征数据，包括：
将所述映射数据输入到所述自编码器的共享特征层，由所述共享特征层根据所述映射数据、所述共享特征层的权重矩阵和偏置向量计算获得所述特征数据中的共性特征数据。

5.根据权利要求1所述的方法，其特征在于，所述自编码器包括编码器、共享特征层和解码器，所述编码器包括所述第一共享隐含单元和所述多个第一不共享隐含单元，所述解码器包括第二共享隐含单元和多个第二不共享隐含单元，所述第二共享隐含单元与所述第一共享隐含单元关于所述共享特征层对称，各所述第二不共享隐含单元与对应的所述第一...

【专利技术属性】
技术研发人员：杨嵩，黄健，杨非，刘子韬，黄琰，
申请(专利权)人：北京新唐思创教育科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人