数据处理方法、装置、系统、介质制造方法及图纸

技术编号：26732444 阅读：28 留言：0更新日期：2020-12-15 14:36

本公开提供一种数据处理方法，包括：获取当前语音数据；根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值，所述历史语音数据包括至少一个语音子数据；基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据，其中，所述目标语音子数据包括用于控制电子设备失败的语音数据；以及响应于所述历史语音数据包括至少一个目标语音子数据，存储所述至少一个目标语音子数据，以便将所述至少一个目标语音子数据作为训练用于控制所述电子设备的语音模型的样本数据。本公开还提供一种数据处理装置、一种数据处理系统以及一种计算机可读存储介质。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、系统、介质
本公开涉及计算机
，更具体地，涉及一种数据处理方法、一种数据处理装置、一种数据处理系统、以及一种计算机可读存储介质。
技术介绍
随着计算机技术发展，电子设备趋向智能化，各种各样的智能设备广泛应用于诸多领域，例如智能家居、智能车辆等得到广泛应用。语音是人类的最常使用的交互方式，所以通过语音唤醒智能设备的技术成为研究热点。现有技术通常通过训练语音模型，并将训练好的语音模型运用于唤醒智能没备，语音模型包括各种各样的神经网络模型。在实现本公开构思的过程中，专利技术人发现现有技术中至少存在如下问题，现有技术中语音模型由于样本数据不够丰富，造成语音模型的泛化能力不足，场景适用性不佳，唤醒效果较差。
技术实现思路
有鉴于此，本公开提供了一种优化的数据处理方法和装置、系统、介质。本公开的一个方面提供了一种数据处理方法，包括：获取当前语音数据，根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值，所述历史语音数据包括至少一个语音子数据，基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据，其中，所述目标语音子数据包括用于控制电子设备失败的语音数据，响应于所述历史语音数据包括至少一个目标语音子数据，存储所述至少一个目标语音子数据，以便将所述至少一个目标语音子数据作为训练用于控制所述电子设备的语音模型的样本数据。根据本公开实施例，上述方法还包括：确定所述当前语音数据的类别，所述类别包括第一类别和第二...

【技术保护点】
1.一种数据处理方法，包括：/n获取当前语音数据；/n根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值，所述历史语音数据包括至少一个语音子数据；/n基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据，其中，所述目标语音子数据包括用于控制电子设备失败的语音数据；以及/n响应于所述历史语音数据包括至少一个目标语音子数据，存储所述至少一个目标语音子数据，以便将所述至少一个目标语音子数据作为训练用于控制所述电子设备的语音模型的样本数据。/n

【技术特征摘要】
1.一种数据处理方法，包括：
获取当前语音数据；
根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值，所述历史语音数据包括至少一个语音子数据；
基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据，其中，所述目标语音子数据包括用于控制电子设备失败的语音数据；以及
响应于所述历史语音数据包括至少一个目标语音子数据，存储所述至少一个目标语音子数据，以便将所述至少一个目标语音子数据作为训练用于控制所述电子设备的语音模型的样本数据。

2.根据权利要求1所述的方法，还包括：确定所述当前语音数据的类别，所述类别包括第一类别和第二类别；
所述根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值，包括：响应于确定所述当前语音数据的类别为所述第一类别，根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值。

3.根据权利要求2所述的方法，其中，所述基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据，包括：
确定所述当前分值与第一阈值之间的分值关系；
确定所述历史语音数据中的至少一个语音子数据对应的至少一个第一差值，其中，所述第一差值为第二概率和第一概率之间的差值，所述第一概率为所述至少一个语音子数据属于所述第一类别的概率，所述第二概率为所述至少一个语音子数据属于所述第二类别的概率；以及
基于所述分值关系以及所述至少一个第一差值确定所述历史语音数据是否包括至少一个目标语音子数据。

4.根据权利要求3所述的方法，其中，所述响应于所述历史语音数据包括至少一个目标语音子数据，存储所述至少一个目标语音子数据，包括：
在所述分值关系表示所述当前分值大于或等于所述第一阈值并且所述至少一个第一差值中包括满足预设差值的第一差值时，确定所述历史语音数据包括至少一个目标语音子数据；
存储所述历史语音数据。

5.根据权利要求1所述的方法，其中，所述基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据，包括：
获取第二阈值、第三阈值以及分值变量；
将所述当前分值与第二阈值、第三阈值以及分值变量进...

【专利技术属性】
技术研发人员：仇璐，陈宇，耿岭，元海明，白二伟，郑勇超，刘颖，占凯，刘鲁鹏，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人