数据处理方法、装置、系统、介质制造方法及图纸

技术编号:26732444 阅读:28 留言:0更新日期:2020-12-15 14:36
本公开提供一种数据处理方法,包括:获取当前语音数据;根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值,所述历史语音数据包括至少一个语音子数据;基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据,其中,所述目标语音子数据包括用于控制电子设备失败的语音数据;以及响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,以便将所述至少一个目标语音子数据作为训练用于控制所述电子设备的语音模型的样本数据。本公开还提供一种数据处理装置、一种数据处理系统以及一种计算机可读存储介质。

【技术实现步骤摘要】
数据处理方法、装置、系统、介质
本公开涉及计算机
,更具体地,涉及一种数据处理方法、一种数据处理装置、一种数据处理系统、以及一种计算机可读存储介质。
技术介绍
随着计算机技术发展,电子设备趋向智能化,各种各样的智能设备广泛应用于诸多领域,例如智能家居、智能车辆等得到广泛应用。语音是人类的最常使用的交互方式,所以通过语音唤醒智能设备的技术成为研究热点。现有技术通常通过训练语音模型,并将训练好的语音模型运用于唤醒智能没备,语音模型包括各种各样的神经网络模型。在实现本公开构思的过程中,专利技术人发现现有技术中至少存在如下问题,现有技术中语音模型由于样本数据不够丰富,造成语音模型的泛化能力不足,场景适用性不佳,唤醒效果较差。
技术实现思路
有鉴于此,本公开提供了一种优化的数据处理方法和装置、系统、介质。本公开的一个方面提供了一种数据处理方法,包括:获取当前语音数据,根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值,所述历史语音数据包括至少一个语音子数据,基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据,其中,所述目标语音子数据包括用于控制电子设备失败的语音数据,响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,以便将所述至少一个目标语音子数据作为训练用于控制所述电子设备的语音模型的样本数据。根据本公开实施例,上述方法还包括:确定所述当前语音数据的类别,所述类别包括第一类别和第二类别。所述根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值,包括:响应于确定所述当前语音数据的类别为所述第一类别,根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值。根据本公开实施例,上述基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据,包括:确定所述当前分值与第一阈值之间的分值关系,确定所述历史语音数据中的至少一个语音子数据对应的至少一个第一差值,其中,所述第一差值为第二概率和第一概率之间的差值,所述第一概率为所述至少一个语音子数据属于所述第一类别的概率,所述第二概率为所述至少一个语音子数据属于所述第二类别的概率,基于所述分值关系以及所述至少一个第一差值确定所述历史语音数据是否包括至少一个目标语音子数据。根据本公开实施例,上述响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,包括:在所述分值关系表示所述当前分值大于或等于所述第一阈值并且所述至少一个第一差值中包括满足预设差值的第一差值时,确定所述历史语音数据包括至少一个目标语音子数据,存储所述历史语音数据。根据本公开实施例,上述基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据,包括:获取第二阈值、第三阈值以及分值变量,将所述当前分值与第二阈值、第三阈值以及分值变量进行比较,以获得比较结果,根据所述比较结果确定所述历史语音数据是否包括至少一个目标语音子数据。根据本公开实施例,上述将所述当前分值与第二阈值、第三阈值以及分值变量进行比较,以获得比较结果,包括:将当前分值与所述第二阈值和所述第三阈值进行比较,响应于当前分值小于所述第二阈值并且大于所述第三阈值,将所述当前分值和所述分值变量进行比较,以获得所述比较结果。根据本公开实施例,上述历史语音数据包括n个语音子数据,n为大于0的整数。所述响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,包括:响应于当前分值小于所述分值变量,确定所述所述n个语音子数据中的第n个语音子数据为所述至少一个目标语音子数据,存储所述至少一个目标语音子数据。根据本公开实施例,上述方法还包括:更新所述分值变量。其中,更新所述分值变量包括以下至少一项:响应于当前分值大于所述第二阈值,更新所述分值变量,以及响应于当前分值大于或等于所述分值变量,基于所述当前分值更新所述分值变量。本公开的另一个方面提供了一种数据处理装置,包括获取模块、处理模块、第一确定模块以及存储模块。其中,获取模块获取当前语音数据,处理模块根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值,所述历史语音数据包括至少一个语音子数据,第一确定模块基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据,其中,所述目标语音子数据包括用于控制电子设备失败的语音数据,存储模块响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,以便将所述至少一个目标语音子数据作为训练用于控制所述电子设备的语音模型的样本数据。根据本公开实施例,上述装置还包括:第二确定模块,确定所述当前语音数据的类别,所述类别包括第一类别和第二类别。所述根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值,包括:响应于确定所述当前语音数据的类别为所述第一类别,根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值。根据本公开实施例,上述第一确定模块包括:第一确定子模块、第二确定子模块以及第三确定子模块。其中,第一确定子模块确定所述当前分值与第一阈值之间的分值关系,第二确定子模块确定所述历史语音数据中的至少一个语音子数据对应的至少一个第一差值,其中,所述第一差值为第二概率和第一概率之间的差值,所述第一概率为所述至少一个语音子数据属于所述第一类别的概率,所述第二概率为所述至少一个语音子数据属于所述第二类别的概率,第三确定子模块基于所述分值关系以及所述至少一个第一差值确定所述历史语音数据是否包括至少一个目标语音子数据。根据本公开实施例,上述响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,包括:在所述分值关系表示所述当前分值大于或等于所述第一阈值并且所述至少一个第一差值中包括满足预设差值的第一差值时,确定所述历史语音数据包括至少一个目标语音子数据,存储所述历史语音数据。根据本公开实施例,上述第一确定模块包括:获取子模块、比较子模块以及第四确定子模块。其中,获取子模块获取第二阈值、第三阈值以及分值变量,比较子模块将所述当前分值与第二阈值、第三阈值以及分值变量进行比较,以获得比较结果,第四确定子模块根据所述比较结果确定所述历史语音数据是否包括至少一个目标语音子数据。根据本公开实施例,上述将所述当前分值与第二阈值、第三阈值以及分值变量进行比较,以获得比较结果,包括:将当前分值与所述第二阈值和所述第三阈值进行比较,响应于当前分值小于所述第二阈值并且大于所述第三阈值,将所述当前分值和所述分值变量进行比较,以获得所述比较结果。根据本公开实施例,上述历史语音数据包括n个语音子数据,n为大于0的整数。所述响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,包括:响应于当前分值小于所述分值变量,确定所述所述n本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:/n获取当前语音数据;/n根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值,所述历史语音数据包括至少一个语音子数据;/n基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据,其中,所述目标语音子数据包括用于控制电子设备失败的语音数据;以及/n响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,以便将所述至少一个目标语音子数据作为训练用于控制所述电子设备的语音模型的样本数据。/n

【技术特征摘要】
1.一种数据处理方法,包括:
获取当前语音数据;
根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值,所述历史语音数据包括至少一个语音子数据;
基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据,其中,所述目标语音子数据包括用于控制电子设备失败的语音数据;以及
响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,以便将所述至少一个目标语音子数据作为训练用于控制所述电子设备的语音模型的样本数据。


2.根据权利要求1所述的方法,还包括:确定所述当前语音数据的类别,所述类别包括第一类别和第二类别;
所述根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值,包括:响应于确定所述当前语音数据的类别为所述第一类别,根据历史语音数据处理所述当前语音数据以得到所述当前语音数据的当前分值。


3.根据权利要求2所述的方法,其中,所述基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据,包括:
确定所述当前分值与第一阈值之间的分值关系;
确定所述历史语音数据中的至少一个语音子数据对应的至少一个第一差值,其中,所述第一差值为第二概率和第一概率之间的差值,所述第一概率为所述至少一个语音子数据属于所述第一类别的概率,所述第二概率为所述至少一个语音子数据属于所述第二类别的概率;以及
基于所述分值关系以及所述至少一个第一差值确定所述历史语音数据是否包括至少一个目标语音子数据。


4.根据权利要求3所述的方法,其中,所述响应于所述历史语音数据包括至少一个目标语音子数据,存储所述至少一个目标语音子数据,包括:
在所述分值关系表示所述当前分值大于或等于所述第一阈值并且所述至少一个第一差值中包括满足预设差值的第一差值时,确定所述历史语音数据包括至少一个目标语音子数据;
存储所述历史语音数据。


5.根据权利要求1所述的方法,其中,所述基于所述当前分值和所述历史语音数据中的至少一个确定所述历史语音数据是否包括至少一个目标语音子数据,包括:
获取第二阈值、第三阈值以及分值变量;
将所述当前分值与第二阈值、第三阈值以及分值变量进...

【专利技术属性】
技术研发人员:仇璐陈宇耿岭元海明白二伟郑勇超刘颖占凯刘鲁鹏
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1