用于优化语音生成模型的方法、装置、设备和计算机介质制造方法及图纸

技术编号:22724257 阅读:16 留言:0更新日期:2019-12-04 06:19
本申请实施例公开了用于优化语音生成模型的方法、装置、设备和计算机介质。该方法的一具体实施方式包括:在用户与智能设备进行语音交互期间,获取用户发出的语音指令;从语音指令中提取用户的声纹特征值,添加到特征值集合中;若特征值集合中的声纹特征值的数量达到预设阈值,基于特征值集合中的声纹特征值对现有语音生成模型进行优化。该实施方式能够迭代地更新语音生成模型而不必专门收集用户的声纹,使得智能设备播报出来的声音与用户越来越相近。

Methods, devices, devices and computer media for optimizing speech generation models

The embodiment of the application discloses a method, device, device and computer medium for optimizing a voice generation model. An embodiment of the method includes: acquiring the voice instruction issued by the user during the voice interaction between the user and the intelligent device; extracting the voiceprint eigenvalue of the user from the voice instruction and adding it to the eigenvalue set; if the number of voiceprint eigenvalues in the eigenvalue set reaches the preset threshold, the existing voice generation model is based on the voiceprint eigenvalue in the eigenvalue set Optimize. The implementation can update the voice generation model iteratively without the need to collect the user's voice print, so that the voice broadcast by the intelligent device is more and more similar to the user.

【技术实现步骤摘要】
用于优化语音生成模型的方法、装置、设备和计算机介质
本申请实施例涉及计算机
,具体涉及用于优化语音生成模型的方法、装置、设备和计算机介质。
技术介绍
传统的车载语音系统在进行语言播报时,语音播放的语音角色是在出厂前已经内置好的特定语音角色。这样,当车载语音系统在与用户进行交互时,语音播报的音调是固定的,系统会以固定的声音(例如,标准音、或XX演员的声音)与用户进行交流。传统的车载语音系统带给用户的通常是一成不变的体验。
技术实现思路
本申请实施例提出了用于优化语音生成模型的方法、装置、电子设备和计算机可读介质。第一方面,本申请实施例提供了一种用于优化语音生成模型的方法,该方法包括:在用户与智能设备进行语音交互期间,获取用户发出的语音指令;从语音指令中提取用户的声纹特征值,添加到特征值集合中;若特征值集合中的声纹特征值的数量达到预设阈值,基于特征值集合中的声纹特征值对现有语音生成模型进行优化。在一些实施例中,从语音指令中提取用户的声纹特征值,包括:判断语音指令是否满足预设语义要求;若语音指令满足预设语义要求,从语音指令中提取声纹特征值。在一些实施例中,判断语音指令是否满足预设语义要求,包括:将语音指令转化为文本指令;对文本指令进行语义分析,得到语义分析结果;基于语义分析结果确定语音指令是否满足预设语义要求。在一些实施例中,获取用户发出的语音指令,包括:获取由智能设备的语音输入设备接收的音频数据;对音频数据进行清洗,剔除非人声音频数据。在一些实施例中,基于特征值集合中的声纹特征值对现有语音生成模型进行优化,包括:将特征值集合中的声纹特征值矢量化,使声纹特征值与相应的文字对应;将矢量化的声纹特征值并入现有语音生成模型的模型词典中进行增量拟合,得到优化后的语音生成模型。第二方面,本申请实施例提供了一种用于播报语音的方法,该方法包括:获取用户发出的语音指令以及将语音指令转换为文本指令;将文本指令输入到第一方面任意实现方式描述的方法优化的语音生成模型中,得到要播报的语音内容;播报语音内容。第三方面,本申请实施例提供了一种用于优化语音生成模型的装置,该装置包括:语音获取单元,被配置成在用户与智能设备进行语音交互期间,获取用户发出的语音指令;特征提取单元,被配置成从语音指令中提取用户的声纹特征值,添加到特征值集合中;优化单元,被配置成若特征值集合中的声纹特征值的数量达到预设阈值,基于特征值集合中的声纹特征值对现有语音生成模型进行优化。在一些实施例中,特征提取单元包括:语义判断模块,被配置成判断语音指令是否满足预设语义要求;特征提取模块,被配置成若语音指令满足预设语义要求,从语音指令中提取声纹特征值。在一些实施例中,语义判断模块包括:文本转换模块,被配置成将语音指令转化为文本指令;语义分析模块,被配置成对文本指令进行语义分析,得到语义分析结果;确定模块,被配置成基于语义分析结果确定语音指令是否满足预设语义要求。在一些实施例中,语音获取单元包括:音频获取模块,被配置成获取由智能设备的语音输入设备接收的音频数据;清洗模块,被配置成对音频数据进行清洗,剔除非人声音频数据。在一些实施例中,优化单元包括:矢量化模块,被配置成将特征值集合中的声纹特征值矢量化,使声纹特征值与相应的文字对应;拟合模块,被配置成将矢量化的声纹特征值并入现有语音生成模型的模型词典中进行增量拟合,得到优化后的语音生成模型。第四方面,本申请实施例提供了一种用于播报语音的装置,该装置包括:指令获取单元,被配置成获取用户发出的语音指令以及将语音指令转换为文本指令;语音生成单元,被配置成将文本指令输入到采用第一方面任一实现方式描述的方法优化的语音生成模型中,得到要播报的语音内容;播报单元,被配置成播报语音内容。第五方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面或第二方面中任一实现方式描述的方法。第六方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面或第二方面中任一实现方式描述的方法。本申请实施例提供的用于优化语音生成模型的方法、装置、电子设备和计算机可读介质,通过在用户与智能设备交互期间获取用户发出的语音指令,之后从语音指令中提取用户的声纹特征值,并在收集的声纹特征值的数量达到预设数量时利用收集的声纹特征值对现有语音生成模型进行优化,从而能够迭代地更新语音生成模型而不必专门收集用户的声纹,并使得智能设备播报出来的声音与用户越来越相近。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请的一个实施例可以应用于其中的示例性系统架构图;图2是根据本申请的用于优化语音生成模型的方法的一个实施例的流程图;图3是根据本申请的用于优化语音生成模型的方法的一个应用场景的示意图;图4是根据本申请的用于播报语音的方法的一个实施例的流程图;图5是根据本申请的用于优化语音生成模型的装置的一个实施例的结构示意图;图6是根据本申请的用于播报语音的装置的一个实施例的结构示意图;图7是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的用于优化语音生成模型的方法、用于播报语音的方法、用于优化语音生成模型的装置或用于播报语音的装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括智能设备101、102、103,网络104和服务器105。网络104用以在智能设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以以自然语言对话的方式操作智能设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。智能设备101、102、103上可以安装有各种通讯客户端应用,例如语音类应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。智能设备101、102、103可以是硬件,也可以是软件。当智能设备101、102、103为硬件时,可以是支持对话式语音交互的各种电子设备,包括但不限于车载语音终端、智能音箱、智能冰箱、智能电视、智能手机、平板电脑等等。当智能设备101、102、103为软件时,可以安装在上述所列举的电子设备中。本文档来自技高网...

【技术保护点】
1.一种用于优化语音生成模型的方法,包括:/n在用户与智能设备进行语音交互期间,获取所述用户发出的语音指令;/n从所述语音指令中提取所述用户的声纹特征值,添加到特征值集合中;/n若所述特征值集合中的声纹特征值的数量达到预设阈值,基于所述特征值集合中的声纹特征值对现有语音生成模型进行优化。/n

【技术特征摘要】
1.一种用于优化语音生成模型的方法,包括:
在用户与智能设备进行语音交互期间,获取所述用户发出的语音指令;
从所述语音指令中提取所述用户的声纹特征值,添加到特征值集合中;
若所述特征值集合中的声纹特征值的数量达到预设阈值,基于所述特征值集合中的声纹特征值对现有语音生成模型进行优化。


2.根据权利要求1所述的方法,其中,所述从所述语音指令中提取所述用户的声纹特征值,包括:
判断所述语音指令是否满足预设语义要求;
若所述语音指令满足所述预设语义要求,从所述语音指令中提取声纹特征值。


3.根据权利要求2所述的方法,其中,所述判断所述语音指令是否满足预设语义要求,包括:
将所述语音指令转化为文本指令;
对所述文本指令进行语义分析,得到语义分析结果;
基于所述语义分析结果确定所述语音指令是否满足所述预设语义要求。


4.根据权利要求1所述的方法,其中,所述获取所述用户发出的语音指令,包括:
获取由所述智能设备的语音输入设备接收的音频数据;
对所述音频数据进行清洗,剔除非人声音频数据。


5.根据权利要求1所述的方法,其中,所述基于所述特征值集合中的声纹特征值对现有语音生成模型进行优化,包括:
将所述特征值集合中的声纹特征值矢量化,使声纹特征值与相应的文字对应;
将矢量化的声纹特征值并入现有语音生成模型的模型词典中进行增量拟合,得到优化后的语音生成模型。
...

【专利技术属性】
技术研发人员:欧阳能钧
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1