用于优化语音生成模型的方法、装置、设备和计算机介质制造方法及图纸

技术编号：22724257 阅读：16 留言：0更新日期：2019-12-04 06:19

本申请实施例公开了用于优化语音生成模型的方法、装置、设备和计算机介质。该方法的一具体实施方式包括：在用户与智能设备进行语音交互期间，获取用户发出的语音指令；从语音指令中提取用户的声纹特征值，添加到特征值集合中；若特征值集合中的声纹特征值的数量达到预设阈值，基于特征值集合中的声纹特征值对现有语音生成模型进行优化。该实施方式能够迭代地更新语音生成模型而不必专门收集用户的声纹，使得智能设备播报出来的声音与用户越来越相近。

Methods, devices, devices and computer media for optimizing speech generation models

The embodiment of the application discloses a method, device, device and computer medium for optimizing a voice generation model. An embodiment of the method includes: acquiring the voice instruction issued by the user during the voice interaction between the user and the intelligent device; extracting the voiceprint eigenvalue of the user from the voice instruction and adding it to the eigenvalue set; if the number of voiceprint eigenvalues in the eigenvalue set reaches the preset threshold, the existing voice generation model is based on the voiceprint eigenvalue in the eigenvalue set Optimize. The implementation can update the voice generation model iteratively without the need to collect the user's voice print, so that the voice broadcast by the intelligent device is more and more similar to the user.

全部详细技术资料下载

【技术实现步骤摘要】
用于优化语音生成模型的方法、装置、设备和计算机介质
本申请实施例涉及计算机
，具体涉及用于优化语音生成模型的方法、装置、设备和计算机介质。
技术介绍
传统的车载语音系统在进行语言播报时，语音播放的语音角色是在出厂前已经内置好的特定语音角色。这样，当车载语音系统在与用户进行交互时，语音播报的音调是固定的，系统会以固定的声音(例如，标准音、或XX演员的声音)与用户进行交流。传统的车载语音系统带给用户的通常是一成不变的体验。
技术实现思路
本申请实施例提出了用于优化语音生成模型的方法、装置、电子设备和计算机可读介质。第一方面，本申请实施例提供了一种用于优化语音生成模型的方法，该方法包括：在用户与智能设备进行语音交互期间，获取用户发出的语音指令；从语音指令中提取用户的声纹特征值，添加到特征值集合中；若特征值集合中的声纹特征值的数量达到预设阈值，基于特征值集合中的声纹特征值对现有语音生成模型进行优化。在一些实施例中，从语音指令中提取用户的声纹特征值，包括：判断语音指令是否满足预设语义要求；若语音指令满足预设语义要求，从语音指令中提取声纹特征值。在一些实施例中，判断语音指令是否满足预设语义要求，包括：将语音指令转化为文本指令；对文本指令进行语义分析，得到语义分析结果；基于语义分析结果确定语音指令是否满足预设语义要求。在一些实施例中，获取用户发出的语音指令，包括：获取由智能设备的语音输入设备接收的音频数据；对音频数据进行清洗，剔除非人声音频数据。在一些实施例...

【技术保护点】
1.一种用于优化语音生成模型的方法，包括：/n在用户与智能设备进行语音交互期间，获取所述用户发出的语音指令；/n从所述语音指令中提取所述用户的声纹特征值，添加到特征值集合中；/n若所述特征值集合中的声纹特征值的数量达到预设阈值，基于所述特征值集合中的声纹特征值对现有语音生成模型进行优化。/n

【技术特征摘要】
1.一种用于优化语音生成模型的方法，包括：
在用户与智能设备进行语音交互期间，获取所述用户发出的语音指令；
从所述语音指令中提取所述用户的声纹特征值，添加到特征值集合中；
若所述特征值集合中的声纹特征值的数量达到预设阈值，基于所述特征值集合中的声纹特征值对现有语音生成模型进行优化。

2.根据权利要求1所述的方法，其中，所述从所述语音指令中提取所述用户的声纹特征值，包括：
判断所述语音指令是否满足预设语义要求；
若所述语音指令满足所述预设语义要求，从所述语音指令中提取声纹特征值。

3.根据权利要求2所述的方法，其中，所述判断所述语音指令是否满足预设语义要求，包括：
将所述语音指令转化为文本指令；
对所述文本指令进行语义分析，得到语义分析结果；
基于所述语义分析结果确定所述语音指令是否满足所述预设语义要求。

4.根据权利要求1所述的方法，其中，所述获取所述用户发出的语音指令，包括：
获取由所述智能设备的语音输入设备接收的音频数据；
对所述音频数据进行清洗，剔除非人声音频数据。

5.根据权利要求1所述的方法，其中，所述基于所述特征值集合中的声纹特征值对现有语音生成模型进行优化，包括：
将所述特征值集合中的声纹特征值矢量化，使声纹特征值与相应的文字对应；
将矢量化的声纹特征值并入现有语音生成模型的模型词典中进行增量拟合，得到优化后的语音生成模型。
...

【专利技术属性】
技术研发人员：欧阳能钧，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人