System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 处理语音识别模型的方法、装置及存储介质制造方法及图纸_技高网

处理语音识别模型的方法、装置及存储介质制造方法及图纸

技术编号:42698907 阅读:1 留言:0更新日期:2024-09-13 11:54
本申请公开了一种处理语音识别模型的方法、装置及存储介质,属于计算机领域。所述方法包括:获取多个发音模型和多个文本信息,所述多个发音模型与多个人员对应,每个发音模型分别用于模仿所述每个发音模型对应的人员的声音特征;基于所述多个发音模型和所述多个文本信息获取多个训练样本,每个训练样本包括语音信息和至少一个文本信息,所述多个文本信息包括所述至少一个文本信息,所述每个语音信息是所述多个发音模型中的一个发音模型对所述至少一个文本信息进行转换得到的;基于所述多个训练样本对通用语音识别模型进行训练,得到目标语音识别模型。本申请能够提高训练语音识别模型的效率。

【技术实现步骤摘要】

本申请涉及计算机领域,特别涉及一种处理语音识别模型的方法、装置及存储介质


技术介绍

1、语音识别模型用于将语音信息转换为文本信息,语音识别模型已在即时通信或客服质检等场景中广泛应用。目前市面上出现的通用语音识别模型将语音信息转换为文本信息的精度不高,可能无法满足要求。为此需要对通用语音识别模型进行调整。

2、在相关技术中,对大量人员说话的声音进行录制,得到大量音频信息。然后对于任一个音频信息,采用人工方式将该音频信息转换为文本信息,将该音频信息和该文本信息组成一个训练样本,重复上述过程可以得到大量的训练样本。使用该大量的训练样本对通用语音识别模型进行调整,得到精度更高的语音识别模型。

3、相关技术在获取训练样本时需要依赖人工方式得到文本信息,获取训练样本的速率低下,降低调整语音识别模型的效率。


技术实现思路

1、本申请提供了一种处理语音识别模型的方法、装置及存储介质,以提高训练语音识别模型的效率。所述技术方案如下:

2、第一方面,本申请提供了一种处理语音识别模型的方法,所述方法应用于云服务平台。在所述方法中,获取多个发音模型和多个文本信息,该多个发音模型与多个人员对应,每个发音模型分别用于模仿每个发音模型对应的人员的声音特征。基于该多个发音模型和该多个文本信息获取多个训练样本,每个训练样本包括语音信息和至少一个文本信息,该多个文本信息包括该至少一个文本信息,每个语音信息是该多个发音模型中的一个发音模型对该至少一个文本信息进行转换得到的。基于该多个训练样本对通用语音识别模型进行训练,得到目标语音识别模型。

3、由于获取的多个发音模型与多个人员对应,对于每个人员,该人员对应的发音模型用于模仿该人员的声音特征,这样使得该人员发出的声音和该人员对应的发音模型发出的声音相同或相似。这样基于该多个发音模型和该多个文本信息获取多个训练样本,不仅能够自动获取到训练样本,还提高了获取的训练样本的精度。基于该多个训练样本对通用语音识别模型进行训练,提高了训练语音识别模型的精度和效率。

4、在一种可能的实现方式中,获取多个人员的语音信息,该人员的语音信息是对该人员发出的声音进行录制得到的。基于该多个人员的语音信息对通用发音模型进行训练,获取该多个人员对应的多个发音模型,每个人员的声音特征与所述每个人员对应的发音模型的声音特征之间的差异小于特征阈值。这样通过大量人员的语音信息可以得到大量的发音模型,从而通过大量的发音模型对该至少一个文本信息进行转换可以得到大量的语音信息,将该至少一个文本信息和每个语音信息组成不同的训练样本,提高训练样本的多样性。

5、在另一种可能的实现方式中,获取m个人员的语音信息,m为大于1的整数。从该m个人员的语音信息中,获取满足筛选条件的该多个人员的语音信息。这样通过筛选条件可以选择出目标语音识别模型所应用的目标场景的多个人员,通过该多个人员的语音信息获取多个发音模型,通过该多个发音模型获取多个训练样本,再使用该多个训练样本可以训练得到应用于目标场景的目标语音识别模型。

6、在另一种可能的实现方式中,获取m个人员的语音信息,m为大于1的整数。基于该m个人员的语音信息对通用发音模型进行训练,获取该m个人员对应的m个发音模型。从该m个人员对应的该m个发音模型中,获取满足筛选条件的该多个人员对应的多个发音模型。这样通过筛选条件可以从获取的发音模型中选择出应用于目标场景的多个人员对应的多个发音模型,通过该多个发音模型获取多个训练样本,再使用该多个训练样本可以训练得到应用于目标场景的目标语音识别模型。

7、在另一种可能的实现方式中,该多个人员包括第一人员,显示录制界面,该录制界面包括发音不同的多个文字。录制第一人员朗读该多个文字发出的声音,得到第一人员的语音信息。如此可以获取到真实的人员的语音信息,从而基于该人员的语音信息可以训练得到发音与该人员的发音相同或相似的发音模型。

8、在另一种可能的实现方式中,该筛选条件包括如下一个或多个条件:

9、该多个人员的年龄所在的年龄范围,该多个人员中的男性人员的占比,该多个人员中的女性人员的占比,该多个人员的语言类型,该多个人员的口音类型,或者,该多个人员的职业。

10、在另一种可能的实现方式中,获取语句模板,该语句模板包括存在关键词槽位的语句。获取该关键词槽位对应的候选词集合,该候选词集合包括待填充到该关键词槽位的多个候选关键词。基于该语句模板和该候选词集合获取多个文本信息,每个文本信息包括完整的语句,该完整的语句是在该语句模板中的该关键词槽位上填充该候选词集合中的候选关键词得到的。如此可以自动获取到大量的文本信息,丰富了训练样本,提高训练语音识别模型的效率和精度。

11、在另一种可能的实现方式中,通用语音识别模型包括多层网络,基于该多个训练样本对通用语音识别模型进行训练,以调整通用语音识别模型包括的至少一层网络的参数,得到目标语音识别模型,以提高训练语音识别模型的效率。

12、在另一种可能的实现方式中,该人员的声音特征包括如下一个或多个特征:该人员的音质,或者,该人员的音色。

13、第二方面,本申请提供了一种处理语音识别模型的装置,用于执行第一方面或第一方面的任意一种可能的实现方式中的方法。具体地,所述装置包括用于执行第一方面或第一方面的任意一种可能的实现方式中的方法的单元。

14、第三方面,本申请提供了一种计算设备集群,所述集群包括至少一个计算设备,所述至少一个计算设备中的每个设备包括至少一个处理器和至少一个存储器,所述至少一个存储器中存储有计算机可读指令;所述至少一个处理器执行所述计算机可读指令,以使得所述集群实现第一方面或第一方面的任意一种可能的实现方式中的方法。

15、第四方面,本申请提供了一种计算机程序产品,所述计算机程序产品包括在计算机可读存储介质中存储的计算机程序,并且所述计算程序通过处理器进行加载来实现第一方面或第一方面的任意一种可能的实现方式中的方法。

16、第五方面,本申请提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序通过处理器进行加载来执行第一方面或第一方面的任意一种可能的实现方式中的方法。

17、第六方面,本申请提供了一种芯片,包括存储器和处理器,存储器用于存储计算机指令,处理器用于从存储器中调用并运行该计算机指令,以执行第一方面或第一方面的任意一种可能的实现方式中的方法。

本文档来自技高网...

【技术保护点】

1.一种处理语音识别模型的方法,其特征在于,所述方法应用于云服务平台,包括:

2.如权利要求1所述的方法,其特征在于,所述获取多个发音模型,包括:

3.如权利要求2所述的方法,其特征在于,所述获取多个人员的语音信息,包括:

4.如权利要求1所述的方法,其特征在于,所述获取多个发音模型,包括:

5.如权利要求2、3或4所述的方法,其特征在于,所述多个人员包括第一人员,获取第一人员的语音信息,包括:

6.如权利要求3或4所述的方法,其特征在于,所述筛选条件包括如下一个或多个条件:

7.如权利要求1-6任一项所述的方法,其特征在于,所述获取多个文本信息,包括:

8.如权利要求1-7任一项所述的方法,其特征在于,所述通用语音识别模型包括多层网络,所述基于所述多个训练样本对通用语音识别模型进行训练,得到目标语音识别模型,包括:

9.如权利要求1-8任一项所述的方法,其特征在于,所述人员的声音特征包括如下一个或多个特征:所述人员的音质,或者,所述人员的音色。

10.一种处理语音识别模型的装置,其特征在于,所述装置应用于云服务平台,包括:

11.如权利要求10所述的装置,其特征在于,所述获取单元,用于:

12.如权利要求11所述的装置,其特征在于,所述获取单元,用于:

13.如权利要求10所述的装置,其特征在于,所述获取单元,用于:

14.如权利要求11、12或13所述的装置,其特征在于,所述多个人员包括第一人员,所述获取单元,用于:

15.如权利要求12或13所述的装置,其特征在于,所述筛选条件包括如下一个或多个条件:

16.如权利要求10-15任一项所述的装置,其特征在于,所述获取单元,用于:

17.如权利要求10-16任一项所述的装置,其特征在于,所述通用语音识别模型包括多层网络,所述处理单元,用于:

18.如权利要求10-17任一项所述的装置,其特征在于,所述人员的声音特征包括如下一个或多个特征:所述人员的音质,或者,所述人员的音色。

19.一种计算设备集群,其特征在于,所述集群包括至少一个计算设备,所述至少一个计算设备中的每个设备包括至少一个处理器和至少一个存储器,所述至少一个存储器中存储有计算机可读指令;所述至少一个处理器执行所述计算机可读指令,以使得所述集群执行如权利要求1-9任一项所述的方法。

20.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-9任一项所述的方法。

21.一种计算机程序产品,其包括计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-9任一项所述的方法。

...

【技术特征摘要】

1.一种处理语音识别模型的方法,其特征在于,所述方法应用于云服务平台,包括:

2.如权利要求1所述的方法,其特征在于,所述获取多个发音模型,包括:

3.如权利要求2所述的方法,其特征在于,所述获取多个人员的语音信息,包括:

4.如权利要求1所述的方法,其特征在于,所述获取多个发音模型,包括:

5.如权利要求2、3或4所述的方法,其特征在于,所述多个人员包括第一人员,获取第一人员的语音信息,包括:

6.如权利要求3或4所述的方法,其特征在于,所述筛选条件包括如下一个或多个条件:

7.如权利要求1-6任一项所述的方法,其特征在于,所述获取多个文本信息,包括:

8.如权利要求1-7任一项所述的方法,其特征在于,所述通用语音识别模型包括多层网络,所述基于所述多个训练样本对通用语音识别模型进行训练,得到目标语音识别模型,包括:

9.如权利要求1-8任一项所述的方法,其特征在于,所述人员的声音特征包括如下一个或多个特征:所述人员的音质,或者,所述人员的音色。

10.一种处理语音识别模型的装置,其特征在于,所述装置应用于云服务平台,包括:

11.如权利要求10所述的装置,其特征在于,所述获取单元,用于:

12.如权利要求11所述的装置,其特征在于,所述获取单元,用于:

<...

【专利技术属性】
技术研发人员:王凯刘丛王娜敏周庆刘杰
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1