本申请公开了一种语音识别方法、语音识别装置,电子设备及存储介质,所述方法包括:获取当前语音识别场景下的多个语音数据;多个语音数据包括多个语音采集器采集的当前语音识别场景下的多个对象的语音数据;多个语音采集器位于当前语音识别场景中的不同位置;基于多个语音数据,生成与多个对象中的每一对象关联的目标语音数据;每一对象关联的目标语音数据来源于多个语音数据中的至少两个语音数据;基于多个目标语音数据生成语音识别结果,并输出语音识别结果;如此,无需人为的分析语音数据,减少了语音数据的计算量,保证了语音分析结果的准确度。准确度。准确度。
【技术实现步骤摘要】
一种语音识别方法、语音识别装置、电子设备及存储介质
[0001]本申请涉及语音处理
,尤其是涉及一种语音识别方法、语音识别装置、电子设备及存储介质。
技术介绍
[0002]随着语音识别技术的快速发展,语音识别已成为人机交互的重要方式。相关技术中常用的语音识别方式包括人为分析方式和多语音引擎识别方式。
[0003]采用人为分析方式时,在一些场合如会议中,采集到会议人员的语音信息后,人为的分析出各人员所对应的语音信息,该方法存在数据分析计算量大或分析结果不准确的问题。采用多语音引擎识别方式时,在一些场合如会议中,采集到会议人员的语音信息后,将语音信息输入多个语音识别引擎中,获得每个语音识别引擎对应的识别结果的置信度,最后确定置信度最高的识别结果为最终的语音识别结果,该方法在语音段过长的情况下,存在识别性能较低的问题。可见,相关技术中的人为分析方式存在数据分析计算量大或分析结果不准确,多语音引擎识别方式存在识别性能较低的问题。
技术实现思路
[0004]本申请期望提供一种语音识别方法、语音识别装置、电子设备及存储介质,解决了相关技术中人为分析方式存在数据分析计算量大或分析结果不准确,多语音引擎识别方式存在识别性能较低的问题。
[0005]本申请的技术方案是这样实现的:
[0006]本申请提供一种语音识别方法,所述方法包括:
[0007]获取当前语音识别场景下的多个语音数据;所述多个语音数据包括多个语音采集器采集的所述当前语音识别场景下的多个对象的语音数据;所述多个语音采集器位于所述当前语音识别场景中的不同位置;
[0008]基于所述多个语音数据,生成与多个对象中的每一对象关联的目标语音数据;所述每一对象关联的目标语音数据来源于所述多个语音数据中的至少两个语音数据;
[0009]基于多个所述目标语音数据生成语音识别结果,并输出所述语音识别结果。
[0010]可选的,所述基于所述多个语音数据,生成与多个对象中的每一对象关联的目标语音数据,包括:
[0011]将所述多个语音数据中的每一语音数据进行分割,得到所述每一语音数据分割后的每一子语音数据集合;所述每一子语音数据集合包括多段语音数据;
[0012]获取所述每一子语音数据集合关联的多个声纹特征;
[0013]基于所述每一子语音数据集合和所述每一子语音数据集合关联的多个声纹特征,生成所述每一对象关联的目标语音数据。
[0014]可选的,所述基于所述每一子语音数据集合和所述每一子语音数据集合关联的多个声纹特征,生成所述每一对象关联的目标语音数据,包括:
[0015]确定多个所述子语音数据集合中具有同一声纹特征且具有同一时间戳的多个子语音数据;
[0016]从所述多个子语音数据中确定目标子语音数据,得到同一声纹特征关联的多个目标子语音数据;
[0017]基于所述多个目标子语音数据以及所述多个目标子语音数据对应的时间戳,生成所述每一对象关联的目标语音数据。
[0018]可选的,所述目标子语音数据为所述多个子语音数据中具有最大振幅的语音数据。
[0019]可选的,所述基于所述目标语音数据生成语音识别结果之前,所述方法还包括:
[0020]获取所述多个语音采集器在所述当前语音识别场景中的第一位置信息;
[0021]相应的,所述基于多个所述目标语音数据生成语音识别结果,还包括:
[0022]基于所述第一位置信息和多个所述目标语音数据,确定所述多个对象中每一对象在所述当前语音识别场景中的第二位置信息;
[0023]基于多个所述第二位置信息和多个所述目标语音数据,生成语音识别结果。
[0024]可选的,所述基于多个所述第二位置信息和多个所述目标语音数据,生成语音识别结果,包括:
[0025]对多个所述目标语音数据进行语音情感识别,得到多个第一识别结果;
[0026]获取多个所述目标语音数据关联的多个目标文本数据;
[0027]对多个所述目标文本数据进行语义识别,得到多个第二识别结果;
[0028]基于多个所述第一识别结果、多个所述第二识别结果、多个所述目标文本数据和多个所述第二位置信息,生成所述语音识别结果。
[0029]可选的,所述基于多个所述第一识别结果、多个所述第二识别结果、多个所述目标文本数据和多个所述第二位置信息,生成所述语音识别结果,包括:
[0030]基于每一对象关联的所述第一识别结果和每一对象关联的所述第二识别结果,提取每一对象关联的所述目标文本数据的特征信息;
[0031]基于每一对象关联的特征信息和每一对象关联的所述第二位置信息,生成方位语音图;所述语音识别结果包括所述方位语音图。
[0032]本申请提供一种语音识别装置,所述语音识别装置包括:
[0033]获取单元,用于获取当前语音识别场景下的多个语音数据;所述多个语音数据包括多个语音采集器采集的所述当前语音识别场景下的多个对象的语音数据;所述多个语音采集器位于所述当前语音识别场景中的不同位置;
[0034]第一处理单元,用于基于所述多个语音数据,生成与多个对象中的每一对象关联的目标语音数据;所述每一对象关联的目标语音数据来源于所述多个语音数据中的至少两个语音数据;
[0035]第二处理单元,用于基于多个所述目标语音数据生成语音识别结果,并输出所述语音识别结果。
[0036]本申请提供一种电子设备,所述电子设备包括:
[0037]存储器,用于存储可执行指令;
[0038]处理器,用于执行所述存储器中存储的可执行指令,以实现如上述所述的语音识
别方法。
[0039]本申请提供一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述所述的语音识别方法。
[0040]本申请提供的一种语音识别方法、语音识别装置、电子设备及存储介质,获取当前语音识别场景下的多个语音数据;多个语音数据包括多个语音采集器采集的当前语音识别场景下的多个对象的语音数据;多个语音采集器位于当前语音识别场景中的不同位置;基于多个语音数据,生成与多个对象中的每一对象关联的目标语音数据;每一对象关联的目标语音数据来源于多个语音数据中的至少两个语音数据;基于多个目标语音数据生成语音识别结果,并输出语音识别结果;也就是说,本申请基于获取的当前语音识别场景下处于不同位置的多个语音采集器所采集的包括多个对象的多个语音数据,生成与多个对象中的每一对象关联的目标语音数据,进而基于目标语音数据生成并输出语音识别结果;如此,无需人为的分析语音数据,实现了语音数据的智能分析,减少了语音数据的计算量,提高了识别性能,保证了语音分析结果的准确度。
附图说明
[0041]图1为本申请实施例提供的一种语音识别方法的流程示意图;
[0042]图2为本申请实施例提供的另一种语音识别方法的流程示意图;
[004本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取当前语音识别场景下的多个语音数据;所述多个语音数据包括多个语音采集器采集的所述当前语音识别场景下的多个对象的语音数据;所述多个语音采集器位于所述当前语音识别场景中的不同位置;基于所述多个语音数据,生成与多个对象中的每一对象关联的目标语音数据;所述每一对象关联的目标语音数据来源于所述多个语音数据中的至少两个语音数据;基于多个所述目标语音数据生成语音识别结果,并输出所述语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个语音数据,生成与多个对象中的每一对象关联的目标语音数据,包括:将所述多个语音数据中的每一语音数据进行分割,得到所述每一语音数据分割后的每一子语音数据集合;所述每一子语音数据集合包括多段语音数据;获取所述每一子语音数据集合关联的多个声纹特征;基于所述每一子语音数据集合和所述每一子语音数据集合关联的多个声纹特征,生成所述每一对象关联的目标语音数据。3.根据权利要求2所述的方法,其特征在于,所述基于所述每一子语音数据集合和所述每一子语音数据集合关联的多个声纹特征,生成所述每一对象关联的目标语音数据,包括:确定多个所述子语音数据集合中具有同一声纹特征且具有同一时间戳的多个子语音数据;从所述多个子语音数据中确定目标子语音数据,得到同一声纹特征关联的多个目标子语音数据;基于所述多个目标子语音数据以及所述多个目标子语音数据对应的时间戳,生成所述每一对象关联的目标语音数据。4.根据权利要求3所述的方法,其特征在于,所述目标子语音数据为所述多个子语音数据中具有最大振幅的语音数据。5.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于所述目标语音数据生成语音识别结果之前,所述方法还包括:获取所述多个语音采集器在所述当前语音识别场景中的第一位置信息;相应的,所述基于多个所述目标语音数据生成语音识别结果,还包括:基于所述第一位置信息和多个所述目标语音数据,确定所述多个对象中每一对象在所述当前语音识别场景中的第二位置信息;...
【专利技术属性】
技术研发人员:姜雪婷,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。