System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于语音识别的数字人驱动方法、设备及系统技术方案_技高网

基于语音识别的数字人驱动方法、设备及系统技术方案

技术编号:43552136 阅读:25 留言:0更新日期:2024-12-03 12:35
本发明专利技术涉及语音识别技术领域,具体涉及一种基于语音识别的数字人驱动方法、设备及系统,该方法包括:获取目标区域的各声源的音频数据;确定属于交互用户的语音的目标独立成分语音;确定相似语音组;根据第一目标独立成分语音的第一采集时刻、第二目标独立成分语音的第二采集时刻以及声音传播速度,确定交互用户到第一位置的第一参考位置以及交互用户到第二位置的第二参考位置之间的距离差;根据第一参考位置与第二参考位置之间的距离以及距离差确定交互用户的目标位置;利用交互用户在目标区域内的目标位置驱动数字人面向交互用户。如此,本发明专利技术提高了数字人与观众的交互灵活性,保证了观众在交互的过程中的参与感,提高了观众的互动体验感。

【技术实现步骤摘要】

本专利技术涉及语音识别,具体涉及一种基于语音识别的数字人驱动方法、设备及系统


技术介绍

1、数字人是运用数字技术创造出来的与人类形象接近的数字化人物形象。数字人驱动指的是利用数字技术或算法驱动的方式来模拟或控制数字人的行为和交互。通过在展厅或展览等环境应用数字人技术,通过语音识别技术识别观众的提问或互动语句,并输出对应的回答语句,为观众提供智能导览,实现与观众的语音交互。在观众与数字人进行语音交互时,数字人还会有运动控制模块掌握数字人的动作和表情,在与观众的交互过程中结合动作和表情为观众提供更智能以及互动性更强的展览陪同和信息服务。

2、在一些场景下,在数字人和观众进行语音交互时,数字人还会做出动作与表情使得数字人和观众的交互过程更加生动丰富。在数字人做动作与表情时,数字人的面部始终面向于一个固定的方向,不论与其进行交互的观众处于哪个位置,数字人的面部的面向始终不变。如此,数字人与观众的交互灵活性较差,观众在交互的过程中的参与感较低,导致观众的互动体验感较差。


技术实现思路

1、为了解决数字人与观众的交互灵活性较差导致观众的互动体验感较差的技术问题,本专利技术的目的在于提供一种基于语音识别的数字人驱动方法、设备及系统,所采用的技术方案具体如下:

2、第一方面,本专利技术实施例提供了一种基于语音识别的数字人驱动方法,包括:通过位于目标区域不同位置的声音采集设备获取目标区域的各声源的音频数据;从各声源的音频数据中确定属于交互用户的语音的目标独立成分语音;确定相似语音组,相似语音组包括处于第一位置的声音采集设备的第一目标独立成分语音和处于第二位置的声音采集设备的第二目标独立成分语音;根据第一目标独立成分语音的第一采集时刻、第二目标独立成分语音的第二采集时刻以及声音传播速度,确定交互用户到第一位置的第一参考位置以及交互用户到第二位置的第二参考位置之间的距离差;根据第一参考位置与第二参考位置之间的距离以及距离差确定交互用户在目标区域内的目标位置;利用交互用户在目标区域内的目标位置驱动数字人面向交互用户。

3、可选的,从各声源的音频数据中确定属于交互用户的语音的目标独立成分语音包括:对各不同位置的声音采集设备采集的音频数据进行独立成分分析,得到各声源的独立成分音频在不同时刻的声音频率序列;根据声音频率序列中的极值点的第一数量、相邻极大值点之间的第一时间间隔、相邻极小值点之间的第二时间间隔以及声音频率序列中声音频率的方差确定独立成分音频的有效性;基于独立成分音频的有效性确定属于语音的独立成分语音;对独立成分语音进行语音识别,得到独立成分语音的文本信息;将文本信息进行分词,得到多个词汇;通过词汇与数字人对应的展览数据之间的相关性确定与数字人进行交互的交互用户;确定交互用户的独立成分语音为目标独立成分语音。

4、可选的,根据声音频率序列中的极值点的第一数量、相邻极大值点之间的第一时间间隔、相邻极小值点之间的第二时间间隔以及声音频率序列中声音频率的方差确定独立成分音频的有效性包括:确定声音频率序列的所有相邻极大值点之间的第一时间间隔的第一平均值,声音频率序列的所有相邻极小值点之间的第二时间间隔的第二平均值;计算第一平均值和第二平均值的第一和值,以及计算第一数量与方差之间的第一乘积;确定第一和值与第一乘积之间的第一比值,对第一比值进行反比例归一化处理,得到独立成分音频的有效性。

5、可选的,声音采集设备包括处于目标区域的第一位置的声音采集设备和处于目标区域的第二位置的声音采集设备,确定相似语音组包括:根据处于目标区域的第一位置的声音采集设备和处于目标区域的第二位置的声音采集设备的目标独立成分语音之间的相似性,确定相似语音组。

6、可选的,根据处于目标区域的第一位置的声音采集设备和处于目标区域的第二位置的声音采集设备的目标独立成分语音之间的相似性,确定相似语音组包括:确定第一位置的声音采集设备的目标独立成分语音的声音频率序列的所有相邻极大值点之间的第一时间间隔的第一平均值,第一位置的声音采集设备的目标独立成分语音的声音频率序列的所有相邻极小值点之间的第二时间间隔的第二平均值;确定第二位置的声音采集设备的目标独立成分语音的声音频率序列的所有相邻极大值点之间的第三时间间隔的第三平均值,第二位置的声音采集设备的目标独立成分语音的声音频率序列的所有相邻极小值点之间的第四时间间隔的第四平均值;确定各时刻的第一位置的声音采集设备的目标独立成分语音的声音频率与第二位置的声音采集设备的目标独立成分语音的声音频率之间的第一差值,并对各第一差值进行叠加,得到叠加值;计算第一平均值与第二平均值的第二和值,第三平均值与第四平均值的第三和值,以及第二和值与第三和值的第二比值;计算第二比值与预设数值之间的第二差值的绝对值和叠加值的第二乘积;对第二乘积进行反比例归一化,得到第一位置的声音采集设备的目标独立成分语音与第二位置的声音采集设备的目标独立成分语音的相似性;确定相似性最高的第一位置的声音采集设备的第一目标独立成分语音与第二位置的声音采集设备的第二目标独立成分语音为相似语音组。

7、可选的,根据第一目标独立成分语音的第一采集时刻、第二目标独立成分语音的第二采集时刻以及声音传播速度,确定交互用户到第一位置的第一参考位置以及交互用户到第二位置的第二参考位置之间的距离差包括:确定第一目标独立成分语音的声音频率序列中声音频率大于预定数值的第一个时刻为第一采集时刻;确定处于第二位置的全部声音采集设备开始采集第二目标独立成分语音的开始时刻的平均值为第二采集时刻;计算第一采集时刻与第二采集时刻之间的差值,得到采集时长;确定声音传播速度与采集时长的第四乘积为距离差。

8、可选的,根据第一参考位置与第二参考位置之间的距离以及距离差确定交互用户在目标区域内的目标位置包括:确定第一参考位置与第二参考位置之间连线长度为距离;计算距离的一半与距离差的第四和值;以第一参考位置为起点在第一参考位置和第二参考位置的连线上取长度等于第四和值的目标线段;确定目标线段的终点为目标位置。

9、可选的,利用交互用户在目标区域内的目标位置驱动数字人面向交互用户包括:以目标区域的第一位置的顶点为极点,顶点与第一参考位置之间的连线为极轴;确定极点与目标位置之间的连线与极轴的夹角为交互用户的极角;在交互用户为多个情况下,按照极角由小到大的顺序依次驱动数字人面向对应的目标位置的交互用户;在交互用户为一个的情况下,驱动数字人面向目标位置的交互用户。

10、第二方面,本专利技术实施例提供了一种基于语音识别的数字人驱动系统,包括:获取模块,用于通过位于目标区域不同位置的声音采集设备获取目标区域的各声源的音频数据;确定模块,用于从各声源的音频数据中确定属于交互用户的语音的目标独立成分语音;确定模块,还用于确定相似语音组,相似语音组包括处于第一位置的声音采集设备的第一目标独立成分语音和处于第二位置的声音采集设备的第二目标独立成分语音;确定模块,还用于根据第一目标独立成分语音的第一采集时刻、第二目标独立成分语音的第二本文档来自技高网...

【技术保护点】

1.一种基于语音识别的数字人驱动方法,其特征在于,所述基于语音识别的数字人驱动方法包括:

2.根据权利要求1所述的基于语音识别的数字人驱动方法,其特征在于,所述从各所述声源的音频数据中确定属于交互用户的语音的目标独立成分语音包括:

3.根据权利要求2所述的基于语音识别的数字人驱动方法,其特征在于,所述根据所述声音频率序列中的极值点的第一数量、相邻极大值点之间的第一时间间隔、相邻极小值点之间的第二时间间隔以及所述声音频率序列中声音频率的方差确定所述独立成分音频的有效性包括:

4.根据权利要求2所述的基于语音识别的数字人驱动方法,其特征在于,所述声音采集设备包括处于所述目标区域的第一位置的声音采集设备和处于所述目标区域的第二位置的声音采集设备,所述确定相似语音组包括:

5.根据权利要求4所述的基于语音识别的数字人驱动方法,其特征在于,所述根据处于所述目标区域的第一位置的声音采集设备和处于所述目标区域的第二位置的声音采集设备的目标独立成分语音之间的相似性,确定所述相似语音组包括:

6.根据权利要求1-5任意一项所述的基于语音识别的数字人驱动方法,其特征在于,所述根据所述第一目标独立成分语音的第一采集时刻、所述第二目标独立成分语音的第二采集时刻以及声音传播速度,确定所述交互用户到所述第一位置的第一参考位置以及所述交互用户到所述第二位置的第二参考位置之间的距离差包括:

7.根据权利要求1-5任意一项所述的基于语音识别的数字人驱动方法,其特征在于,所述根据所述第一参考位置与所述第二参考位置之间的距离以及所述距离差确定所述交互用户在所述目标区域内的目标位置包括:

8.根据权利要求1-5任意一项所述的基于语音识别的数字人驱动方法,其特征在于,所述利用所述交互用户在所述目标区域内的目标位置驱动数字人面向所述交互用户包括:

9.一种基于语音识别的数字人驱动系统,其特征在于,包括:

10.一种基于语音识别的数字人驱动设备,其特征在于,该基于语音识别的数字人驱动设备包括:处理器和存储器;其中,存储器用于存储可在处理器上运行的计算机程序;处理器,用于执行存储器上所存放的程序,实现如权利要求1-8任意一项所述的基于语音识别的数字人驱动方法的步骤。

...

【技术特征摘要】

1.一种基于语音识别的数字人驱动方法,其特征在于,所述基于语音识别的数字人驱动方法包括:

2.根据权利要求1所述的基于语音识别的数字人驱动方法,其特征在于,所述从各所述声源的音频数据中确定属于交互用户的语音的目标独立成分语音包括:

3.根据权利要求2所述的基于语音识别的数字人驱动方法,其特征在于,所述根据所述声音频率序列中的极值点的第一数量、相邻极大值点之间的第一时间间隔、相邻极小值点之间的第二时间间隔以及所述声音频率序列中声音频率的方差确定所述独立成分音频的有效性包括:

4.根据权利要求2所述的基于语音识别的数字人驱动方法,其特征在于,所述声音采集设备包括处于所述目标区域的第一位置的声音采集设备和处于所述目标区域的第二位置的声音采集设备,所述确定相似语音组包括:

5.根据权利要求4所述的基于语音识别的数字人驱动方法,其特征在于,所述根据处于所述目标区域的第一位置的声音采集设备和处于所述目标区域的第二位置的声音采集设备的目标独立成分语音之间的相似性,确定所述相似语音组包括:

6.根据权利要求1-5任意一项所...

【专利技术属性】
技术研发人员:鞠帆韩清霞栾飞
申请(专利权)人:新之航传媒科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1