一种多人发言场景的语音识别方法和系统技术方案

技术编号:22848340 阅读:28 留言:0更新日期:2019-12-17 23:09
本发明专利技术提供了一种多人发言场景的语音识别方法和系统,该多人发言场景的语音识别方法和系统不仅能够在多人发言场景中顺序地接收和识别语音信号,并且还能够在该多人发言场景中对每一个语音信号进行语音采集时间戳的识别从而有效地克服了原有的语音识别技术无法正确地还原不同发言端的发言顺序的缺陷;此外,方法和系统还能够准确地还原不同发言端之间的发言顺序以保证最终语音识别文本的准确性,以及节省后续语音识别结果整理的时间和提高语音识别的效率。

【技术实现步骤摘要】
一种多人发言场景的语音识别方法和系统
本专利技术涉及语音识别的
,特别涉及一种多人发言场景的语音识别方法和系统。
技术介绍
目前,语音识别技术广泛应用于人机交互领域中,现有的语音识别技术能够准确地和快速地识别语音信号对应的发言对象以及语音信号本身的含义,这极大地推进了人机交互的应用和发展。但是,现有语音识别技术的优势只局限于单人发言的场景中,对于多人发言场景,语音识别不仅需要识别不同语音信号对应的发言对象和语音含义,并且还要识别区别不同发言对象相互之间的发言顺序,以便于后续语音文本整理过程中匹配到正确的发言端中,从而最大限度地完整还原整个多个发言场景的对话内容。而现有的语音识别技术只能实现一对一的语音识别,并且由于语音识别的识别过程存在一定的识别结果延时,即语音识别需要经过一定的时间差才能得出相应的识别结果,而在该时间差的过程中可能发生了发言对象的切换,这就导致语音识别结果的输出时间与当前发言对象切换的时间点存在不同步的情况,并且该不同步的情况会随着多人发言的推进而不断积累,从而使得最终还原得到的多人发言场景的对话内容不能正确反映不同发言对象的发言顺序。可见,现有技术急需一种能够在多人发言场景中及时地和准确地识别不同发言端相互之间的发言顺序的语音识别方法和系统。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供一种多人发言场景的语音识别方法和系统,其中,该多人发言场景的语音识别方法包括如下步骤:步骤(1),在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理;步骤(2),将每一个周期内该识别处理的结果转换成若干文本格式信息,并将该若干文本格式信息进行顺序缓存处理;步骤(3),对该顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得该缓存队列中所有语音信号的语音识别结果;相应地,该多人发言场景的语音识别系统是根据上述方法适应性地进行语音识别操作的。可见,该多人发言场景的语音识别方法和系统有别于现有技术的语音识别技术只能在多人发言场景中按照接收到的语音信号的顺序依次进行语音识别处理,该多人发言场景的语音识别方法和系统不仅能够在多人发言场景中顺序地接收和识别语音信号,并且还能够在该多人发言场景中对每一个语音信号进行语音采集时间戳的识别,虽然该方法和系统对应语音识别结果的输出仍然存在时间差,但是该方法和系统能够根据该语音采集时间戳对不同发言端的发言时间点进行识别,从而有效地克服了原有的语音识别技术无法正确地还原不同发言端的发言顺序的缺陷,该方法和系统能够准确地还原不同发言端之间的发言顺序以保证最终语音识别文本的准确性;此外,该方法和系统还通过构建顺序缓存队列来依次处理存储的语音信号,这不仅能够有效地降低语音识别的工作量,并且还能够保证每一个语音信号得到精确的识别处理,从而节省后续语音识别结果整理的时间和提高语音识别的效率。本专利技术提供一种多人发言场景的语音识别方法,其特征在于,所述多人发言场景的语音识别方法包括如下步骤:步骤(1),在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理;步骤(2),将每一个周期内所述识别处理的结果转换成若干文本格式信息,并将所述若干文本格式信息进行顺序缓存处理;步骤(3),对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得所述缓存队列中所有语音信号的语音识别结果;进一步,在所述步骤(1)中,在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理具体包括,步骤(101),对所述若干发言端中的每一个进行所述语音信号的采集处理,同时在所述采集处理过程中,对所述语音信号同步进行语音采集时间戳的标识处理;步骤(102),将所述采集处理得到的语音信号和所述标识处理得到的语音采集时间戳按照所述多个预设识别周期的分布状态进行划分处理,以此得到多个不同周期部分的语音信号子部分和语音采集时间戳子部分;步骤(103),根据识别触发请求和识别中止请求,对每一个周期部分的语音信号子部分和语音采集时间戳子部分开始和停止执行所述识别处理,以此得到对应周期部分中的初始阶段语音信号对应的时间戳信息;进一步,在所述步骤(2)中,将每一个周期内所述识别处理的结果转换成若干文本格式信息,并将所述若干文本格式信息进行顺序缓存处理具体包括,步骤(201),将每一个周期内所处识别处理得到的关于所述语音信号、所述发言端身份和所述发言时间戳三者之间的对应关系以及所述语音信号对应的识别文本转换成所述文本格式信息;步骤(202),将所述文本格式信息对应整合为数据节点,以此按照每一个周期内的初始阶段语音信号对应的时间戳信息,依序地进行所述顺序缓存处理;步骤(203),对所述顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理;进一步,在所述步骤(3)中,对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得所述缓存队列中所有语音信号的语音识别结果具体包括,步骤(301),判断所述缓存队列中任意相邻的两个数据节点之间是否具有相同的发言端身份,若是,则继续对其他相连的两个数据节点进行判断,若否,则进入步骤(302);步骤(302),判断具有不同的发言端身份的相邻的两个数据节点对应的时间戳差是否大于预设最大语音识别延迟时间,若是,则确认所述相邻的两个数据节点对应的发言端身份发生切换;步骤(303),根据所述步骤(302)的确认结果,生成用于指示当前语音信号对应的发言端发生变化的所述语音识别结果,并将所述语音识别结果转换成文本格式识别结果,以此用于提示多人发言场景的变化,其中,将所述语音识别结果转换成文本格式识别结果是依次通过声学特征的提取、声学模型的构建、语言模型的构建和解码搜索来实现的,具体过程包括,S1、通过前端特征提取的方式提取获得声学特征X;S2、对所述声学特征X进行统计建模,以得到所述声学模型其中,W为统计库中的词串S3、对所述统计库中的词串W进行统计建模,以得到所述语言模型S4、根据所述声学模型和所述语言模型通过预设设计算法得到相应的最优词串并将所述最优词串作为所述文本格式识别结果;进一步,在所述步骤(3)中,在对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理的同时,还包括获取所述缓存队列的更新状态信息,若所述更新状态信息指示最近一次缓存队列的更新动作与当前时刻之间的时间差超过预设时间间距,则确定若干发言端中的每一个均完成发言动作,同时对所述缓存队列进行中止更新锁定处理。本专利技术还提供一种多人发言场景的语音识别系统,其特征在于:所述多人发言场景的语音识别方系统包括语音信号识别模块、语音时间戳识别模块、缓存模块和身份判断模块;其中所述语音信号识别模块用于在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语本文档来自技高网...

【技术保护点】
1.一种多人发言场景的语音识别方法,其特征在于,所述多人发言场景的语音识别方法包括如下步骤:/n步骤(1),在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理;/n步骤(2),将每一个周期内所述识别处理的结果转换成若干文本格式信息,并将所述若干文本格式信息进行顺序缓存处理;/n步骤(3),对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得所述缓存队列中所有语音信号的语音识别结果。/n

【技术特征摘要】
1.一种多人发言场景的语音识别方法,其特征在于,所述多人发言场景的语音识别方法包括如下步骤:
步骤(1),在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理;
步骤(2),将每一个周期内所述识别处理的结果转换成若干文本格式信息,并将所述若干文本格式信息进行顺序缓存处理;
步骤(3),对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得所述缓存队列中所有语音信号的语音识别结果。


2.如权利要求1所述的多人发言场景的语音识别方法,其特征在于:
在所述步骤(1)中,在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理具体包括,
步骤(101),对所述若干发言端中的每一个进行所述语音信号的采集处理,同时在所述采集处理过程中,对所述语音信号同步进行语音采集时间戳的标识处理;
步骤(102),将所述采集处理得到的语音信号和所述标识处理得到的语音采集时间戳按照所述多个预设识别周期的分布状态进行划分处理,以此得到多个不同周期部分的语音信号子部分和语音采集时间戳子部分;
步骤(103),根据识别触发请求和识别中止请求,对每一个周期部分的语音信号子部分和语音采集时间戳子部分开始和停止执行所述识别处理,以此得到对应周期部分中的初始阶段语音信号对应的时间戳信息。


3.如权利要求1所述的多人发言场景的语音识别方法,其特征在于:
在所述步骤(2)中,将每一个周期内所述识别处理的结果转换成若干文本格式信息,并将所述若干文本格式信息进行顺序缓存处理具体包括,步骤(201),将每一个周期内所处识别处理得到的关于所述语音信号、所述发言端身份和所述发言时间戳三者之间的对应关系以及所述语音信号对应的识别文本转换成所述文本格式信息;
步骤(202),将所述文本格式信息对应整合为数据节点,以此按照每一个周期内的初始阶段语音信号对应的时间戳信息,依序地进行所述顺序缓存处理;
步骤(203),对所述顺序缓存处理得到的数据节点的缓存队列中相邻的数据节点进行位置标定处理。


4.如权利要求1所述的多人发言场景的语音识别方法,其特征在于:
在所述步骤(3)中,对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得所述缓存队列中所有语音信号的语音识别结果具体包括,
步骤(301),判断所述缓存队列中任意相邻的两个数据节点之间是否具有相同的发言端身份,若是,则继续对其他相连的两个数据节点进行判断,若否,则进入步骤(302);
步骤(302),判断具有不同的发言端身份的相邻的两个数据节点对应的时间戳差是否大于预设最大语音识别延迟时间,若是,则确认所述相邻的两个数据节点对应的发言端身份发生切换;
步骤(303),根据所述步骤(302)的确认结果,生成用于指示当前语音信号对应的发言端发生变化的所述语音识别结果,并将所述语音识别结果转换成文本格式识别结果,以此用于提示多人发言场景的变化,其中,将所述语音识别结果转换成文本格式识别结果是依次通过声学特征的提取、声学模型的构建、语言模型的构建和解码搜索来实现的,具体过程包括,
S1、通过前端特征提取的方式提取获得声学特征X;
S2、对所述声学特征X进行统计建模,以得到所述声学模型其中,W为统计库中的词串;
S3、对所述统计库中的词串W进行统计建模,以得到所述语言模型
S4、根据所述声学模型和所述语言模型通过预设设计算法得到相应的最优词串并将所述最优词串作为所述文本格式识别结果。


5.如权利要求1所述的多人...

【专利技术属性】
技术研发人员:何世阳王善彬
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1