文本对齐方法、存储介质、电子装置制造方法及图纸

技术编号:33834874 阅读:28 留言:0更新日期:2022-06-16 11:48
本申请实施例提供了一种文本对齐方法、存储介质、电子装置,所述方法包括:向ASR模型组输入预设格式的音频文件或音频流,通过ASR模型组将输入的音频数据转换为第一文本;将第一参照文本依次与多个第一文本中第一参照文本以外的第一文本进行对齐,以得到多个第二文本,将任一第二文本作为判断文本,并在多个第二文本之间的长度不等的情况下,对判断文本进行更新,以得到目标判断文本;将目标判断文本设定为第二参照文本;在多个第二文本的长度均相等的情况下,确定多个第二文本为目标文本;在多个第二文本的长度不等的情况下,将第二参照文本依次与多个第二文本中第二参照文本以外的第二文本进行对齐,得到多个目标文本。得到多个目标文本。得到多个目标文本。

【技术实现步骤摘要】
文本对齐方法、存储介质、电子装置
[0001]相关申请
[0002]本申请要求于2021年6月15日提交于中国知识产权局、申请号为2021106623097、申请名称为“文本输出方法及系统、存储介质、电子装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。


[0003]本申请涉及语音识别
,具体而言,涉及一种文本对齐方法、存储介质、电子装置。

技术介绍

[0004]自动语音识别技术(Automatic Speech Recognition,简称为ASR)用于将说话人的语音转录成相应的文字。目前工业界应用的语音识别系统通常为单语音识别系统,即仅设置有一个声学模型,在该声学模型输出初步结果后,再通过一系列的后端处理方法来优化最后的结果。随着神经网络的迅猛发展,各种建模方法层出不穷,语音识别实现过程中,可通过训练不同的声学模型结构或者调整同一模型的解码参数以获取多个效果不同的语音识别系统。
[0005]由于上述结构不同或参数不同的声学模型之间往往都会存在一定互补性,如果将不同的声学模型相互配合,可以显著降低模型训练过程中的词错率(Word error rate,简称为WER)以提高系统识别率。但是相关技术中,对于不同ASR模型识别出来的文本无法进行快速有效的对齐操作,进而导致多个ASR模型之间无法达到理想的融合效果。
[0006]针对相关技术中,对于不同ASR模型识别出来的文本无法进行快速有效的对齐操作,进而导致多个ASR模型无法实现高效融合的问题,目前尚未有有效的解决办法

技术实现思路

[0007]本申请实施例提供了一种文本对齐方法、存储介质、电子装置,以至少解决相关技术中对于不同ASR模型识别出来的文本无法进行快速有效的对齐操作,进而导致多个ASR模型无法实现高效融合的问题。在本申请的一个实施例中,提出了一种文本对齐方法,包括:向ASR模型组输入预设格式的音频文件或音频流,其中,所述ASR模型组包括多个ASR模型,所述ASR模型包括以下至少之一:基于RNNT的端到端模型、基于Transformer框架的端到端模型、基于WFST的语音模型;通过所述ASR模型组将输入的音频数据转换为第一文本;将第一参照文本依次与多个所述第一文本中所述第一参照文本以外的所述第一文本进行对齐,以得到多个第二文本,其中,所述第一参照文本为多个所述第一文本中长度最长的文本,所述第二文本中,所述第一文本较于所述第一参照文本缺少的字/词的对齐位置使用预设字符进行填充;将任一所述第二文本作为判断文本,并在多个所述第二文本之间的长度不等的情况下,对所述判断文本进行更新,以得到目标判断文本,所述目标判断文本为多个所述第二文本中长度最长的文本;将所述目标判断文本设定为第二参照文本;在多个所述第二
文本的长度均相等的情况下,确定多个所述第二文本为目标文本;在多个所述第二文本的长度不等的情况下,将所述第二参照文本依次与多个所述第二文本中所述第二参照文本以外的所述第二文本进行对齐,得到多个所述目标文本,其中,所述目标文本中,所述第二文本较于所述第二参照文本缺少字/词的对齐位置使用所述预设字符进行填充,多个所述目标文本的长度均相等。
[0008]在本申请的一个实施例中,还提出了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0009]在本申请的一个实施例中,还提出了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
[0010]通过本申请实施例,向ASR模型组输入预设格式的音频文件或音频流,通过所述ASR模型组将输入的音频数据转换为第一文本;将第一参照文本依次与多个所述第一文本中所述第一参照文本以外的所述第一文本进行对齐,以得到多个第二文本,将任一所述第二文本作为判断文本,并在多个所述第二文本之间的长度不等的情况下,对所述判断文本进行更新,以得到目标判断文本,所述目标判断文本为多个所述第二文本中长度最长的文本;将所述目标判断文本设定为第二参照文本;在多个所述第二文本的长度均相等的情况下,确定多个所述第二文本为目标文本;在多个所述第二文本的长度不等的情况下,将所述第二参照文本依次与多个所述第二文本中所述第二参照文本以外的所述第二文本进行对齐,得到多个所述目标文本,解决了对于不同ASR模型识别出来的文本无法进行快速有效的对齐操作,进而导致多个ASR模型无法实现高效融合的问题,可以有效对多个文本进行对齐,大大提高了语音识别的准确性。
附图说明
[0011]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0012]图1是根据本申请实施例的文本输出系统的一种可选的结构示意图;
[0013]图2是根据本申请实施例文本输出方法一种可选的流程图;
[0014]图3是根据本申请实施例的一种文本对齐方法流程图;
[0015]图4是根据本申请实施例的又一种文本对齐方法流程图;
[0016]图5是根据本申请实施例的一种对齐结果示意图;
[0017]图6是根据本申请实施例的又一种对齐结果示意图。
具体实施方式
[0018]下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0019]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0020]结构不同或参数不同的声学模型之间往往都会存在一定互补性,即不同的声学模
型相互配合,可以显著降低模型训练过程中的词错率(WER)提高系统识别率。不同的声学模型相互配合,以将多个模型的识别结果通过融合以得到一个更佳的最终结果即为模型融合。
[0021]相关技术中,模型融合方法可以归类为以下三种:
[0022]1、基于网络层的模型融合。该融合方式在前向计算时对各模型的网络层做了融合处理(基于投票机制voting或平均机制average实现),在模型的输出层直接可以得到一个最终结果。该融合方式在实现过程中延时较小,不需要在后端做融合处理,但其要求各模型的网络结构相同,故而无法融合不同结构的声学模型,限制了模型的多样化,而模型融合的意义在于联合不同声学建模方法的优势以获取最理想的结果,因此该融合方式无较大实际意义。
[0023]2、在Kaldi中基于Lattice的融合。Kaldi是目前语音识别领域最热门的开源工具,Lattice是Kaldi工具中基于WFST结构的解码图,保存了解码后的前N个最优路径。该融合方式是语音识别系统在解码后,会先生成一个Lattice结构的结果图,然后用维特比算法搜索其中最好的识别结果。可见,上述融合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本对齐方法,其特征在于,包括:向ASR模型组输入预设格式的音频文件或音频流,其中,所述ASR模型组包括多个ASR模型,所述ASR模型包括以下至少之一:基于RNNT的端到端模型、基于Transformer框架的端到端模型、基于WFST的语音模型;通过所述ASR模型组将输入的音频数据转换为第一文本;将第一参照文本依次与多个所述第一文本中所述第一参照文本以外的所述第一文本进行对齐,以得到多个第二文本,其中,所述第一参照文本为多个所述第一文本中长度最长的文本,所述第二文本中,所述第一文本较于所述第一参照文本缺少的字/词的对齐位置使用预设字符进行填充;将任一所述第二文本作为判断文本,并在多个所述第二文本之间的长度不等的情况下,对所述判断文本进行更新,以得到目标判断文本,所述目标判断文本为多个所述第二文本中长度最长的文本;将所述目标判断文本设定为第二参照文本;在多个所述第二文本的长度均相等的情况下,确定多个所述第二文本为目标文本;在多个所述第二文本的长度不等的情况下,将所述第二参照文本依次与多个所述第二文本中所述第二参照文本以外的所述第二文本进行对齐,得到多个所述目标文本,其中,所述目标文本中,所述第二文本较于所述第二参照文本缺少字/词的对齐位置使用所述预设字符进行填充,多个所述目标文本的长度均相等。2.根据权利要求1所述的方法,其特征在于,所述将所述第一参照文本依次与其他的所述第一文本进行对齐得到多个第二文本包括:同时计算m

1个所述第一文本中的第i个第一文本相对于所述第一参照文本的编辑距离以及所述第一参照文本相对于所述第i个第一文本的编辑距离,以获取所述第i个第一文本与所述第一参照文本对齐后的两个第二文本,其中,m为所述第一文本的数量,m

1个所述第一文本中不包含所述第一参照文本,i<m

1;依次获取所述m

1个第一文本与所述第一参照文本对齐后的2*(m

1)个所述第二文本。3.根据权利要求2所述的方法,其特征在于,所述依次获取所述m

1个第一文本与所述第一参照文本对齐后的2*(m

1)个所述第二文本,包括:指定所述第i个第一...

【专利技术属性】
技术研发人员:司马华鹏汤毅平
申请(专利权)人:宿迁硅基智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1