一种多阶段语音与文本容错对齐的方法及装置制造方法及图纸

技术编号:34948895 阅读:20 留言:0更新日期:2022-09-17 12:25
本发明专利技术公开了一种多阶段语音与文本容错对齐的方法及装置,包括:将语音转换成文字,形成识别文本的第一阶段;在原始文本与识别文本中,通过寻找最长递增子序列搜索锚点的第二阶段;根据锚点在句子中的位置关系,在识别文本中划分出初步对齐段和未对齐段的第三阶段;对未对齐段重复执行第二、三阶段,直到未对齐段不再发生变化或者没有新的锚点出现为止的第四阶段;针对未对齐段,采用相似度计算函数在识别文本中寻找与原始文本中最相似的字词作为句子边界,对未对齐段进行初步对准的第五阶段;判断初步对齐的句子是精确对准还是错误对准的第六阶段。本发明专利技术的文语对齐方法可以有效解决连续、非完全匹配的长语音与文本的句子级的对准问题。的对准问题。的对准问题。

【技术实现步骤摘要】
一种多阶段语音与文本容错对齐的方法及装置


[0001]本专利技术属于语音处理
,具体地说,是涉及一种用于将语音与文本 对齐的方法及装置。

技术介绍

[0002]语音与文本对齐,或简称为文语对齐,是语音识别数据标注、新闻字幕生 成、有声书制作等领域的关键技术之一。语音和文本通常呈现出在整体内容上 保持一致,但不完全匹配的特点。因此,如何按照文本内容的划分粒度对语音 进行相应粒度的划分,并对这些划分单元进行对齐和重组,是文语对齐技术的 关键。
[0003]传统的文语对齐方法主要是通过基于维特比算法Viterbi的强制对齐技术 来实现的。但是,如果在音频文件中包含有噪音或者存在与文本内容不匹配的 长音频,则传统的文语对齐方法是无法实现有效对齐的。对于长音频维特比的 解码过程会耗费大量的时间,并且对于不完全匹配的语料,维特比算法由于其 迭代的方式会因为局部的对齐失败而导致整个对齐过程结束。
[0004]目前,还有很多基于自动语音识别(Automatic Speech Recognition,ASR) 技术实现的文语对齐方法,即,通过ASR将“文语对齐”问题转化为“文本与 文本的字符串相匹配”的问题,进而利用编辑距离算法找到与原始文本最为相 似的识别文本(利用ASR技术识别出的文本)片段。这种文语对齐方法的对齐 精度受限于ASR的正确率,必须通过设计合理的对准规则,来降低ASR正确率 对文语对齐精度的影响。

技术实现思路

[0005]本专利技术的目的在于提供一种多阶段语音与文本容错对齐的方法及装置,可 以有效解决连续、非完全匹配的长语音与文本的句子级的对准问题,弥补了传 统文语对齐方法在连续、非完全匹配的长语音与文本对齐的过程中耗时长、对 齐精度低的不足。
[0006]为解决上述技术问题,本专利技术采用以下技术方案予以实现:
[0007]在一个方面,本专利技术提出了一种多阶段语音与文本容错对齐的方法,包括:
[0008]第一阶段:将语音转换成文字,形成识别文本;
[0009]第二阶段:在原始文本与所述识别文本中,通过寻找最长递增子序列搜索 锚点;
[0010]第三阶段:根据所述锚点在句子中的位置关系,在识别文本中划分出初步 对齐段和未对齐段;
[0011]第四阶段:对所述未对齐段重复执行所述第二阶段和第三阶段,直到未对 齐段不再发生变化或者没有新的锚点出现为止;
[0012]第五阶段:针对所述未对齐段,采用相似度计算函数在识别文本中寻找与 原始文本中最相似的字词作为句子边界,对未对齐段进行初步对准;
[0013]第六阶段:对初步对齐的句子进行精确对准和错误对准的判断。
[0014]在本申请的一些实施例中,所述第二阶段优选包括以下过程:
[0015]在所述原始文本中,将标点符号采用设定的句子分隔符替换,以拼接为一 个长字符串;
[0016]将所述原始文本和识别文本中的文字转换成拼音;
[0017]对原始文本和识别文本中的拼音进行相似度匹配,找出识别文本与原始文 本中匹配完全一致的字词;
[0018]根据所述匹配完全一致的字词在原始文本中的位置,采用寻找最长递增子 序列的方法获取锚点集合。
[0019]在本申请的一些实施例中,在所述第三阶段可以根据所述锚点在句子中的 位置关系,采用以下对准规则划分初步对齐段和未对齐段:
[0020]对准规则1:一个句子中锚点之间的部分划分为初步对齐段;
[0021]对准规则2:跨句子的锚点之间的部分划分为未对齐段。
[0022]在本申请的一些实施例中,所述第五阶段可以具体包括以下过程:
[0023]假设原始文本中未对齐段为S

,其在识别文本中所对应的子序列为A

n

[0024]采用相似度计算函数sim(S

,A

n
)在A

n
中遍历,寻找一个使得在未对齐段内 相似度最大的字词作为句子边界;
[0025]将所述字词的开始时间和/或结束时间作为边界的时间戳,对未对齐段进行 初步对准。
[0026]在本申请的一些实施例中,所述第六阶段可以具体包括以下过程:
[0027]将原始文件和识别文件中初步对齐的句子的拼音分别用向量u、v表示,计 算向量u、v的余弦相似度:
[0028][0029]设定相似度阈值α;
[0030]若sim(u,v)≥α,则判定句子为对准状态;否则,判定句子为未对准状态, 并给出错误提示。
[0031]在另一个方面,本专利技术还提出了一种多阶段语音与文本容错对齐的装置, 包括自动语音识别模块、寻找最长递增子序列模块、对齐段与未对齐段划分模 块、循环控制模块、相似度计算模块和精确对准识别模块;其中,所述自动语 音识别模块用于将语音转换成文字,形成识别文本;所述寻找最长递增子序列 模块用于在原始文本与识别文本中搜索锚点;所述对齐段与未对齐段划分模块 用于根据所述锚点在句子中的位置关系,在识别文本中划分出初步对齐段和未 对齐段;所述循环控制模块用于控制所述寻找最长递增子序列模块和所述对齐 段与未对齐段划分模块对未对齐段进行重复处理,直到未对齐段不再发生变化 或者没有新的锚点出现为止;所述相似度计算模块用于针对所述未对齐段,采 用相似度计算函数在识别文本中寻找与原始文本中最相似的字词;所述对齐段 与未对齐段划分模块将所述最相似的字词作为句子边界,对未对齐段进行初步 对准;所述精确对准识别模块用于对初步对齐的句子进行精确对准和错误对准 的判断。
[0032]在本申请的一些实施例中,在所述装置中还设置有汉字转拼音模块,用于 在所述原始文本中,将标点符号采用设定的句子分隔符替换,以拼接为一个长 字符串,然后将原始文本和识别文本中的文字转换成拼音后,传送至所述相似 度计算模块;所述相似度计算
模块对原始文本和识别文本中的拼音进行相似度 匹配,找出识别文本与原始文本中匹配完全一致的字词,传送至所述寻找最长 递增子序列模块;所述寻找最长递增子序列模块根据所述匹配完全一致的字词 在原始文本中的位置,采用寻找最长递增子序列的方法在原始文本与识别文本 中搜索锚点;所述对齐段与未对齐段划分模块根据所述锚点在句子中的位置关 系,采用以下对准规则划分初步对齐段和未对齐段:
[0033]对准规则1:一个句子中锚点之间的部分划分为初步对齐段;
[0034]对准规则2:跨句子的锚点之间的部分划分为未对齐段。
[0035]在本申请的一些实施例中,所述精确对准识别模块将原始文件和识别文件 中初步对齐的句子的拼音分别用向量u、v表示,发送至所述相似度计算模块计 算向量u、v的余弦相似度所述精确对准识别模块设定相 似度阈值α;若sim(u,v)≥α,则判定句子为对准状态;否则,判定句子为未对 准状态,并控制错误提示模块输出错误提示,显示出现错误的文本

时间对位本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多阶段语音与文本容错对齐的方法,其特征在于,包括:第一阶段:将语音转换成文字,形成识别文本;第二阶段:在原始文本与所述识别文本中,通过寻找最长递增子序列搜索锚点;第三阶段:根据所述锚点在句子中的位置关系,在识别文本中划分出初步对齐段和未对齐段;第四阶段:对所述未对齐段重复执行所述第二阶段和第三阶段,直到未对齐段不再发生变化或者没有新的锚点出现为止;第五阶段:针对所述未对齐段,采用相似度计算函数在识别文本中寻找与原始文本中最相似的字词作为句子边界,对未对齐段进行初步对准;第六阶段:对初步对齐的句子进行精确对准和错误对准的判断。2.根据权利要求1所述的多阶段语音与文本容错对齐的方法,其特征在于,所述第二阶段包括:将所述原始文本和识别文本中的文字转换成拼音;对原始文本和识别文本中的拼音进行相似度匹配,找出识别文本与原始文本中匹配完全一致的字词;根据所述匹配完全一致的字词在原始文本中的位置,采用寻找最长递增子序列的方法获取锚点集合。3.根据权利要求2所述的多阶段语音与文本容错对齐的方法,其特征在于,所述第二阶段还包括:在所述原始文本中,将标点符号采用设定的句子分隔符替换,以拼接为一个长字符串,然后执行将所述原始文本和识别文本中的文字转换成拼音的过程。4.根据权利要求1至3中任一项所述的多阶段语音与文本容错对齐的方法,其特征在于,在所述第三阶段,根据所述锚点在句子中的位置关系,采用以下对准规则划分初步对齐段和未对齐段:对准规则1:一个句子中锚点之间的部分划分为初步对齐段;对准规则2:跨句子的锚点之间的部分划分为未对齐段。5.根据权利要求1所述的多阶段语音与文本容错对齐的方法,其特征在于,所述第五阶段包括:假设原始文本中未对齐段为S

,其在识别文本中所对应的子序列为A

n
;采用相似度计算函数sim(S

,A

n
)在A

n
中遍历,寻找一个使得在未对齐段内相似度最大的字词作为句子边界;将所述字词的开始时间和/或结束时间作为边界的时间戳,对未对齐段进行初步对准。6.根据权利要求1所述的多阶段语音与文本容错对齐的方法,其特征在于,所述第六阶段包括:将原始文件和识别文件中初步对齐的句子的拼音分别用向量u、v表示...

【专利技术属性】
技术研发人员:陶冶徐锴鲁超峰彭国纯程辉吴边唐志峰
申请(专利权)人:青岛科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1