一种多阶段语音与文本容错对齐的方法及装置制造方法及图纸

技术编号：34948895 阅读：32 留言：0更新日期：2022-09-17 12:25

本发明专利技术公开了一种多阶段语音与文本容错对齐的方法及装置，包括：将语音转换成文字，形成识别文本的第一阶段；在原始文本与识别文本中，通过寻找最长递增子序列搜索锚点的第二阶段；根据锚点在句子中的位置关系，在识别文本中划分出初步对齐段和未对齐段的第三阶段；对未对齐段重复执行第二、三阶段，直到未对齐段不再发生变化或者没有新的锚点出现为止的第四阶段；针对未对齐段，采用相似度计算函数在识别文本中寻找与原始文本中最相似的字词作为句子边界，对未对齐段进行初步对准的第五阶段；判断初步对齐的句子是精确对准还是错误对准的第六阶段。本发明专利技术的文语对齐方法可以有效解决连续、非完全匹配的长语音与文本的句子级的对准问题。的对准问题。的对准问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种多阶段语音与文本容错对齐的方法及装置

[0001]本专利技术属于语音处理
，具体地说，是涉及一种用于将语音与文本对齐的方法及装置。

技术介绍

[0002]语音与文本对齐，或简称为文语对齐，是语音识别数据标注、新闻字幕生成、有声书制作等领域的关键技术之一。语音和文本通常呈现出在整体内容上保持一致，但不完全匹配的特点。因此，如何按照文本内容的划分粒度对语音进行相应粒度的划分，并对这些划分单元进行对齐和重组，是文语对齐技术的关键。
[0003]传统的文语对齐方法主要是通过基于维特比算法Viterbi的强制对齐技术来实现的。但是，如果在音频文件中包含有噪音或者存在与文本内容不匹配的长音频，则传统的文语对齐方法是无法实现有效对齐的。对于长音频维特比的解码过程会耗费大量的时间，并且对于不完全匹配的语料，维特比算法由于其迭代的方式会因为局部的对齐失败而导致整个对齐过程结束。
[0004]目前，还有很多基于自动语音识别(Automatic Speech Recognition,ASR) 技术实现的文语对齐方法，即，通过ASR将“文语对齐”问题转化为“文本与文本的字符串相匹配”的问题，进而利用编辑距离算法找到与原始文本最为相似的识别文本(利用ASR技术识别出的文本)片段。这种文语对齐方法的对齐精度受限于ASR的正确率，必须通过设计合理的对准规则，来降低ASR正确率对文语对齐精度的影响。

技术实现思路

[0005]本专利技术的目的在于提供一种多阶段语音与文本容错对齐的方...

【技术保护点】

【技术特征摘要】
1.一种多阶段语音与文本容错对齐的方法，其特征在于，包括：第一阶段：将语音转换成文字，形成识别文本；第二阶段：在原始文本与所述识别文本中，通过寻找最长递增子序列搜索锚点；第三阶段：根据所述锚点在句子中的位置关系，在识别文本中划分出初步对齐段和未对齐段；第四阶段：对所述未对齐段重复执行所述第二阶段和第三阶段，直到未对齐段不再发生变化或者没有新的锚点出现为止；第五阶段：针对所述未对齐段，采用相似度计算函数在识别文本中寻找与原始文本中最相似的字词作为句子边界，对未对齐段进行初步对准；第六阶段：对初步对齐的句子进行精确对准和错误对准的判断。2.根据权利要求1所述的多阶段语音与文本容错对齐的方法，其特征在于，所述第二阶段包括：将所述原始文本和识别文本中的文字转换成拼音；对原始文本和识别文本中的拼音进行相似度匹配，找出识别文本与原始文本中匹配完全一致的字词；根据所述匹配完全一致的字词在原始文本中的位置，采用寻找最长递增子序列的方法获取锚点集合。3.根据权利要求2所述的多阶段语音与文本容错对齐的方法，其特征在于，所述第二阶段还包括：在所述原始文本中，将标点符号采用设定的句子分隔符替换，以拼接为一个长字符串，然后执行将所述原始文本和识别文本中的文字转换成拼音的过程。4.根据权利要求1至3中任一项所述的多阶段语音与文本容错对齐的方法，其特征在于，在所述第三阶段，根据所述锚点在句子中的位置关系，采用以下对准规则划分初步对齐段和未对齐段：对准规则1：一个句子中锚点之间的部分划分为初步对齐段；对准规则2：跨句子的锚点之间的部分划分为未对齐段。5.根据权利要求1所述的多阶段语音与文本容错对齐的方法，其特征在于，所述第五阶段包括：假设原始文本中未对齐段为S
′
，其在识别文本中所对应的子序列为A
′
n
；采用相似度计算函数sim(S
′
,A
′
n
)在A
′
n
中遍历，寻找一个使得在未对齐段内相似度最大的字词作为句子边界；将所述字词的开始时间和/或结束时间作为边界的时间戳，对未对齐段进行初步对准。6.根据权利要求1所述的多阶段语音与文本容错对齐的方法，其特征在于，所述第六阶段包括：将原始文件和识别文件中初步对齐的句子的拼音分别用向量u、v表示...

【专利技术属性】
技术研发人员：陶冶，徐锴，鲁超峰，彭国纯，程辉，吴边，唐志峰，
申请(专利权)人：青岛科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人