一种综合性教学视频语音提取文本方法技术

技术编号：33857419 阅读：27 留言：0更新日期：2022-06-18 10:46

本发明专利技术公开了一种综合性教学视频语音文本提取方法。首先基于训练过的CLDNN模型来对视频中的语音进行识别；然后基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除，以得到去噪后的语音。最后采用训练后的端到端的语音识别模型进行后端处理，其中端到端的语音识别模型基于Conformer建立，将去噪后的语音输入至语音识别模型，然后对输出结果进行自然语言处理，从而得到文本内容。本发明专利技术针对教学视频的特性，通过包括语音活动检测、语音增强和后端处理三个部分的综合方案来实现文本提取，同时引入Noisy Student Training半监督学习方法以使得模型可以在大规模无标签的数据下习通进行学。过实验证明，本文提出的方案可以有效地提高文本提取的效率与准确性。方案可以有效地提高文本提取的效率与准确性。方案可以有效地提高文本提取的效率与准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种综合性教学视频语音提取文本方法

[0001]本专利技术涉及一种综合性教学视频语音提取文本方法。

技术介绍

[0002]20世纪90年代互联网初步兴起时，在线教育行业开始发展，其最大特点是创造了跨时空的学习方式。此类教育最初依靠录播传授教学内容，由教师录制视频，上传到互联网，学生在线观看或下载使用。直至如今，教学视频仍然作为在线教育的一个重要载体。
[0003]然而，视频是一种非结构化数据，传统的信息检索以文本为主要对象，这致使对教学视频内容的搜索和浏览非常困难，如何获取和管理视频数据以满足用户的搜索需求成为热点研究领域。在20世纪90年代提出的基于内容的视频分析(Content—Based Video Analysis，CBVA)通过对视频结构和语义内容的分析，从非结构化的视频数据中提取具有语义的内容单元作为检索对象。
[0004]语音识别是将语音信号转换为文本的过程。1952年Bell实验室的K.H.Davis等人依据对数字元音区域的共振波谱的研究，研发了世界上第一个能识别十个英文数字的Audry语音识别系统，标志着现代语音识别技术的开始
[2]。进入20世纪70年代，语音识别才有了实质性的进展，出现了逐渐成为主流的隐式马尔科夫模型技术(HMM)。20世纪80年代后期，语音识别研究解决了大词汇量、连续语音和非特定人这三大障碍，其中有代表性的是卡耐基梅隆大学研发的Sphinx系统。
[0005]但教学视频存在着以下特点：(1)音频来自视频流的分离：语音信号包含诸多复杂因素如背景噪音

【技术保护点】

【技术特征摘要】
1.一种综合性教学视频语音提取方法，其特征在于，包括以下步骤：步骤1，基于训练过的CLDNN即卷积
‑
LSTM
‑
全连接神经网络模型来对视频中的语音进行识别，其中CLDNN模型是基于CLDNN_64模型，并以能够获取在时间和频率两个方面的特征信息的注意力模块替代CLDNN_64中原有LSTM；步骤2，基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除，以得到去噪后的语音。2.根据权利要求1所述的方法，其特征在于，所述的步骤1中，注意力模块用于对输入的声学特征在隐藏特征层以最大、平均和标准差三种方式进行池化操作，以获得3个特征向量，然后连接3个特征向量并由4层的一维卷积层进行卷积，且将最后一个卷积层的输出由sigmoid型函数激活，从而获得时间相关特征和频率相关特征，最后求和并与隐藏特征图H合并，得到改进的隐藏特征图H
′
，注意力模块表达式为：，注意力模块表达式为：，注意力模块表达式为：其中，和均∈R
T
×1，并分别代表隐藏特征图H沿频率维度的最大、均值和标准差池化结果，维度为T
×
1，H
temp
为f
temp
的输出；和均∈R1×
D
，并分别代表特征图H沿时间维度隐藏的最大、均值和标准差池化结果，维度为1
×
D，H
freq
表示f
freq
的输出；f
temp
表示4层一维卷积操作，每层中卷积核的数量分别为3、5、5和1，卷积核大小为11
×
11；σ表示sigmoid函数，
⊕
表示按元素求和；f
freq
表示和f
temp
层数和卷积核数量相同的卷积操作，但f
freq
的卷积核大小为21
×
21。3.根据权利要求1所述的方法，其特征在于，所述的步骤2中，双重对抗网络包括增强模型E、生成器G和判别器D；其中增强模型E为卷积循环网络，生成器和判别器均是基于DC
‑
GAN架构建立，为增强模型E定义损失函数L
E
，为判别器D定义损失函数L
D(E)
，即L
D(E)
表示用于衡量E(x)和s之间差距的方式量E(x)和s之间差距的方式s表示无噪声语音序列即干净语音，p
clean
对应增强模型产生的语音序列，s～p
clean
代表s服从p
clean
的序列分布，x表示有噪声的语音序列，E(x)表示经过增强模型生成的语音序列，p
noisy
表示有噪声语音序列，x～p
noisy
代表x服从p
noisy
的序列分布，为求均值操作；(s，x)表示s和x的联合分布，λ为用于平衡重建和对抗损失的超参数；损失函数L
D(G)
和G的损失函数L
G
分别为：分别为：z是遵循标准高斯分布N(0，1)的d维随机向量，p
z
代表z的概率分布，G(z)为生成的语...

【专利技术属性】
技术研发人员：马慧敏，李涵宇，朱红求，魏玮，张忠腾，南亦雄，葛雨晴，刘逸峰，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人