【技术实现步骤摘要】
一种综合性教学视频语音提取文本方法
[0001]本专利技术涉及一种综合性教学视频语音提取文本方法。
技术介绍
[0002]20世纪90年代互联网初步兴起时,在线教育行业开始发展,其最大特点是创造了跨时空的学习方式。此类教育最初依靠录播传授教学内容,由教师录制视频,上传到互联网,学生在线观看或下载使用。直至如今,教学视频仍然作为在线教育的一个重要载体。
[0003]然而,视频是一种非结构化数据,传统的信息检索以文本为主要对象,这致使对教学视频内容的搜索和浏览非常困难,如何获取和管理视频数据以满足用户的搜索需求成为热点研究领域。在20世纪90年代提出的基于内容的视频分析(Content—Based Video Analysis,CBVA)通过对视频结构和语义内容的分析,从非结构化的视频数据中提取具有语义的内容单元作为检索对象。
[0004]语音识别是将语音信号转换为文本的过程。1952年Bell实验室的K.H.Davis等人依据对数字元音区域的共振波谱的研究,研发了世界上第一个能识别十个英文数字的Audry语音识别系统,标志着现代语音识别技术的开始
[2]。进入20世纪70年代,语音识别才有了实质性的进展,出现了逐渐成为主流的隐式马尔科夫模型技术(HMM)。20世纪80年代后期,语音识别研究解决了大词汇量、连续语音和非特定人这三大障碍,其中有代表性的是卡耐基梅隆大学研发的Sphinx系统。
[0005]但教学视频存在着以下特点:(1)音频来自视频流的分离:语音信号包含诸多复杂因素如背景噪音
【技术保护点】
【技术特征摘要】
1.一种综合性教学视频语音提取方法,其特征在于,包括以下步骤:步骤1,基于训练过的CLDNN即卷积
‑
LSTM
‑
全连接神经网络模型来对视频中的语音进行识别,其中CLDNN模型是基于CLDNN_64模型,并以能够获取在时间和频率两个方面的特征信息的注意力模块替代CLDNN_64中原有LSTM;步骤2,基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除,以得到去噪后的语音。2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,注意力模块用于对输入的声学特征在隐藏特征层以最大、平均和标准差三种方式进行池化操作,以获得3个特征向量,然后连接3个特征向量并由4层的一维卷积层进行卷积,且将最后一个卷积层的输出由sigmoid型函数激活,从而获得时间相关特征和频率相关特征,最后求和并与隐藏特征图H合并,得到改进的隐藏特征图H
′
,注意力模块表达式为:,注意力模块表达式为:,注意力模块表达式为:其中,和均∈R
T
×1,并分别代表隐藏特征图H沿频率维度的最大、均值和标准差池化结果,维度为T
×
1,H
temp
为f
temp
的输出;和均∈R1×
D
,并分别代表特征图H沿时间维度隐藏的最大、均值和标准差池化结果,维度为1
×
D,H
freq
表示f
freq
的输出;f
temp
表示4层一维卷积操作,每层中卷积核的数量分别为3、5、5和1,卷积核大小为11
×
11;σ表示sigmoid函数,
⊕
表示按元素求和;f
freq
表示和f
temp
层数和卷积核数量相同的卷积操作,但f
freq
的卷积核大小为21
×
21。3.根据权利要求1所述的方法,其特征在于,所述的步骤2中,双重对抗网络包括增强模型E、生成器G和判别器D;其中增强模型E为卷积循环网络,生成器和判别器均是基于DC
‑
GAN架构建立,为增强模型E定义损失函数L
E
,为判别器D定义损失函数L
D(E)
,即L
D(E)
表示用于衡量E(x)和s之间差距的方式量E(x)和s之间差距的方式s表示无噪声语音序列即干净语音,p
clean
对应增强模型产生的语音序列,s~p
clean
代表s服从p
clean
的序列分布,x表示有噪声的语音序列,E(x)表示经过增强模型生成的语音序列,p
noisy
表示有噪声语音序列,x~p
noisy
代表x服从p
noisy
的序列分布,为求均值操作;(s,x)表示s和x的联合分布,λ为用于平衡重建和对抗损失的超参数;损失函数L
D(G)
和G的损失函数L
G
分别为:分别为:z是遵循标准高斯分布N(0,1)的d维随机向量,p
z
代表z的概率分布,G(z)为生成的语...
【专利技术属性】
技术研发人员:马慧敏,李涵宇,朱红求,魏玮,张忠腾,南亦雄,葛雨晴,刘逸峰,
申请(专利权)人:中南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。