本申请涉及一种教师声音和非教师声音的区分方法、装置、设备以及介质,涉及声音分类的技术领域,其方法包括采集课堂声音,根据所述课堂声音得到多段声音片段的声纹向量;采用BIRTCH聚类算法和Calinski
Methods, devices, equipment and media for distinguishing teacher's voice from non teacher's voice
【技术实现步骤摘要】
教师声音和非教师声音的区分方法、装置、设备以及介质
[0001]本申请涉及声音分类的
,尤其是涉及一种教师声音和非教师声音的区分方法、装置、设备以及介质。
技术介绍
[0002]在课堂中,经常能听到教师的声音和非教师的声音,在课堂分析过程中,往往需要区分出课堂中这些不同的声音,以便分析课堂中不同的教学行为,例如教师讲授等。
[0003]目前,通常采用人工、简单的K
‑
means算法或GMM
‑
Kmeans算法区分出课堂中的声音是教师声音还是非教师声音,其中,人工区分工作量大,成本高,K
‑
means算法或GMM
‑
Kmeans算法的区分精度不高,准确性较差。
技术实现思路
[0004]为了精准地区分出课堂中的声音是教师声音还是非教师声音,本申请提供一种教师声音和非教师声音的区分方法、装置、设备以及介质。
[0005]第一方面,本申请提供一种教师声音和非教师声音的区分方法,采用如下的技术方案:
[0006]一种教师声音和非教师声音的区分方法,包括:
[0007]采集课堂声音,根据所述课堂声音得到多段声音片段的声纹向量;
[0008]采用BIRTCH聚类算法和Calinski
‑
Harabaz指数结合的方法,基于所述声纹向量进行声纹聚类,区分与所述声纹向量对应的声音片段为非教师声音还是教师声音。
[0009]通过采用上述技术方案,利用BIRTCH聚类算法对声纹向量进行声纹聚类,利用Calinski
‑
Harabaz指数评价聚类效果好坏的特性来提高聚类的精准度,使得聚类结果更加准确,进而能够精准地区分出课堂中的声音是教师声音还是非教师声音。
[0010]优选的,所述采集课堂声音,根据所述课堂声音得到多段声音片段的声纹向量,包括:
[0011]将所述课堂声音输入至训练好的声纹模型中,得到多段声音片段的声纹向量。
[0012]优选的,将所述课堂声音输入至训练好的声纹模型中,得到多段声音片段的声纹向量,包括:
[0013]将所述课堂声音分割为多段声音片段;
[0014]对所述多段声音片段分别进行声纹提取,得到所述声纹向量。
[0015]优选的,所述将所述课堂声音分割为多段声音片段,包括:
[0016]将所述课堂声音划分为多个片段,相邻片段之间具有共有部分和非共有部分;
[0017]分别计算共有部分与相邻片段的非共有部分的声纹特征匹配度;
[0018]基于所述声纹特征匹配度,获取切换点;
[0019]按照所述切换点将所述课堂声音分割为多段声音片段。
[0020]通过采用上述技术方案,基于声纹特征匹配度检测出切换点,将课堂声音分割为
多段声音片段,每段声音片段均是同一类声音,例如,其中一段声音片段为教师声音,一段声音片段为噪音;由此,便于后期对每段声音片段进行分类。
[0021]优选的,所述声纹模型的训练方法,包括:
[0022]获取开源的声音数据集,将预先采集的课堂声音制作为课堂声音数据集,将开源的声音数据集和课堂声音数据集共同作为样本集;
[0023]将所述样本集中的样本输入至所述声纹模型中,利用深度学习算法对所述声纹模型进行训练。
[0024]通过采用上述技术方案,声纹模型目前是仅使用开源的声音数据集训练得到的,开源的声音数据集大多采集自近场录音、视频网站上的视频声音,而课堂环境中的声音大多采集自天花板上的吊麦,属于远场声音,因此存在采集环境和使用环境跨域的问题,传统的声纹模型应用到教室环境中时表现略差,而且声音数据集的采集成本高,采集标准不好统一;本申请中的样本集在开源的声音数据集基础上增加了由大量课堂声音制作成的课堂声音数据集,使用的声纹模型基于这样的样本集训练,使得声纹模型适用于在课堂环境中使用,提高声纹模型输出声纹向量的精准度。
[0025]优选的,所述采用BIRTCH聚类算法和Calinski
‑
Harabaz指数结合的方法,基于所述声纹向量进行声纹聚类,区分与所述声纹向量对应的声音片段为非教师声音还是教师声音,包括:
[0026]采用BIRTCH聚类算法,对所有的声纹向量进行聚类,将所有的声纹向量划分为第一类和第二类;
[0027]采用BIRTCH聚类算法,分别对第一类中所有的声纹向量和第二类中所有的声纹向量进行二次聚类;
[0028]分别获取第一指数和第二指数;其中,所述第一指数为对第一类中所有的声纹向量进行二次聚类后的Calinski
‑
Harabaz指数,所述第二指数为对第二类中所有的声纹向量进行二次聚类后的Calinski
‑
Harabaz指数;
[0029]判断所述第一指数是否大于所述第二指数;
[0030]若是,则判定第一类中的声纹向量对应的声音片段为非教师声音;
[0031]若否,则判定第二类中的声纹向量对应的声音片段为非教师声音。
[0032]通过采用上述技术方案,在课堂环境下,教师声音和非教师声音具有一定差别,因此利用BIRTCH聚类算法对所有的声纹向量进行第一次聚类,能够通过教师声音和非教师声音之间的差别将所有的声纹向量聚为两类,但是第一次聚类完毕之后,还不清楚哪一类中的声纹向量对应的声音片段为非教师声音,哪一类中的声纹向量对应的声音片段为教师声音;分别对第一类中所有的声纹向量和第二类中所有的声纹向量进行二次聚类,获取第一指数和第二指数,Calinski
‑
Harabaz指数能够评价聚类效果的好坏,通过这一特性,区分教师声音和非教师声音:课堂中教师为少数,因此教师声音单一,若哪一类中的声纹向量对应的声音片段为教师声音,则聚类效果差,因此Calinski
‑
Harabaz指数小,将Calinski
‑
Harabaz指数小的那一类中的声纹向量对应的声音片段判定为教师声音;课堂中学生为少数,因此非教师声音多式多样,若哪一类中的声纹向量对应的声音片段为非教师声音,则聚类效果好,因此Calinski
‑
Harabaz指数大,将Calinski
‑
Harabaz指数大的那一类中的声纹向量对应的声音片段判定为非教师声音。
[0033]优选的,所述采用BIRTCH聚类算法和Calinski
‑
Harabaz指数结合的方法,基于所述声纹向量进行声纹聚类,区分与所述声纹向量对应的声音片段为非教师声音还是教师声音,包括:
[0034]设置多个声纹特征相似度,基于Calinski
‑
Harabaz指数对多个声纹特征相似度进行筛选,得到最优的声纹特征相似度;
[0035]将最优聚类结果中的两类分别作为第一类和第二类;其中,所述最优聚类结果为使用最优的声纹特征相似度对所有的声纹向量进行聚类的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种教师声音和非教师声音的区分方法,其特征在于,包括:采集课堂声音,根据所述课堂声音得到多段声音片段的声纹向量;采用BIRTCH聚类算法和Calinski
‑
Harabaz指数结合的方法,基于所述声纹向量进行声纹聚类,区分与所述声纹向量对应的声音片段为非教师声音还是教师声音。2.根据权利要求1所述的方法,其特征在于,所述采集课堂声音,根据所述课堂声音得到多段声音片段的声纹向量,包括:将所述课堂声音输入至训练好的声纹模型中,得到多段声音片段的声纹向量。3.根据权利要求2所述的方法,其特征在于,将所述课堂声音输入至训练好的声纹模型中,得到多段声音片段的声纹向量,包括:将所述课堂声音分割为多段声音片段;对所述多段声音片段分别进行声纹提取,得到所述声纹向量。4.根据权利要求3所述的方法,其特征在于,所述将所述课堂声音分割为多段声音片段,包括:将所述课堂声音划分为多个片段,相邻片段之间具有共有部分和非共有部分;分别计算共有部分与相邻片段的非共有部分的声纹特征匹配度;基于所述声纹特征匹配度,获取切换点;按照所述切换点将所述课堂声音分割为多段声音片段。5.根据权利要求2所述的方法,其特征在于,所述声纹模型的训练方法,包括:获取开源的声音数据集,将预先采集的课堂声音制作为课堂声音数据集,将开源的声音数据集和课堂声音数据集共同作为样本集;将所述样本集中的样本输入至所述声纹模型中,利用深度学习算法对所述声纹模型进行训练。6.根据权利要求1所述的方法,其特征在于,所述采用BIRTCH聚类算法和Calinski
‑
Harabaz指数结合的方法,基于所述声纹向量进行声纹聚类,区分与所述声纹向量对应的声音片段为非教师声音还是教师声音,包括:采用BIRTCH聚类算法,对所有的声纹向量进行聚类,将所有的声纹向量划分为第一类和第二类;采用BIRTCH聚类算法,分别对第一类中所有的声纹向量和第二类中所有的声纹向量进行二次聚类;分别获取第一指数和第二指数;其中,所述第一指数为对第一类中所有的声纹向量进行二次聚类后的Calinski
‑
Harabaz指数,所述第二指数为对第二类中所有的声纹向量进行二次聚类...
【专利技术属性】
技术研发人员:孙德宇,
申请(专利权)人:北京中庆现代技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。