音频编辑系统包括:多个初始切分装置,分别将来自多个声道的音频流初始切分为多个不同的段落;多声道融合装置,对多个初始切分装置的切分点进行综合,并从每两个相邻的切分点之间选择最优的声道的音频流,从而得到多个初始切分片段,并且将得到的多个初始切分片段融合形成统一音频数据文件;音频聚类装置,基于层次聚类的算法,对多个初始切分片段进行有监督聚类,将属于同一性质的初始切分片段聚成一个类别;重新切分装置,利用音频聚类装置聚类的结果,训练得到每个类别相应的隐马尔科夫模型,并对统一音频文件进行维特比对齐切分,得到重新切分后的音频流。通过以上高精度的说话人切分系统,能够提高最终说话人聚类的准确性。
【技术实现步骤摘要】
音频编辑系统和音频编辑方法
本专利技术涉及音频聚类
,特别涉及一种音频编辑系统和音频编辑方法。
技术介绍
说话人聚类是聚类技术在语音信号处理方面的一个具体应用,其目的是通过对语音段进行分类,使得每一类只包含同一个说话人数据,并且同一说话人的数据都被归并到同一类中,从而获取说话人的特定信息。从应用角度讲,说话人聚类技术可以应用于音频信息管理,检索等领域。它有助于在会议,语音邮箱、讲座以及新闻广播节目的音频流中实现说话人跟踪,从而实现对音频数据的结构化分析,理解和管理。特别的,聚类算法对语音识别系统也有非常重要的实用价值,当今几乎所有的自动语音识别系统都采用了自适应技术,而聚类算法的好坏将直接影响说话人自适应的性能。对一个说话人聚类系统来说,最为关键的一个步骤是对音频数据进行说话人的分割,只有分割的正确,才能使得后端的聚类性能有所保障。针对不同的聚类系统架构,有两种典型的说话人分割技术:首先,对分步分割聚类系统来说,以非专利文献1为代表,首先通过音频距离计算的方法将音频流进行说话人切分,之后再将分散的语音段落进行归并,实现聚类的目的;其次,对同步分割聚类系统来说,以非专利文献2系统作为代表,一般为基于模型的方法,在分割的同时完成了聚类。这两种框架各有优缺点,前者在聚类过程中不加修正地继承了分割步骤的错误,由于距离测算的方法有一定局限性,会产生错误的累积;而后者由于大多使用的为隐马尔科夫模型,模型的初始化通过对音频数据直接进行等分来进行,初始引入的误差较大,给模型的收敛速度带来一定的问题,同时由于隐马尔科夫模型基于帧进行分类的特点,在进行切分的时候不加限制会引入一定的误差,一般的做法是对每一个隐马尔科夫模型的停驻时间加一定的时长限制,这种做法给系统的灵活性带来了很大的局限。非专利文献1:DanIstrate,CorinneFredouille,SylvainMeignier.NISTRT’05Sevaluation:Pre-processingtechniquesandSpeakerDiarizationonMultipleMicrophonemeetings.MachineLearningforMultimodalInteraction.2006非专利文献2:Fredouille,C.andSenay,G.,Technicalimprovementsofthee-hmmbasedspeakerdiarizationsystemformeetingrecords,MachineLearningforMultimodalInteraction,2006
技术实现思路
为了克服所述现有技术的不足,本专利技术提出了一种结合距离测算,说话人聚类以及模型分割三种技术的说话人分割框架。本专利技术的目的是通过距离测算得到音频流的初始切分信息;利用说话人聚类技术得到说话人种子数据类,并训练相应的说话人隐马尔科夫模型;同时,利用初始切分得到的片段数目控制了隐马尔克夫模型的搜索空间构造,在切分过程中迭代更新模型,从而提高说话人分割的性能。为了实现所述目的,本专利技术提供了一种音频编辑系统,包括:读取装置,将音频流读取到所述音频编辑系统中;初始切分装置,将由所述读取装置读取的音频流初始切分为多个不同的片段;音频聚类装置,基于层次聚类的算法,对由所述初始切分装置初始切分的多个片段进行有监督聚类,将属于同一性质的片段聚成一个类别;重新切分装置,利用所述音频聚类装置聚类的结果,训练得到每个类别相应的隐马尔科夫模型,并对所述音频流进行维特比对齐切分,得到按类别切分后的音频流。另外,本专利技术提供了一种音频编辑系统,包括:读取装置,将多个声道的音频流读取到所述音频编辑系统中;多个初始切分装置,分别将由所述读取装置读取的来自多个声道的音频流初始切分为多个不同的段落;多声道融合装置,对所述多个初始切分装置的切分点进行综合,并从每两个相邻的切分点之间选择最优的声道的音频流,从而得到多个初始切分片段,并且将得到的所述多个初始切分片段融合形成统一音频数据文件;音频聚类装置,基于层次聚类的算法,对所述多个初始切分片段进行有监督聚类,将属于同一性质的初始切分片段聚成一个类别;重新切分装置,利用所述音频聚类装置聚类的结果,训练得到每个类别相应的隐马尔科夫模型,并对所述统一音频文件进行维特比对齐切分,得到按类别切分后的音频流。为了实现所述目的,一种音频编辑系统中的音频编辑方法,包括:读取步骤,将音频流读取到所述音频编辑系统中;初始切分步骤,将由所述读取步骤读取的音频流初始切分为多个不同的片段;音频聚类步骤,基于层次聚类的算法,对由所述初始切分步骤初始切分的多个片段进行有监督聚类,将属于同一性质的片段聚成一个类别;重新切分步骤,利用所述音频聚类步骤聚类的结果,训练得到每个类别相应的隐马尔科夫模型,并对所述音频流进行维特比对齐切分,得到按类别切分后的音频流。另外,本专利技术提供了一种音频编辑系统中的音频编辑方法,包括:读取步骤,将多个声道的音频流读取到所述音频编辑系统中;切分步骤,分别将所述多个声道的音频流初始切分为多个不同的段落;多声道融合步骤,对在所述切分步骤中得到的切分点进行综合,并从每两个相邻的切分点之间选择最优的声道的音频流,从而得到多个初始切分片段,并且将得到的所述多个初始切分片段融合形成统一音频数据文件;音频聚类步骤,基于层次聚类的算法,对所述多个初始切分片段进行有监督聚类,将属于同一性质的初始切分片段聚成一个类别;重新切分步骤,利用所述音频聚类步骤中聚类的结果,训练得到每个类别相应的隐马尔科夫模型,并对所述统一音频文件进行维特比对齐切分,得到按类别切分后的音频流。本专利技术的优点是,利用了多麦克的信道信息相融合获得更加完备的说话人切分信息;同时,利用距离测算的方法,得到了音频流中潜在的音频性质转折点,并获得了潜在的音频段落数目,利用该数字控制隐马尔科夫模型搜索空间的循环单元的循环次数,相比给隐马尔科夫模型增加时长限制的做法,提供了更大的灵活性;利用说话人聚类技术,首先通过有监督聚类控制聚类深度,得到了说话人的种子数据类别,相比较通过数据均分作为模型初始化数据的做法来说,模型的误差更小,收敛速度更快,分割也将更为准确。另外,本专利技术结合了分步聚类中的距离计算和同步聚类中的模型分割两种技术,并利用测试数据本身训练更新模型,数据依赖性小,可作为一种应用于说话人聚类系统中的通用技术。附图说明图1是本专利技术的说话人聚类系统的方框图;图2是本专利技术的模型分割部分搜索空间示意图;图3是本专利技术的说话人聚类系统中的段落切分器的方框图;图4是本专利技术的距离测算分段器处理流程示意图;图5是合并层次聚类算法的流程示意图;图6是本专利技术的多麦克信道融合器框架示意图;图7是本专利技术的信道切分信息融合方案示意图;图8是本专利技术的隐马尔科夫模型重分割器的流程示意图。具体实施方式下面结合具体实施例和附图对本专利技术进行详细描述。在下面的说明中为了说明的方便而划分为多个实施例,但各个实施例只是例示,本领域的技术人员应该理解各种变形例、修正例、代替例、置换例等。为了促进专利技术的理解而使用具体的数值例子进行了说明,但没有特别说明的情况下,那些数值只是一个例子,可使用适当的任何值。为了促进专利技术的理解而使用具体的数学式本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种音频编辑系统,包括:读取装置,将多个声道的音频流读取到所述音频编辑系统中;多个初始切分装置,分别将由所述读取装置读取的来自多个声道的音频流初始切分为多个不同的段落;多声道融合装置,对所述多个初始切分装置的切分点进行综合,并从每两个相邻的切分点之间选择最优的声道的音频流,从而得到多个初始切分片段,并且将得到的所述多个初始切分片段融合形成统一音频数据文件;音频聚类装置,基于层次聚类的算法,对所述多个初始切分片段进行有监督聚类,将属于同一性质的初始切分片段聚成一个类别;重新切分装置,利用所述音频聚类装置聚类的结果,训练得到每个类别相应的隐马尔科夫模型,并对所述统一音频文件进行维特比对齐切分,得到按类别切分后的音频流。2.如权利要求1所述的音频编辑系统,其中,所述多个初始切分装置的每个包括:音频特征提取装置,用于从前向后顺序地对所述音频流进行加窗,并提取窗内音频信号的特征信息;以及距离测算分段器,用于通过从前向后顺序的分别对来自所述音频特征提取装置的所述特征信息进行加滑动窗,计算相邻窗内的音频距离,从而按音频流音频性质转折点将音频流切分为多个段落。3.如权利要求2所述的音频编辑系统,其中,将小于1s的片段平均分给上下两个相邻的段落。4.如权利要求...
【专利技术属性】
技术研发人员:卢鲤,赵庆卫,颜永红,刘昆,吴伟国,
申请(专利权)人:索尼公司,中国科学院声学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。