音频编辑系统和音频编辑方法技术方案

技术编号：7500188 阅读：206 留言：0更新日期：2012-07-11 00:48

音频编辑系统包括：多个初始切分装置，分别将来自多个声道的音频流初始切分为多个不同的段落；多声道融合装置，对多个初始切分装置的切分点进行综合，并从每两个相邻的切分点之间选择最优的声道的音频流，从而得到多个初始切分片段，并且将得到的多个初始切分片段融合形成统一音频数据文件；音频聚类装置，基于层次聚类的算法，对多个初始切分片段进行有监督聚类，将属于同一性质的初始切分片段聚成一个类别；重新切分装置，利用音频聚类装置聚类的结果，训练得到每个类别相应的隐马尔科夫模型，并对统一音频文件进行维特比对齐切分，得到重新切分后的音频流。通过以上高精度的说话人切分系统，能够提高最终说话人聚类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
音频编辑系统和音频编辑方法
本专利技术涉及音频聚类
，特别涉及一种音频编辑系统和音频编辑方法。
技术介绍
说话人聚类是聚类技术在语音信号处理方面的一个具体应用，其目的是通过对语音段进行分类，使得每一类只包含同一个说话人数据，并且同一说话人的数据都被归并到同一类中，从而获取说话人的特定信息。从应用角度讲，说话人聚类技术可以应用于音频信息管理，检索等领域。它有助于在会议，语音邮箱、讲座以及新闻广播节目的音频流中实现说话人跟踪，从而实现对音频数据的结构化分析，理解和管理。特别的，聚类算法对语音识别系统也有非常重要的实用价值，当今几乎所有的自动语音识别系统都采用了自适应技术，而聚类算法的好坏将直接影响说话人自适应的性能。对一个说话人聚类系统来说，最为关键的一个步骤是对音频数据进行说话人的分割，只有分割的正确，才能使得后端的聚类性能有所保障。针对不同的聚类系统架构，有两种典型的说话人分割技术：首先，对分步分割聚类系统来说，以非专利文献1为代表，首先通过音频距离计算的方法将音频流进行说话人切分，之后再将分散的语音段落进行归并，实现聚类的目的；其次，对同步分割聚类系统来说，以非专利文献2系统作为代表，一般为基于模型的方法，在分割的同时完成了聚类。这两种框架各有优缺点，前者在聚类过程中不加修正地继承了分割步骤的错误，由于距离测算的方法有一定局限性，会产生错误的累积；而后者由于大多使用的为隐马尔科夫模型，模型的初始化通过对音频数据直接进行等分来进行，初始引入的误差较大，给模型的收敛速度带来一定的问题，同时由于隐马尔科夫模型基于帧进行分类的特点，在进行切分的时候不加限制...
音频编辑系统和音频编辑方法

【技术保护点】

【技术特征摘要】
1.一种音频编辑系统，包括：读取装置，将多个声道的音频流读取到所述音频编辑系统中；多个初始切分装置，分别将由所述读取装置读取的来自多个声道的音频流初始切分为多个不同的段落；多声道融合装置，对所述多个初始切分装置的切分点进行综合，并从每两个相邻的切分点之间选择最优的声道的音频流，从而得到多个初始切分片段，并且将得到的所述多个初始切分片段融合形成统一音频数据文件；音频聚类装置，基于层次聚类的算法，对所述多个初始切分片段进行有监督聚类，将属于同一性质的初始切分片段聚成一个类别；重新切分装置，利用所述音频聚类装置聚类的结果，训练得到每个类别相应的隐马尔科夫模型，并对所述统一音频文件进行维特比对齐切分，得到按类别切分后的音频流。2.如权利要求1所述的音频编辑系统，其中，所述多个初始切分装置的每个包括：音频特征提取装置，用于从前向后顺序地对所述音频流进行加窗，并提取窗内音频信号的特征信息；以及距离测算分段器，用于通过从前向后顺序的分别对来自所述音频特征提取装置的所述特征信息进行加滑动窗，计算相邻窗内的音频距离，从而按音频流音频性质转折点将音频流切分为多个段落。3.如权利要求2所述的音频编辑系统，其中，将小于1s的片段平均分给上下两个相邻的段落。4.如权利要求...

【专利技术属性】
技术研发人员：卢鲤，赵庆卫，颜永红，刘昆，吴伟国，
申请(专利权)人：索尼公司，中国科学院声学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人