哼唱编曲系统及其方法技术方案

技术编号:3046419 阅读:513 留言:0更新日期:2012-04-11 18:40
一种哼唱编曲系统及其方法,可将输入的哼唱信号编写为标准乐谱再次呈现出来。本发明专利技术利用一种统计式的音乐识别法以识别输入的哼唱信号,并将输入的哼唱信号塑造为音乐音符,且决定该输入的哼唱信号中每个音乐音符的音调值。本发明专利技术的哼唱编曲系统包含一输入装置、一哼唱数据库以及一统计式哼唱编曲区块,其中输入装置用以接收该输入的哼唱信号,而哼唱数据库则记录有一系列的哼唱数据以供训练音符模型与音调模型,而统计式哼唱编曲区块则将输入的哼唱信号编写为音乐乐谱,输入的哼唱信号内的音符符号藉由单音层级隐藏式马可夫模型所定义,而音符符号的音调值则由高斯混合模型来塑造,藉以输出音乐查询序列以供后续的音乐搜寻步骤中的音乐取回之用。

【技术实现步骤摘要】

本专利技术涉及一种,特别是涉及一种可将输入的哼唱信号改编为一种可识别的音乐表现(musical representation)以满足于音乐数据库中完成音乐搜寻任务的需求的。
技术介绍
对于需要四处奔忙于繁忙工作以谋取生活的现代人来说,适度的消遣(recreation)与娱乐(entertainment)乃是让他们的身体得以放松并使他们充满活力的重要因素。音乐通常被认为是一种可使得身体上与精神上压力获得舒缓以及抚慰人们灵魂的花费不高的消遣,随着数字音效处理技术的到来,音乐创作的呈现可存在于各种多变的规则当中,举例来说,音乐的呈现能以模拟的方式被保留在声音的录音带中,或者,也可被重新制作为数字音效的形式,而有利于散布在例如因特网这样的网际空间中。由于音乐的盛行,有越来越多的音乐爱好者享受于在音乐商店中寻找音乐某一片段,且大部分的人都仅是知道他们想找的音乐中某几个较显著的片段而已,而并非真的了解整个音乐片段的特点,因此,音乐商店内的销售员就不知道顾客要找的是什么,也无法帮助顾客找到他们想要的音乐。如此一来,将会导致寻找音乐作品的过程中浪费太多时间,也因此带给音乐爱好者很大的困扰。为了加速音乐检索的过程,「哼」与「唱」提供了一种最自然且最直接的方式以在音乐数据库中进行以内容为搜寻基准的系统查询(简称CBMR,Content-based Music Retrieval)。随着数字音效数据以及音乐呈现技术的快速成长,已经可自动的将声音讯号(acoustic signal)编写旋律而成为乐谱表现出来。利用一个综合以及较方便使用者使用的音乐查询系统,音乐爱好者可通过轻声哼唱所需要的音乐片段的主旋律的方式,轻易且有效率地在一个大型音乐数据库中找到他所想要的音乐片段,如此的通过使用者哼唱而获得音乐的音乐查询系统通常就是所谓的哼唱式查询(query by humming,QBH)系统。较早期的QBH系统的其中之一是由葛希雅斯等人(Ghias et al.)在1995年所提出的。葛希雅斯等人提出了一种藉由自动关联算法(auto-correlation algorithm)来计算出音调区间(pitch period)以进行音乐查询的方法。另外,葛希雅斯等人的研究成果也已获得美国专利权(US5,874,686),兹列于此以供参考。在此参考文献中,该技术提供一种QBH系统,其包含了一哼唱输入装置、一音调追踪装置、一查询引擎以及一旋律数据库。以葛希雅斯等人的研究为基础的QBH系统利用自动关联演算的方式追踪音调的信息,并将所哼唱的信号转换成粗略的旋律轮廓(melodiccontours)。包含转换为粗略旋律轮廓形式的乐器数字接口(MusicalInstrument Digital Interface,MIDI)文件的旋律数据库则用来供以进行音乐取回(music retrieval),当然,在音乐检索的过程中,亦会利用以动态编程技术(dynamic programming technology)为基础的近似弦法(approximate string method)。然而,在上述参考文献中所介绍的通过人们哼唱接口所进行的音乐查询方式存在着很明显的问题,该问题就在于其所披露的技术仅仅是利用由音调流(pitch stream)所转换成的U、D、R形式(分别代表此音符高于、低于或是相等于前一个音符)的音调轮廓(pitchcontour)来表现旋律,但是,这样将会使得旋律的数据太过简略而导致无法正确的区别出音乐来。其它不断对葛希雅斯等人所研究的QBH系统进行改进的专利文献以及学术刊物摘录如下。芬(Finn)等人在2003年的美国专利公开申请US PatentPublication No.2003/0023421中,提出了一种通过音乐文件数据库而有效进行音乐搜寻的装置。芦烈(Lie Lu)、尤鸿(Hong You)以及张宏江(Hong-Jiang Zhang)则在他们的文章“音乐检索中一种哼唱找歌的新方法”(A new approach to query by humming in music retrivel)中描述了一种使用由三连音符(triplet)以及分级音乐匹配法(hierarchical musicmatching method)所组成的新颖音乐表现的QBH系统。张智星(J.S.RogerJang)、李宏儒(Hong-Ru Lee)、以及高名扬(Ming-Yang Kao)则在他们的文章“一种利用线性变化与分支界限树搜寻的音乐内容查询”(Content-based music retrieval using linear scaling andbranch-and-bound tree search)中披露了一种音乐内容检索系统,其是通过使用线性变化(Linear scaling)与树状搜寻的方式,以有利于输入音调序列与预期歌曲之间的比对,并且加速最邻近搜寻(nearest neighborsearch,NNS)的流程。罗杰·麦可纳柏(Roger J.McNab)、瑞德·史密斯(Lloyd A.Smith)、以及安·威顿(Ian H.Witten)则在他们的文章“旋律编写的信号处理”(Signal processing for melody transcription)中述及一种关于旋律编写系统的声音信号处理。这些以上所述的已知技术皆完整地连同本专利技术的技术提供出来以供参考。尽管过去一段时间里,各界都在致力于提升QBH系统的表现,但是必然地,在哼唱识别(humming recognition)的准确度上仍是有部分障碍无法克服,而因此也影响了QBH系统的可行性。一般来说,大多数已知的QBH系统乃是利用非统计信号处理来执行音符识别(note identification)与音调追踪程序。这些包含了以时间领域(time domain)、以频率领域(freqoencydomain),以及以倒频谱领域(cepstral domain)为基础的各种方法,且大部分的已知技术大多较着重于利用时间领域为基础的方法。例如,葛希雅斯等人与张智星等人是利用自动关联方法来计算音调周期,而麦可纳柏等人则是将金-瑞宾勒算法(Gold-Rabiner algorithm)应用于经由能量为基础的分割法(energy-based segmentation)来取得的音符区段(note segment)的重迭帧(overlapping frame)上。就每个帧来说,这些运算法会产生出最大能量的频率,最后,再依这些帧层级值(frame level values)的长条形统计图(histogram statistics)来决定音符频率。利用这些非统计信号处理方法所产生的主要问题就在于对交叉对话的差异(inter-speakervariability)以及其它信号失真(signal distortion)上的强健度。使用者,尤其是那些拥有极少或根本没有过音乐训练的人,哼唱时的精确度(即指在音调与节拍上)一直在改变,因此大部分的测量方法皆倾向于仅使用一粗略的旋律轮廓,例如标示为升高/稳定/下降(rising/stable/falling)的相对音调变化。如此的音乐呈现本文档来自技高网...

【技术保护点】
一种哼唱编曲系统,其包含:一哼唱信号输入接口,其接收一输入哼唱信号;以及一哼唱编曲区块,其将该输入哼唱信号编写为一音乐字符串,其中该哼唱编曲区块包含一音符分割平台与一音调追踪平台,该音符分割平台以一音符模型产生器所定义的音符 模型为基础将该输入哼唱信号中的音符符号予以分割,而该音调追踪平台则以一统计模型所定义的音调模型为基础决定该输入哼唱信号中的音符符号的音调。

【技术特征摘要】
US 2003-10-16 10/685,4001.一种哼唱编曲系统,其包含一哼唱信号输入接口,其接收一输入哼唱信号;以及一哼唱编曲区块,其将该输入哼唱信号编写为一音乐字符串,其中该哼唱编曲区块包含一音符分割平台与一音调追踪平台,该音符分割平台以一音符模型产生器所定义的音符模型为基础将该输入哼唱信号中的音符符号予以分割,而该音调追踪平台则以一统计模型所定义的音调模型为基础决定该输入哼唱信号中的音符符号的音调。2.如权利要求1所述的哼唱编曲系统,其中还包含一哼唱数据库,其记录所提供用来训练该音符模型与该音调模型的一系列的哼唱数据。3.如权利要求1所述的哼唱编曲系统,其中该音符模型产生器为含有高斯混合模型的单音层级隐藏式马可夫模型系统。4.如权利要求3所述的哼唱编曲系统,其中该单音层级隐藏式马可夫模型系统进一步定义出一寂静模型,其避免对该输入哼唱信号的音符符号进行分割时由附加于该输入哼唱信号的噪声与信号失真所产生的错误。5.如权利要求3所述的哼唱编曲系统,其中该单音层级隐藏式马可夫模型系统是以与输入哼唱信号的音符符号的特征相关的一特征向量为基础而定义该音符模型,并且其中该特征向量粹取自该输入哼唱信号。6.如权利要求5所述的哼唱编曲系统,其中该特征向量由至少一个Mel-频率声谱系数、一能量量测以及其一次导函数与其二次导函数所构成。7.如权利要求1所述的哼唱编曲系统,其中该音符分割平台还包含一音符译码器,其识别该输入哼唱信号的每一音符符号;以及一持续时间模型,其检测该输入哼唱信号的每一音符符号的持续时间,并且相对前一音符符号地标记每一音符符号的持续时间。8.如权利要求7所述的哼唱编曲系统,其中该音符译码器利用一维特比解码运算法来识别每一音符符号。9.如权利要求1所述的哼唱编曲系统,其中该音符模型产生器利用一具有包尔-威曲再评估公式的最大概似法来训练该音符模型。10.如权利要求1所述的哼唱编曲系统,其中该统计模型为高斯模型。11.如权利要求1所述的哼唱编曲系统,其中该音调追踪平台还包含一音调检测器,其分析该输入哼唱信号的音调信息、粹取用以代表该输入哼唱信号的一旋律轮廓,以及以音调模型为基础来检测该输入哼唱信号的音符符号的相对音调。12.如权利要求11所述的哼唱编曲系统,其中该音调检测器利用一短时自动关联算法分析该输入哼唱信号的音调信息。13.如权利要求1所述的哼唱编曲系统,其中该哼唱编曲系统还包含一音乐语言模型,其是以该音乐字符串的前...

【专利技术属性】
技术研发人员:施宣辉
申请(专利权)人:扬智科技股份有限公司宏碁股份有限公司
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利