本发明专利技术提出一种自动翻页装置,包括存储了至少一条多媒体信息的信息存储体和显示部件,还包括:声音输入部件;特征提取部件,从所述声音输入部件输入的声音信号或信息中提取第一特征信息;媒体信息特征存储部件,存储了对应于所述每条多媒体信息的第二特征信息;特征相似性计算部件,用于计算并判断所述第一特征信息与所述显示部件所显示的多媒体信息的部分所对应第二特征信息相似度最大的信息段所对应的多媒体信息的当前位置;翻页判断部件,当所述多媒体信息的当前位置是所述显示部件所显示的多媒体信息的部分的结尾则所述显示部件显示所述多媒体信息的下一页内容。使乐曲演奏者可以专心于乐曲的演奏,而不需要手动切换乐曲的页面。
【技术实现步骤摘要】
本专利技术涉及一种自动翻页装置,特别是涉及乐曲演奏过程中进行自动翻页的装置。
技术介绍
多媒体播放器,如MP3、 MP4、移动终端、电脑等已相当普及,这些设备通常都具 有较大的信息存储容量,存储了很多条多媒体信息。要从这些多媒体信息中选择所需的 多媒体信息进行播放的方法主要是先将多媒体信息按一定规则进行分类,然后以选择菜 单的方式由操作者通过操作界面进行选择。当多媒体信息内容很多时,将会使操作界面 的菜单层次很多,以至于选择到所需的多媒体信息也是比较困难的。而且通常操作界面 所显示的菜单选项通常只显示多媒体信息的标题,当多媒体信息内容很多时,人们往往 看到标题有时也不能知道是否是所需内容,往往选中后试听或试看后发现不是所需,再 重新选择的情况。在互联网络发展的今天,网络中的多媒体内容更是十分庞大,从中搜索所需内容 并不容易,特别是当人们记不清多媒体内容的标题时搜索更是难以获得。近年来,语音识别技术和基于声音控制操作电子设备的研究也比较多,在一些移 动终端设备上也一些商用,如通过声音选择进行电话拨打操作等。美国专利文件 No. 4, 277, 644和No. 6, 101, 467覆盖了语音识别软件的各个方面。而且用于表征音频内 容的方法也有描述。特别是美国专利No. 6, 054, 646和No. 6, 173, 250覆盖了用于通过节 拍、能量、音高等特征来表征音乐的方法。尽管有针对语音识别、音频信号分析和音乐特征的表征方法的进步和近年来的发 展,以及在一些电子设备上实现语音控制,但其应用在很多情况下并不能满足人们的需 求。例如,经常出现的一种情况是,人们使用多媒体播放器选择自己喜欢的多媒体内容 时出现一些困难,当时也许能够哼出该多媒体信息中乐曲的某个片断或某一句或者仅仅 能够哼出乐曲旋律的一小节的近似内容,但就是想不起来多媒体内容的标题,因而无法 有效地找到所需的媒体内容。在公开日为2005年7月13日,公开号为CN1639975A的中国专利技术专利申请公开内 容中提到了通过提取信号源的语音特征后用语音特征去选择所需信号源的内容。特别是该公开文件中公开的看门狗功能(Watch Dog):用户可以向音频记录器-播放器中音频分 析器唱或哼出一个样式(pattern),然后音频记录器-播放器可以针对那个特定的音调来 监视不同的频道,而且用户可以通过声音识别软件将所说的词输入给音频记录器-播放 器,然后音频记录器-播放器可针对包含这些词的一些或全部的对话和独白而监视不同 频道。采用高级匹配算法,即当短语在预定的秒数中出现两次或三次时宣布匹配的算法。 当出现匹配时,可以产生一个控制事件,控制频道的切换。但上述描述的技术应用到具有较大容量的多媒体播放器时有其缺陷。因为使用多 媒体播放器并非都是专业人员,所唱出或哼出的片断或一句内容或者乐曲旋律的内容 时,往往并不是标准的内容,如乐曲旋律的节拍并不一样、或者乐曲旋律的音调并不一 样,但其所哼出或唱出的内容与所希望选择的内容又有一定的相似性。比如一首乐曲是 C调的,录制的多媒体信息也是基于C调的,但人们哼出^t唱出的内容可以用F调或C 升调或C降调,但乐曲的韵律却基本相似,人们可以判断出是同一首乐曲;或者一首乐 曲是2/4节拍,但哼出或唱出的内容却可能是4/4节拍,但乐曲的韵律却基本相似,人 们可以判断出是同一首乐曲。在这种情况下,现有技术是没有很好解决的。另一方面,对于媒体播放器,还存在的情况是,人们希望某条媒体信息从某个点 开始播放,现有技术通常是采用快进按钮或快退按钮,但这种操作方式,只能凭操作者 进行预估前进或后退位置,通常不准确,需要多次按快进按钮或快退按钮才能完成。现 有的数字媒体记录方式虽然提供了目录式菜单选择方式以选定某条媒体的播放,但仍然 不能解决按人们的期望快速控制媒体播放起点的问题。另外,音乐的版权问题,也越来越受到关注,特别是音乐的抄袭问题时有报道, 而且一些抄袭者为了躲避相应的法律规定的漏洞,将乐曲的音调或节拍稍作调整,使其 与原曲从形式上不同,但实体内容仍然相似,这种相似性如何被认为是抄袭,现有技术 也没有提出相应的方法。
技术实现思路
本专利技术所要解决的技术问题是如何更有效地从媒体存储体或从互联网络中选择所 需的多媒体信息并有效地随意控制媒体播放的起点。本专利技术采用语音特征提取、分段提 取、相似度计算、相似性判定的方法来实现声音控制电子设备或网络操作实现自动获取 所需多媒体信息。同时本专利技术的技术可以用于或者实现乐曲抄袭或相似性的自动判定。同时本专利技术的技术还可以实现乐曲自动翻页功能,使乐曲演奏者可以专心于乐曲的演 奏,而不需要手动切换乐曲的页面以及唱歌辅助学习功能术语说明本文中所指的语音特征是与输入语音的韵律相关的特征信息,而韵律 是以每个可识别的音节为基础,也就是说, 一段多媒体包含很多音节,而提取语音特征 时是以每个音节为基础获得的特征,每个音节的特征按顺序组合在一起即构成了这段多 媒体信息的整个韵律或旋律,因此所提取特征组合可以截取其中任意一段,作为本专利技术 中进行特征比对的基础。当一段语音输入包含多个旋律时,可以仅提取主旋律特征或者 提取所有旋律的特征。在本文中语音特征和特征信息是相同含义。术语说明本专利技术所指的媒体信息与多媒体信息具有相同的含义,都是指包含有 声音信息的语音信息、音乐信息、视频信息、数据信息或这些信息的任意组合。术语说明本专利技术所指相似度是指两个信息之间采用相关性算法得出的表示信息 相关性的数据,所述相关性算法包含线性相关性计算方法或非线性相关性计算方法。线 性相关性计算方法和非线性相关性计算方法在现有的数学领域和实验物理学中已经给 出了很多种数学模型和计算方法,作为与本专利技术相关联的现有技术进行引用。为解决上述问题,提出的技术解决方案是1、 一种多媒体播放装置第一种方案,包括存储了至少一条多媒体信息的信息存储体和 多媒体信号输出部件,其特征是还包括-声音输入部件,既可以是通过声音传感器输入声音,也可以是是一段预先制作的声 音文件输入信息;特征提取部件,从所述声音输入部件输入的声音信号或信息中提取第一特征信息; 媒体信息特征存储部件,存储了对应于所述每条多媒体信息的第二特征信息; 特征相似性计算部件,用于判断所述第一特征信息与所述每条多媒体信息的第二特 征信息中的任意一段信息的相似度;特征相似性判断部件,从所述相似度数据中选取相似度最大值;多媒体信息选择部件,从所述信息存储体中选择相似度最大值的信息段所在的那条 多媒体信息传送到所述多媒体信号输出部件。2、 一种多媒体播放装置第二种方案,包括存储了至少一条多媒体信息的信息存储体和 多媒体信号输出部件,其特征是还包括-6声音输入部件,既可以是通过声音传感器输入声音,也可以是是一段预先制作的声音文件输入信息;特征提取部件,从所述声音输入部件输入的声音信号或信息中提取第一特征信息; 媒体信息特征计算部件,计算对应于所述每条多媒体信息的第二特征信息; 特征相似性计算部件,用于判断所述第一特征信息与所述每条多媒体信息的第二特 征信息中的任意一段信息的相似度;特征相似性判断部件,从所述相似度数据中选取相似度最大值;多媒体信息选择部件,从所述信息存储体中选择相似度最大值的信息段所在本文档来自技高网...
【技术保护点】
一种自动翻页装置,包括存储了至少一条多媒体信息的信息存储体和显示部件,其特征是还包括: 声音输入部件; 特征提取部件,从所述声音输入部件输入的声音信号或信息中提取第一特征信息; 媒体信息特征存储部件,存储了对应于所述每条多 媒体信息的第二特征信息; 特征相似性计算部件,用于计算并判断所述第一特征信息与所述显示部件所显示的多媒体信息的部分所对应第二特征信息相似度最大的信息段所对应的多媒体信息的当前位置; 翻页判断部件,当所述多媒体信息的当前位置是所述 显示部件所显示的多媒体信息的部分的结尾则所述显示部件显示所述多媒体信息的下一页内容。
【技术特征摘要】
【专利技术属性】
技术研发人员:须清,
申请(专利权)人:北京派瑞根科技开发有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。