一种系统和方法,提供用于基于音频流的内容特性而自适应地代码转换音频流的音频/视频编码系统。系统的音频流元数据提取模块被配置成提取源音频流的元数据。系统的音频流分类模块被配置成基于源音频流的元数据将源音频流分类成若干音频内容类别之一。系统的自适应音频编码器被配置成基于源音频流的元数据和分类来确定包括目标比特率和采样速率的一个或者多个代码转换参数。系统的自适应音频代码转换器被配置成使用代码转换参数将源音频流代码转换成输出音频流。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及音频/视频托管系统,并且更具体地涉及一种用于基于音频流内容特性的音频流的自适应代码转换的音频代码转换系统。
技术介绍
多媒体内容托管服务诸如YOUTUBE允许用户将视频与它们的对应音频流一起发布。音频流可以是压缩或者未压缩的、包括FLAC、WAV、MP3、AAC、OGG等的许多音频文件格式之一。大多数媒体内容托管服务将源音频流从它的固有格式(例如,FLAC)代码转换成客户端回放(playback)设备请求的文件格式(例如,WAV)。音频流的音频代码转换也可以包括减少音频流的比特率、减少音频流的采样速率、压缩音频流、减少由音频数据代表的音频通道的数目或者这些过程的组合。代码转换可以用来减少存储要求并且也减少用于向客户端供应音频流的带宽要求。在为具有数以百万计音频的多媒体托管服务设计音频代码转换系统时的一个挑战是在可接受的声音质量与减少的比特率之间的平衡折衷下代码转换并且存储音频。常规音频代码转换系统无论音频流的内容特性如何改变都使用固定目标比特率和/或固定采样速率以代码转换多个音频流。然而,考虑大型音频全集的情况,音频流在比特率、采样速率、通道的数目和内容复杂性(例如,音乐或者话音)方面而有所不同。用相同目标比特率和采样速率对每个音频流编码未必在每个情况下产生可接受的声音质量。向具有不同内容特性的两个音频流应用的相同目标比特率造成不同声音质量。使用固定目标比特率对具有变化的内容特性的音频流编码劣化了用于多媒体托管服务的常规音频代码转换系统所处理的声音质量。
技术实现思路
一种方法、系统和计算机程序产品,提供音频流的自适应代码转换,该代码转换基于用于多媒体托管服务的音频流的音频内容特性。在一个实施例中,自适应音频代码转换方法接收用于代码转换的源音频流。自适应音频代码转换方法提取源音频流的元数据,其中源音频流的元数据描述源音频流的音频内容特性。自适应音频代码转换方法基于源音频流的置信度得分将源音频流分类为若干音频内容类别之一。音频内容类别使用诸如话音、音乐、电影或者甚至音乐流派之类的类别来代表音频内容的语义方面。源音频流的更高置信度得分指示源音频流是特定类型诸如话音音频流的更高概率。自适应音频代码转换方法基于源音频流的元数据和分类来确定源音频流的代码转换参数,例如,目标比特率和目标采样速率。自适应音频代码转换方法使用代码转换参数来代码转换源音频流并且输出代码转换的音频流。在另一实施例中,自适应音频代码转换系统包括音频流元数据提取模块、音频流分类模块、自适应音频编码器和自适应音频代码转换器。音频流元数据提取模块被配置成提取音频流的元数据,并且元数据描述音频流的音频内容特性。音频流分类模块被配置成基于提取的元数据对音频流进行分类。自适应音频编码器被配置成基于提取的元数据和分类来确定音频代码转换参数,例如,目标比特率和采样速率。自适应音频代码转换器被配置成使用音频代码转换参数来代码转换音频流。在说明书中描述的特征和优点并非囊括性的,并且特别是许多附加特征和优点将按照附图、说明书和权利要求书为本领域普通技术人员所清楚。因而,本说明书旨在于举例说明而不是限制在所附权利要求中阐述的本专利技术的范围。附图说明图1是图示了具有自适应音频代码转换系统的音频/视频托管服务的系统视图的框图。图2是自适应音频代码转换系统的功能模块的框图。图3是使用图2中所示功能模块的自适应地代码转换音频流的流程图。附图仅出于示例的目的而描绘本专利技术的各种实施例,并且本专利技术不限于这些所示实施例。本领域技术人员根据下文讨论将容易认识到可以运用这里所示结构和方法的备选实施例而不脱离这里描述的本专利技术的原理。具体实施例方式1.系统概况图1是具有自适应音频代码转换系统200的音频/视频托管服务100的系统视图的框图。多个用户/查看者使用客户端110A-N向音频/视频托管服务100发送音频/视频托管请求、比如将视频与它们的关联音频流一起向视频托管网站上传、并且从音频/视频托管服务100接收所请求的服务。音频/视频托管服务100经由网络130与一个或者多个客户端110通信。音频/视频托管服务100从客户端110接收音频/视频托管服务请求、通过自适应音频代码转换系统200代码转换源音频流并且向客户端110返回经代码转换的源音频流。转向图1上图示的个体实体,每个客户端110由用户用来请求音频/视频托管服务。例如,用户使用客户端110以发送用于上传视频及其关联音频流,以用于共享或者用于将视频与它的关联音频流一起播放的请求。客户端110可以是任何类型的计算机设备,诸如个人计算机(例如,台式、笔记本、膝上型)计算机以及诸如移动电话、个人数字助理、具有IP功能的视频播放器之类的设备。客户端10通常包括处理器、显示设备(或者向显示设备的输出)、客户端110将用户在执行任务时使用的数据存储到的本地储存器诸如硬驱动或者闪存设备和用于经由网络130耦合到系统100的网络接口。客户端110也具有用于将视频流与它的关联音频流一起播放的音频/视频播放器120 (例如,来自Adobe Systems公司的FlashTM播放器或者专有播放器)。音频/视频播放器120可以是独立应用、向另一应用诸如网络浏览器的插件或者客户端的操作系统/环境的固有支持的特征。当客户端110是通用设备(例如,台式计算机、移动电话)时,播放器120通常被实现为由计算机执行的软件。当客户端110为专用设备(例如,专用音频/视频播放器)时,可以在硬件或者硬件与软件的组合中实现播放器120。所有这些实现就本专利技术而言在功能上等效。播放器120包括用于选择音频馈送、开始、停止和倒回音频馈送的用户接口控件(和对应应用编程接口)。播放器120也可以在它的用户接口中包括配置成指示多少音频通道用来回放音频流的音频通道选择(例如,单通道单声道声音或者多通道立体声声音)。其它类型的用户接口控件(例如,按钮、键盘控件)也可以用来控制播放器120的回放和音频通道选择功能。网络130启用在客户端110与音频/视频托管服务100之间的通信。在一个实施例中,网络130是因特网并且使用现在已知或者以后开发的标准化网际联网通信技术和协议,这些技术和协议使客户端110能够与音频/视频托管服务100通信。音频/视频托管服务100包括自适应音频代码转换系统200、音频/视频服务器104和音频/视频数据库106。音频/视频服务器104接收用户上传的音频/视频并且在音频/视频数据库106中存储音频/视频。音频/视频服务器104也响应于用户音频/视频托管服务请求来供应来自音频/视频数据库106的音频/视频。音频/视频数据库106存储用户上传的音频文件和由自适应音频代码转换系统200代码转换的音频文件。可以使用单个计算机或者包括基于云的计算机实现的计算机网络来实现服务100。计算机优选地是服务器类计算机,这些计算机包括一个或者多个高性能CPU和IG或者更多主存储器以及500Gb至2TB计算机可读的持久储存器,并且运行操作系统诸如LINUX或者其变体。可以通过硬件或者通过安装于计算机储存器中并且由这样的服务器的处理器执行的计算机程序控制如这里描述的服务100的操作以执行这里描述的功能。服务100包括这里描述的操作所必需的其它硬件单元,这些硬件单元本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:易小泉,王会胜,V·沙斯特里,
申请(专利权)人:谷歌公司,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。