本发明专利技术提供一种内容可适性的多媒体处理系统与处理方法,整合视频分析、音频分析及文字分析等结果进行决策处理,将包含视频、音频及字幕的多媒体内容,在兼顾视频、音频及文字内容的处理方式下,转换为可在不同播放装置上取得较佳观看效果的多媒体内容。通过本系统,原始多媒体内容经处理后,在不同的播放装置,如不同显示尺寸的行动装置,或不同显示比例的计算机程序窗口上播放时,仍可将使用者感兴趣的视频内容作最大程度的保留,使画面不因屏幕缩小或比例改变而丧失重要细节,同时突显音频中重要内容,调整字幕的显示位置及显示方式。
【技术实现步骤摘要】
本专利技术关于一种,特别是关于一种可根 据内容分析结果,将包含视频、音频及字幕的多媒体内容作一内容编辑、格式转换及多媒体 压缩编码,使产生的多媒体内容,在不同播放装置上可取得较佳观看效果的方法。
技术介绍
随着科技进步,在行动装置上观看影片或电视的多媒体应用越来越多,由于多媒 体来源多具有高分辨率、多声道的特色,而行动装置种类繁多,屏幕显示尺寸及显示比例也 不尽相同,如需于行动装置上的屏幕播放,在屏幕播放尺寸、装置播放能力、网络传输频宽 及多媒体储存空间的考虑下,多媒体串流或多媒体档案需经过一番转换,以符合行动装置 的屏幕尺寸及维持播放的流畅度。在视频部分,目前传统作法将多媒体的视频内容等比例缩小至符合行动装置屏幕 的尺寸。然而由于受限于行动装置的屏幕大小,使用者于行动装置的小屏幕上,常无法取得 等同于电视屏幕或计算机屏幕等其它显示装置上的观看效果及体验。例如视频画面上的关 键物体,经过与整个画面等比例一起缩放后,将无法于行动装置的屏幕保留该关键物体的 细节、无法呈现原来的重要性。在音频部分,受限于行动装置的音效播放装置,因此原始多媒体的音频内容,也须 作适度转换以符合于行动装置上播放。目前传统作法是直接采用降混(downmix)的方式, 将多声道音频内容降为立体声或单声道的音频内容。由于行动装置移动性佳的特性,音频 容易受到所在环境噪音的干扰,使重要的音频内容,不容易收听清楚。且行动装置因喇叭大 小与功率的限制有较差的频率响应,会造成如爆炸音等背景音效明显的失真、或背景音效 太大声造成前景音效如对白相对太小声,使用者时常需要调整音量。而受限于行动装置的屏幕大小,原始的字幕文字内容,若全部显示于画面上,则需 与原始画面同比例缩放,此法将导致文字过小及拥挤而不易看清。如采用字幕文字与原始 画面不同比例缩放,则又会发生文字过大而遮蔽过多画面或字幕过长而超出画面显示范围 的问题。
技术实现思路
有鉴于现有技术针对多媒体视频、音频与字幕在进行缩放时会损失细节的问题, 本专利技术提出一个系统、计算机程序产品及相关方法,整合视频分析、音频分析、文字分析等 方法所得结果,利用决策模块分析整合数据,进行视频、音频及字幕文字的内容的自动调 整,以产生在不同播放装置上播放时,尤其是行动装置上播放时,仍能取得最佳观赏效果的 多媒体内容。实施例即针对多媒体的视频、音频及字幕文字等内容分别进行视频分析、音频分 析及文字分析,分析的结果,根据不同的播放装置设定,经决策判断及处理后,产出适当的 多媒体内容。本专利技术的流程包含内容分析、决策及内容处理,当含有视频、音频及字幕文字的原 始多媒体数据输入本系统后,本系统先针对多媒体数据进行内容分析,根据内容分析的结 果,进行整合及决策判断,经处理后,最后产出适当的多媒体数据。其中原始多媒体数据及 产出的多媒体数据可为包含视频、音频及字幕文字的档案或串流。内容分析流程包含视频 分析、音频分析、文字分析及人工分析。视频分析、音频分析、文字分析及人工分析的结果, 再经由决策流程根据环境参数及事先设定的规则进行判断,以决定多媒体内容的处理方 式,例如影像缩放程度、背景声抑制程度或字幕摆放位置。最后内容处理流程则根据决策流 程所决定的处理方式,实际处理并整合视频、音频及字幕文字内容,产出最后的结果。本专利技术的目的在于能提供一个处理多媒体内容的系统、计算机程序产品及相关方 法,使多媒体内容在不同的播放装置播放时,例如尺寸较小的行动装置屏幕,或计算机上不 同显示比例的窗口,仍能取得较佳的观看效果。原始多媒体内容经由内容分析的方式,将使 用者感兴趣的视频内容作最大程度的保留,使画面不因屏幕缩小或比例改变而丧失重要细 节,同时突显音频中重要内容,调整字幕的显示位置及显示方式,在兼顾视频、音频及文字 内容的处理方式下,产生符合于不同播放装置上观看的多媒体数据。本专利技术的应用范围,可为服务器端采用实时或预先处理的方式,将多媒体来源,根 据本专利技术所提出的方法,重新编码为适合不同装置观看的多媒体内容,供使用者以实时串 流的方式,或非实时下载多媒体档案的方式,在使用者的播放装置屏幕上观赏多媒体内容。 本专利技术的应用范围,也可为服务器端根据本专利技术提出的方法,预先产生好描述指令,再交由 多媒体处理系统产生内容。本专利技术的适用范围,包含使用者通过行动装置、个人计算机或其 它装置,以播放软件或网络浏览器或其它程序,播放本地端或远程多媒体档案的应用。本 专利技术可应用的播放装置,包含行动电话、个人数字助理(PDA)、笔记型计算机、数字视频播放 器,但不受限于以上所提及的装置。附图说明 图1为根据本专利技术的架构图实施例;图2为本专利技术的流程架构图的另一实施例;图3为本专利技术关于视频分析子单元的架构图实施例;图4为本专利技术关于注意力模型(Attention model)的应用实施例;图5为本专利技术关于复位目标(Retarget)的应用实施例;图6为本专利技术关于瞳位追踪(Eye/gaze tracking)的应用实施例;图7为本专利技术关于音频分析子单元的架构图实施例;图8为本专利技术关于语音与音乐侦测模块的应用实施例;图9为本专利技术关于文字分析子单元的架构图实施例;图10为本专利技术关于字幕文字采用关键词的应用实施例;图11为本专利技术关于字幕文字采用断句与快速显示的应用实施例;图12为本专利技术关于判断字幕文字显示位置的应用实施例;图13为本专利技术关于决策单元的实施例。主要组件符号说明内容分析单元11决策单元13多媒体处理单元15原始多媒体数据10视频分析子单元111音频分析子单元113文字分析子单元115人工分析140环境参数160处理后多媒体数据18内容分析单元21决策单元23多媒体处理单元25原始多媒体数据20内容分析单元21视频分析子单元211音频分析子单元213文字分析子单元215人工分析240环境参数260描述指令集28处理后多媒体数据29分析决策子系统2多媒体处理子系统3视频分析子单元32决策单元34场景侦测模块321注意力模型模块323复位目标模块325瞳位追踪模块327原始视频数据30音频分析结果341文字分析结果343人工分析结果345环境参数347,747,947影像内容401,403,405注意力模型模块41决策单元43行动装置47影像内容 501,503,505,507决策单元53多媒体处理单元55行动装置57复位目标模块51影像内容601,603,605瞳位追踪模块61决策单元63音频分析子单元72决策单元74语音与音乐侦测模块721语者辨识模块723原始音频数据701视频分析结果741文字分析结果743人工分析结果745文字分析子单元92语意标记模块921字句分段模块923原始字幕数据901决策单元94视频分析结果941音频分析结果943人工分析结果94具体实施例方式请参考图1所示本专利技术所提供的内容可适性的多媒体处理系统的架构图实施例, 此实施例主要包含有内容分析单元11、决策单元13与多媒体处理单元15,其中内容分析单 元11用以分析多媒体数据的内容,决策单元13能用以决策多媒体内容的处理方式,以及利 用多媒体处理单元15对原始多媒体数据10进行内容编辑、格式转换及编码压缩产出适于 不同播放装置或是播放环境播放的处理后多媒体数据18。6内容本文档来自技高网...
【技术保护点】
1.一种内容可适性的多媒体处理系统,其特征在于,所述系统包括:一内容分析单元,接收多媒体数据,并分析该多媒体数据的内容,该内容分析单元包括:一视频分析子单元,用以分析该多媒体数据的视频内容;一文字分析子单元,用以分析该多媒体数据的文字内容;一音频分析子单元,用以分析该多媒体数据的音频内容;一决策单元,根据该内容分析单元针对该多媒体数据的分析结果决定一处理方式;以及一多媒体处理单元,根据该处理方式将原始的多媒体数据内容编辑、格式转换及多媒体压缩编码成适于特定播放环境的多媒体数据;其中,该内容分析单元传递视频分析结果、音频分析结果与文字分析结果至该决策单元,该决策单元整合视频分析结果、音频分析结果与文字分析结果,决定该处理方式。
【技术特征摘要】
【专利技术属性】
技术研发人员:寇世斌,倪嗣尧,蓝元宗,林仲毅,陈翊玮,
申请(专利权)人:大猩猩科技股份有限公司,
类型:发明
国别省市:71[中国|台湾]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。