本发明专利技术公开了用于编辑图像/视频数据的图像/视频数据编辑设备和方法。在视频编辑设备(100)中,第一视频数据集描述第一视频中的第一场景。在描述多个第二视频中所包含的第二场景的第二视频数据集中,表示与第一场景具有最高相似度的第三场景的第三视频数据集被识别。评估与第三场景相关联的音频数据集。在多个第二音频数据集中,描述与第一声轨具有最高相似度的声轨的音频数据集被识别。第三音频数据集中的一个第三音频数据集可与第一视频数据集相组合以生成媒体输出数据集,其中,音频轨道根据用户的偏好被添加到视频数据集。
【技术实现步骤摘要】
本专利技术的实施例涉及静止图像和视频数据编辑领域,具体地,涉及通过将图像或 视频数据与适当的音频数据组合来生成图像或视频声轨。
技术介绍
静止图像和视频相机经常被通常缺少技能和时间来向个人静止图像画廊或自制 视频添加合适的声轨的业余爱好者使用。本专利技术的一个目的是提供一种使得用户可以以较少的精力和时间支出来创建可 变而有意思的图像或视频声轨的视频编辑设备和方法。该目的通过权利要求中所要求保护 的主题来实现。在从属权利要求中限定了更高级的实施例。
技术实现思路
根据本专利技术的一个方面,提供一种操作视频编辑设备100的方法,该方法包括获 取第一视频数据集,所述第一视频数据集描述第一视频中的第一场景;在所述视频编辑设 备100处,在描述多个第二视频中所包含的第二场景的第二视频数据集中,识别第三视频 数据集,所述第三视频数据集描述与所述第一场景具有最高相似度的第三场景;评估第一 音频数据集,所述第一音频数据集描述与所述第三场景相关联的第一声轨;以及组合所述 第一视频数据集和基于所述第一音频数据集中的至少一个第一音频数据集的新音频数据 集,以生成包括所述第一视频数据集和所述新音频数据集的媒体输出数据集。根据本专利技术的另一个方面,提供一种视频编辑设备,包括存储单元120 ;和处理 器单元101,所述处理器单元101与所述存储单元120连接并被配置为从所述存储单元 120获取第一视频数据集和第二视频数据集,所述第一视频数据集描述第一视频中的第一 场景,所述第二视频数据集描述多个第二视频中所包含的第二场景;在所述第二视频数据 集中识别第三视频数据集,所述第三视频数据集描述与所述第一场景具有最高相似度的第 三场景;评估第一音频数据集,所述第一音频数据集描述被指派给所述第三场景的第一声 轨;组合所述第一视频数据集和基于所述第一音频数据集中的至少一个第一音频数据集的 新音频数据集,以生成包含所述第一视频数据集和所述新音频数据集的媒体输出数据。根据本专利技术的另一个方面,提供一种一种视频编辑系统200,包括如上所述的视 频编辑设备100,以及至少一个另外的网络装置,所述另外的网络装置被配置为提供视频数 据库210,视频数据库210以可由所述视频编辑设备100访问的方式提供包括所述第二视频 数据集中的至少一些第二视频数据集,其中,所述视频编辑设备100和所述另外的网络装 置经由通信网络299相连接。附图说明从以下结合附图的实施例描述中,本专利技术的细节将变得更加明显。各个实施例的特征可以相互组合,除非它们相互排斥。图1是根据本专利技术一个实施例的视频编辑设备的示意图。图2是根据另一实施例的涉及根据图1的视频编辑设备和远程视频和音乐数据库 的视频编辑系统的示意图。图3是图示出根据另一实施例用于编辑静止图像或视频数据的方法的简化流程 图。图4是涉及数据库内容的用于图示出包括合适数据库的识别的一种编辑视频数 据的方法的示意图。图5是涉及数据库内容的用于图示出根据一个实施例为静止图像/视频数据中出 现的某种类型的物体提供某种类型的音乐的一种编辑视频数据的方法的示意图。图6是用于图示出根据本专利技术另一实施例的视频编辑过程中的合适数据库的使 用的示意图。具体实施例方式图1图示出自动地组合第一视频数据集和合适的音频数据集以提供用于第一视 频数据集的声轨的视频编辑设备100。例如,合适的音频数据集可以表示一首完整的乐曲、 一首乐曲的片段、自然噪声或人工声音。合适的音频数据集可以与第一视频数据集中原来 包含的原始音频数据集相组合。例如,合适的音频数据集可以描述被添加到由原始音频数 据集表示的语音上的背景音乐。根据其它实施例,合适的音频数据集完全替换原始音频数 据集。视频编辑设备100可以是具有视频编辑软件的个人计算机或具有视频编辑功能 的消费装置,例如,电视机、卡带式录像机(VCR)、数字通用盘(DVD)记录仪、蓝光解码器、静 止图像相机、摄像机或存储视频或图像数据的任意其它消费电子装置。视频编辑设备100 可以包含用于与其它电子装置通信的一个或多个接口单元130以及一个或多个数据存储 介质读取器140,例如硬盘(HD) ,DVD驱动器、蓝光驱动器或计算机,视频编辑设备100经由 它们接收媒体输入数据,所述媒体输入数据描述一个静止图像、包含多个静止图像的静止 图像画廊、包含一个场景的视频剪辑或包含多个场景的电影。媒体输入数据可以是具有或 没有音频信息的图像或视频数据。如果适用,处理器单元110可以将表示所要编辑的视频数据的媒体输入数据分割 成多个第一视频数据集,其中每个第一视频数据集描述媒体输入数据中的第一场景。例如, 第一场景可以是一个静止图像、示出在相同背景前或变化的背景前的同一物体或人物的静 止图像序列、包含相同背景的静止图像序列、专业或业余电影中的一个场景或者示出在相 同背景前的相同物体和人物的场景序列。第一视频数据集可以临时存储在视频编辑设备 100的存储单元120的第一部分121中。多个第二视频数据集可用于视频编辑设备100。第二视频数据集可以本地地或远 程地或者既本地又远程地提供。例如,视频编辑设备100可以包括第一视频数据库,第一视 频数据库包含第二视频数据集中的全部或一些。第一视频数据库可被存储在可由数据存储 介质读取器140读取的数据存储介质上,或者存储在可经由接口单元130访问的数据存储 介质上。根据一个实施例,接口单元130可以是这样的通信端口,视频编辑设备100可以经由该通信端口来访问可经由万维网访问的第二视频数据库。第二视频数据集可以表示完整的静止图像或业余视频或专业剪辑或电影的完整 场景。根据其它实施例,第二视频数据集仅仅(exclusively)包括压缩的与内容相关的信 息,压缩内容相关信息描述在可经由数据存储介质读取器140或经由接口单元130访问的 介质上可获得的第二视频数据集的内容。第二视频数据集可以临时存储在存储单元120的 第二部分122中。处理器单元110可以是被配置为执行程序存储器160中所存储的程序代码的微控 制器。处理器单元Iio从存储单元120获取第一视频数据集和第二视频数据集,第一视频 数据集描述由媒体输入数据表示的第一视频中的第一场景,并且第二视频数据集描述可经 由接口单元130或数据存储介质读取器140访问的多个第二视频中所包含的第二场景。在第二视频数据集中,处理器单元110识别第三视频数据集,第三视频数据集描 述与第一场景具有最高相似度的第三场景。相似度可以基于有关运动向量、色彩、边缘直方 图和镜头边界的频率的视频分析并基于涉及所要编辑的视频中存在的噪声类型和数量、语 音和背景音乐的音频分析来确定。每个第二视频数据集包含被指派给各个场景的音频轨道 片段。音频轨道片段可以表示一首乐曲、语音或自然或人工的背景噪声。被指派给第三场 景的音频轨道片段的内容由第一音频数据集(例如是第一首乐曲)表示。根据一个实施例,以下,仅单个与第一场景具有最高相似度的场景被识别为单个 的第三场景,之后,仅相应的音频数据集被评估。根据其它实施例,以下,某个数目(例如,3 个、10个或更多)的第三场景被识别,之后,多个第一音频数据集被评估。一旦已找到一个 或多个相似场景,这个或这些场景的声轨就被分析以确定用于生成相似声轨或从音本文档来自技高网...
【技术保护点】
1.一种操作视频编辑设备(100)的方法,该方法包括:获取第一视频数据集,所述第一视频数据集描述第一视频中的第一场景;在所述视频编辑设备(100)处,在描述多个第二视频中所包含的第二场景的第二视频数据集中,识别第三视频数据集,所述第三视频数据集描述与所述第一场景具有最高相似度的第三场景;评估第一音频数据集,所述第一音频数据集描述与所述第三场景相关联的第一声轨;以及组合所述第一视频数据集和基于所述第一音频数据集中的至少一个第一音频数据集的新音频数据集,以生成包括所述第一视频数据集和所述新音频数据集的媒体输出数据集。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:亚那·埃格尹克,
申请(专利权)人:索尼公司,
类型:发明
国别省市:JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。