多媒体数据处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:34999132 阅读:19 留言:0更新日期:2022-09-21 14:48
本公开提供了一种多媒体数据处理方法、装置、电子设备及可读存储介质,涉及数据处理技术领域和图像处理技术领域,尤其涉及深度学习、语音技术等人工智能技术领域。具体实现方案为:获取待处理的多媒体数据的至少两个模态数据;所述至少两个模态数据包括文本模态数据、音频模态数据和图像模态数据中的至少两个;对所述至少两个模态数据进行切分处理,以获得所述至少两个模态数据的数据片段;对所述至少两个模态数据的数据片段进行融合处理,以获得所述多媒体数据的至少两个多媒体片段。获得所述多媒体数据的至少两个多媒体片段。获得所述多媒体数据的至少两个多媒体片段。

【技术实现步骤摘要】
多媒体数据处理方法、装置、电子设备及可读存储介质


[0001]本公开涉及数据处理
和图像处理
,尤其涉及深度学 习、语音技术等人工智能


技术介绍

[0002]随着科技的快速发展,在多媒体数据的分类、存储、搜索、推荐等应 用场景中,多媒体数据的内容切分十分重要。
[0003]通常,操作人员需要自己完整的看完多媒体数据,然后,根据多媒体 数据的内容进行手动切分。

技术实现思路

[0004]本公开提供了一种多媒体数据处理方法、装置、电子设备及可读存储 介质。
[0005]根据本公开的一方面,提供了一种多媒体数据处理方法,包括:
[0006]获取待处理的多媒体数据的至少两个模态数据;所述至少两个模态数 据包括文本模态数据、音频模态数据和图像模态数据中的至少两个;
[0007]对所述至少两个模态数据进行切分处理,以获得所述至少两个模态数 据的数据片段;
[0008]对所述至少两个模态数据的数据片段进行融合处理,以获得所述多媒 体数据的至少两个多媒体片段。
[0009]根据本公开的另一方面,提供了一种多媒体数据处理装置,包括:
[0010]获取单元,用于获取待处理的多媒体数据的至少两个模态数据;所述 至少两个模态数据包括文本模态数据、音频模态数据和图像模态数据中的 至少两个;
[0011]分段单元,用于对所述至少两个模态数据进行切分处理,以获得所述 至少两个模态数据的数据片段;
[0012]融合单元,用于对所述至少两个模态数据的数据片段进行融合处理, 以获得所述多媒体数据的至少两个多媒体片段。
[0013]根据本公开的再一方面,提供了一种电子设备,包括:
[0014]至少一个处理器;以及
[0015]与所述至少一个处理器通信连接的存储器;其中,
[0016]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被 所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的 方面和任一可能的实现方式的方法。
[0017]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算 机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面 和任一可能的实现方式的方法。
[0018]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程 序,所述计
算机程序在被处理器执行时实现如上所述的方面和任一可能的 实现方式的方法。
[0019]由上述技术方案可知,本公开实施例通过融合了多媒体数据的多个模 态数据,使得能够从多个角度分析出多媒体数据的内容,进而实现对多媒 体数据的正确切分,从而提高了多媒体数据切分的效率和可靠性。
[0020]另外,采用本公开所提供的技术方案,能够有效地提高用户的体验。
[0021]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键 或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下 的说明书而变得容易理解。
附图说明
[0022]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述 中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。附图用 于更好地理解本方案,不构成对本公开的限定。其中:
[0023]图1是根据本公开第一实施例的示意图;
[0024]图2是根据本公开第二实施例的示意图;
[0025]图3是用来实现本公开实施例的多媒体数据处理方法的电子设备的框 图。
具体实施方式
[0026]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实 施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本 领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和 修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的 描述中省略了对公知功能和结构的描述。
[0027]显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。 基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提 下所获得的全部其他实施例,都属于本公开保护的范围。
[0028]需要说明的是,本公开实施例中所涉及的终端设备可以包括但不限于 手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、 平板电脑(Tablet Computer)等智能设备;显示设备可以包括但不限于个 人电脑、电视等具有显示功能的设备。
[0029]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系, 表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时 存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示 前后关联对象是一种“或”的关系。
[0030]随着科技的快速发展,在多媒体数据的分类、存储、搜索、推荐等应 用场景中,多媒体数据的内容切分十分重要。
[0031]通常,操作人员需要自己完整的看完多媒体数据,然后,根据多媒体 数据的内容进行手动切分。
[0032]以视频新闻为例,通常,一期视频新闻由多个新闻片段组成,不同的 新闻片段相对独立,有着不同的主题内容,各广播媒体或者电视台的新闻 编辑等,有对这些新闻片段
进行抽取的需求,方便后续对这些新闻片段进 行归档、检索或者剪辑再创作。
[0033]传统过程是需求方需要自己完整的看完视频,然后根据视频新闻的内 容进行手动切分,十分耗时耗力,而且容易出错。因此,对自动化的视频 新闻的拆分处理有比较大的需求。
[0034]类似地,其他多媒体数据也存在相同的需求。
[0035]图1是根据本公开第一实施例的示意图,如图1所示。
[0036]101、获取待处理的多媒体数据的至少两个模态数据。
[0037]其中,所述至少两个模态数据可以包括但不限于文本模态数据、音频 模态数据和图像模态数据中的至少两个,本实施例对此不进行特别限定。
[0038]102、对所述至少两个模态数据进行切分处理,以获得所述至少两个 模态数据的数据片段。
[0039]103、对所述至少两个模态数据的数据片段进行融合处理,以获得所 述多媒体数据的至少两个多媒体片段。
[0040]至此,获得了多媒体数据的多个多媒体片段,实现了多媒体数据的自 动切分能够有效满足多媒体片段抽取的需求,方便后续对这些片段进行归 档、检索或者剪辑再创作。
[0041]需要说明的是,101~103执行主体的部分或全部可以为位于本地终端 的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工 具包(Software Development Kit,SDK)等功能单元,或者还可以为位于 网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多媒体数据处理方法,包括:获取待处理的多媒体数据的至少两个模态数据;所述至少两个模态数据包括文本模态数据、音频模态数据和图像模态数据中的至少两个;对所述至少两个模态数据进行切分处理,以获得所述至少两个模态数据的数据片段;对所述至少两个模态数据的数据片段进行融合处理,以获得所述多媒体数据的至少两个多媒体片段。2.根据权利要求1所述的方法,其中,所述对所述至少两个模态数据进行切分处理,以获得所述至少两个模态数据的数据片段,包括:根据所述至少两个模态数据,分别确定特定特征对象在所述至少两个模态数据中出现的位置;根据所述位置,对所述至少两个模态数据进行切分处理,以获得所述至少两个模态数据中各模态数据的至少两个数据片段。3.根据权利要求2所述的方法,其中,所述根据所述至少两个模态数据,分别确定特定特征对象在所述至少两个模态数据中出现的位置,包括:针对文本模态数据,识别特定文本类型的文本信息,以作为所述特定特征对象;确定所述特定特征对象在所获取的文本模态数据中出现的位置。4.根据权利要求3所述的方法,其中,所述对所述至少两个模态数据进行切分处理,以获得所述至少两个模态数据的数据片段,还包括:基于所述文本模态数据的至少两个数据片段的语义特征,将所述文本模态数据的至少两个数据片段中语义相似的数据片段进行合并处理。5.根据权利要求2所述的方法,其中,所述根据所述至少两个模态数据,分别确定特定特征对象在所述至少两个模态数据中出现的位置,包括:针对音频模态数据,识别声纹特征,以作为所述特定特征对象;确定所述特定特征对象在所获取的音频模态数据中出现的位置。6.根据权利要求2所述的方法,其中,所述根据所述至少两个模态数据,分别确定特定特征对象在所述至少两个模态数据中出现的位置,包括:针对图像模态数据,识别镜头切换信息、场景信息和人脸信息中的至少一个,以作为所述特定特征对象;确定所述特定特征对象在所获取的图像模态数据中出现的位置。7.根据权利要求6所述的方法,其中,所述对所述至少两个模态数据进行切分处理,以获得所述至少两个模态数据的数据片段,还包括:基于所述图像模态数据的至少两个数据片段的语义特征,对所述图像模态数据的至少两个数据片段中语义相似的数据片段进行合并处理。8.根据权利要求2

7中任一项所述的方法,其中,所述根据所述位置,对所述至少两个模态数据进行切分处理,以获得所述至少两个模态数据中各模态数据的至少两个数据片段之后,还包括:利用不同模态数据的至少两个数据片段,对所述各模态数据的至少两个数据片段进行校准处理,以调整所述各模态数据的至少两个数据片段。9.一种多媒体数据处理装置,包括:
获取单元,用于获取待处理的多媒体数据的至...

【专利技术属性】
技术研发人员:唐鑫王冠皓
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1