多媒体数据处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：34999132 阅读：30 留言：0更新日期：2022-09-21 14:48

本公开提供了一种多媒体数据处理方法、装置、电子设备及可读存储介质，涉及数据处理技术领域和图像处理技术领域，尤其涉及深度学习、语音技术等人工智能技术领域。具体实现方案为：获取待处理的多媒体数据的至少两个模态数据；所述至少两个模态数据包括文本模态数据、音频模态数据和图像模态数据中的至少两个；对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据的数据片段；对所述至少两个模态数据的数据片段进行融合处理，以获得所述多媒体数据的至少两个多媒体片段。获得所述多媒体数据的至少两个多媒体片段。获得所述多媒体数据的至少两个多媒体片段。

全部详细技术资料下载

【技术实现步骤摘要】
多媒体数据处理方法、装置、电子设备及可读存储介质

[0001]本公开涉及数据处理
和图像处理
，尤其涉及深度学习、语音技术等人工智能

技术介绍

[0002]随着科技的快速发展，在多媒体数据的分类、存储、搜索、推荐等应用场景中，多媒体数据的内容切分十分重要。
[0003]通常，操作人员需要自己完整的看完多媒体数据，然后，根据多媒体数据的内容进行手动切分。

技术实现思路

[0004]本公开提供了一种多媒体数据处理方法、装置、电子设备及可读存储介质。
[0005]根据本公开的一方面，提供了一种多媒体数据处理方法，包括：
[0006]获取待处理的多媒体数据的至少两个模态数据；所述至少两个模态数据包括文本模态数据、音频模态数据和图像模态数据中的至少两个；
[0007]对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据的数据片段；
[0008]对所述至少两个模态数据的数据片段进行融合处理，以获得所述多媒体数据的至少两个多媒体片段。
[0009]根据本公开的另一方面，提供了一种多媒体数据处理装置，包括：
[0010]获取单元，用于获取待处理的多媒体数据的至少两个模态数据；所述至少两个模态数据包括文本模态数据、音频模态数据和图像模态数据中的至少两个；
[0011]分段单元，用于对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据的数据片段；
[0012]融合单元，用于对所述至少两个模...

【技术保护点】

【技术特征摘要】
1.一种多媒体数据处理方法，包括：获取待处理的多媒体数据的至少两个模态数据；所述至少两个模态数据包括文本模态数据、音频模态数据和图像模态数据中的至少两个；对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据的数据片段；对所述至少两个模态数据的数据片段进行融合处理，以获得所述多媒体数据的至少两个多媒体片段。2.根据权利要求1所述的方法，其中，所述对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据的数据片段，包括：根据所述至少两个模态数据，分别确定特定特征对象在所述至少两个模态数据中出现的位置；根据所述位置，对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据中各模态数据的至少两个数据片段。3.根据权利要求2所述的方法，其中，所述根据所述至少两个模态数据，分别确定特定特征对象在所述至少两个模态数据中出现的位置，包括：针对文本模态数据，识别特定文本类型的文本信息，以作为所述特定特征对象；确定所述特定特征对象在所获取的文本模态数据中出现的位置。4.根据权利要求3所述的方法，其中，所述对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据的数据片段，还包括：基于所述文本模态数据的至少两个数据片段的语义特征，将所述文本模态数据的至少两个数据片段中语义相似的数据片段进行合并处理。5.根据权利要求2所述的方法，其中，所述根据所述至少两个模态数据，分别确定特定特征对象在所述至少两个模态数据中出现的位置，包括：针对音频模态数据，识别声纹特征，以作为所述特定特征对象；确定所述特定特征对象在所获取的音频模态数据中出现的位置。6.根据权利要求2所述的方法，其中，所述根据所述至少两个模态数据，分别确定特定特征对象在所述至少两个模态数据中出现的位置，包括：针对图像模态数据，识别镜头切换信息、场景信息和人脸信息中的至少一个，以作为所述特定特征对象；确定所述特定特征对象在所获取的图像模态数据中出现的位置。7.根据权利要求6所述的方法，其中，所述对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据的数据片段，还包括：基于所述图像模态数据的至少两个数据片段的语义特征，对所述图像模态数据的至少两个数据片段中语义相似的数据片段进行合并处理。8.根据权利要求2
‑
7中任一项所述的方法，其中，所述根据所述位置，对所述至少两个模态数据进行切分处理，以获得所述至少两个模态数据中各模态数据的至少两个数据片段之后，还包括：利用不同模态数据的至少两个数据片段，对所述各模态数据的至少两个数据片段进行校准处理，以调整所述各模态数据的至少两个数据片段。9.一种多媒体数据处理装置，包括：
获取单元，用于获取待处理的多媒体数据的至...

【专利技术属性】
技术研发人员：唐鑫，王冠皓，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人