基于多模态的音乐视频生成视频彩铃的方法技术

技术编号：42500939 阅读：7 留言：0更新日期：2024-08-22 14:13

本发明专利技术公开了一种基于多模态的音乐视频生成视频彩铃的方法，包括以下步骤：S10，对输入的视频数据进行预处理，所述预处理包括视频和音频分离以及音频重采样；S20，对重采样后的音频文件进行音频特征提取，基于提取的音频特征，利用自相似性和动态规划算法自动识别和定位音频中的副歌段落；S30，将副歌部分对应的视频内容调整为竖屏格式；S40，将视频文件进行抽帧，使用OCR技术识别视频中的字幕文本，并通过图像处理技术擦除字幕；S50，将视频内容进行超分辨率处理，得到高分辨率的视频文件。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于音视频处理，具体涉及一种基于多模态的音乐视频生成视频彩铃的方法。

技术介绍

1、目前在剪辑软件中制作视频彩铃会遇到以下一些问题：(1)手动编辑与转换的低效率：当前视频彩铃的生成多依赖于手动编辑和转换，这不仅耗时耗力，而且效率低下。在音乐类视频处理上目前人工需要反复收听，以确定歌曲精彩部分，耗费精力和时间。手动处理难以适应快速增长的用户需求和个性化定制的趋势。(2)视觉效果的限制：现有技术在将横屏视频转换为竖屏格式时，常常无法有效保留视频的视觉焦点，导致重要内容的丢失或画面比例的扭曲，影响用户体验。(3)分辨率与清晰度不足：由于缺乏有效的超分辨率处理技术，经转换的视频彩铃在高分辨率显示设备上常常显得模糊，无法满足用户对清晰度和细节的需求。(4)字幕处理不佳：现有技术在处理字幕时，往往难以准确识别和擦除原视频中的字幕。

技术实现思路

1、鉴于以上存在的问题，本专利技术提供一种基于多模态的音乐视频生成视频彩铃的方法，通过利用先进的计算机视觉、音频旋律处理、字幕识别与画面重绘、超分辨率和机器学习技术，可以在很大程度上解决音乐类视频彩铃制作所面临的问题。

2、为解决上述技术问题，本专利技术采用如下的技术方案：

3、一种基于多模态的音乐视频生成视频彩铃的方法，包括以下步骤：

4、s10，对输入的视频数据进行预处理，所述预处理包括视频和音频分离以及音频重采样；

5、s20，对重采样后的音频文件进行音频特征提取，基于提取的音频特征，利用

6、s30，将副歌部分对应的视频内容调整为竖屏格式；

7、s40，将视频文件进行抽帧，使用ocr技术识别视频中的字幕文本，并通过图像处理技术擦除字幕；

8、s50，将视频内容进行超分辨率处理，得到高分辨率的视频文件。

9、一种可能的实施方式中，所述s10中视频和音频分离具体包括：

10、输入原始音乐视频文件`input_video.mp4`；

11、使用ffmpeg工具库中的`ffmpeg`命令行工具实现视频和音频的分离；

12、分离出音频文件`extracted_audio.aac`，包括音频流信息。

13、一种可能的实施方式中，所述s20中对重采样后的音频文件进行音频特征提取包括：

14、输入重采样后的音频文件`resampled_audio.aac`；

15、使用librosa库提取音频信号的mel频率倒谱系数mfcc作为音频的特征表示mfcc(t)＝dct{log(s(t))}，其中dct表示离散余弦变换，s(t)是经过梅尔滤波器组处理的功率谱；参数设置为采样率44.1khz，窗口长度2048个样本；跳跃长度512个样本，mfcc系数数量为20；

16、输出得到mfcc特征数组，形式为二维numpy数组。

17、一种可能的实施方式中，所述s20中基于提取的音频特征，利用自相似性和动态规划算法自动识别和定位音频中的副歌段落包括：

18、输入为mfcc特征数组；

19、进行自相似性矩阵ssm构建和相似度计算，对于音频中的每个时间段ti和tj，相似度s(ti,tj)通过它们的特征向量的余弦相似度来计算：

20、其中，→v(t)表示在时间t的mfcc音频特征向量，使用mfcc，提取20个系数；窗口长度以帧为单位，每帧20ms至40ms；

21、利用ssm，通过动态规划搜索重复出现的高相似度模式，包括初始化、递归定义和回溯，识别为副歌段落；

22、进行递归定义，定义d(i,j)为以ti和tj为结尾的最长相似子序列的长度，其递推关系如下：

23、d(i-1,j-1)+1&
ext{if}s(t_i,t_j)>
heta\\0&
ext{otherwise}\end{cases}\]其中，\(
heta\)是预定义的相似度阈值，用于确定两个时间点是否足够相似以被认为是音乐的同一部分，其中，相似度阈值设置为0.7，最小重复次数为2；

24、输出得到副歌时间区间，格式为起始和结束时间戳，单位为毫秒。

25、一种可能的实施方式中，所述s30中将副歌部分对应的视频内容调整为竖屏格式包括：

26、从输入视频中抽取关键帧图像；

27、根据关键帧内容，动态确定视频裁剪区域，包括人脸识别与物体识别，并在视频序列中连续定位人物与物体的位置；

28、动态视角规划，根据人物与物体位置的结果，规划一系列动态视角调整策略，为视角变换提供依据；

29、采用视频稳定技术对输出视频进行处理，视频稳定通过包括光流估计和全局运动估计方法实现，裁剪比例为9:16，适配竖屏显示，进行视频裁剪。

30、采用本专利技术具有如下的有益效果：

31、(1)副歌提取：利用自相似性和动态规划算法结合音频特征分析，自动识别并准确提取音乐视频中的副歌部分。相比传统方法，这一过程不仅效率更高，而且能够准确地识别音乐中的高潮部分，即使在音乐结构复杂或含有多个重复部分的情况下也能保持高准确率，确保了视频彩铃内容的吸引力和传唱度。

32、(2)竖屏转换：通过动态视角调整技术，能够将横屏视频智能转换为竖屏格式，同时保证关键视觉内容不被遗漏或扭曲。与简单的裁剪或拉伸方法相比，这种智能调整确保了视频彩铃在手机终端的观看体验。

33、(3)字幕处理：采用先进的图像识别和图像修复技术，能够自动识别并擦除视频中的原有字幕。这种方法提升了视觉质量，对比人工处理时更显优势。

34、(4)分辨率处理：基于深度学习的超分辨率技术，本专利技术能够显著提高经过竖屏转换和字幕处理后视频的分辨率和清晰度。相较于传统的分辨率提升方法，这一技术能够实现更为细腻和真实的画面质量提升，确保了视频彩铃在高分辨率显示设备上的观看体验。

本文档来自技高网...

【技术保护点】

1.一种基于多模态的音乐视频生成视频彩铃的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于多模态的音乐视频生成视频彩铃的方法，其特征在于，所述S10中视频和音频分离具体包括：

3.如权利要求2所述的基于多模态的音乐视频生成视频彩铃的方法，其特征在于，所述S20中对重采样后的音频文件进行音频特征提取包括：

4.如权利要求3所述的所述的基于多模态的音乐视频生成视频彩铃的方法，其特征在于，所述S20中基于提取的音频特征，利用自相似性和动态规划算法自动识别和定位音频中的副歌段落包括：

5.如权利要求1所述的所述的基于多模态的音乐视频生成视频彩铃的方法，其特征在于，所述S30中将副歌部分对应的视频内容调整为竖屏格式包括：

【技术特征摘要】

1.一种基于多模态的音乐视频生成视频彩铃的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于多模态的音乐视频生成视频彩铃的方法，其特征在于，所述s10中视频和音频分离具体包括：

3.如权利要求2所述的基于多模态的音乐视频生成视频彩铃的方法，其特征在于，所述s20中对重采样后的音频文件进行音频特征提取包括：...

【专利技术属性】
技术研发人员：范涛，田建国，叶建华，
申请(专利权)人：杭州当虹科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人