System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及新闻视频的智能剪辑与拆条,尤其是涉及一种基于图片相似度与语义聚类的视频高效拆条方法。
技术介绍
1、在当前信息社会中,视频数据的数量急剧增长,远远超过了人类个体处理信息的能力。为了帮助用户快速获取有效信息,视频拆条技术应运而生,其主要应用于长视频的裁剪与内容提取,如新闻视频,通过将长视频拆分成多个小片段,以便用户能够快速获取核心内容。这种技术在新闻视频、直播回放、影视剪辑等场景中广泛应用。
2、现有技术通常通过人脸识别或场景变化检测来判断新闻视频片段的切换点,其工作原理是基于视频中出现的人物或场景变化,例如,当检测到主持人或其他人物出现在屏幕中时,系统会将其作为新闻片段的分割点。然而,这种方法在实际应用中存在显著问题:
3、1、过度依赖人物出现:在许多新闻片段中,尤其是纯播报新闻或街景画面,人物并不总是出现在视频中。此时,依赖人物识别来进行拆条,容易导致片段无法被准确分割。例如,在两则新闻之间没有主持人出现的过渡画面中,系统可能无法正确识别分割点,错失重要内容。
4、2、对非人脸画面识别能力不足:在一些新闻中,出于隐私或版权保护,人物的面部会被打码或隐藏,导致依赖人脸识别的拆条技术无法正常工作,影响分割效果。
5、3处理效果不精细:现有方法通常只能根据场景变化或人物出现来粗略分割视频,无法进一步根据内容的语义进行细粒度拆分,尤其是面对语音识别不到位、背景音效复杂的情况时,视频片段拆分的连贯性和准确性较差。
6、因此,如何提高新闻视频拆条的精度,特别是在人物
技术实现思路
1、本专利技术解决的技术问题是针对上述现有技术中存在的缺陷,提供一种基于图片相似度与语义聚类的视频高效拆条方法,以解决上述
技术介绍
中提出的现有技术拆条过于依赖人物识别、片段过度细碎、语音识别不准确且背景噪音干扰大的问题。
2、为解决上述技术问题,本专利技术采取的技术方案如下:
3、一种基于图片相似度与语义聚类的视频高效拆条方法,所述方法包括以下步骤:
4、步骤1,从待处理的视频中按照固定帧率提取图片帧;
5、步骤2,使用图片编码模型对提取的图片帧进行编码,并计算相邻帧之间的相似度,基于预设的相似度阈值,将相似度超过阈值的相邻帧合并为视频片段;
6、步骤3,针对所述视频片段,提取相应的音频内容,并将音频转化为文本;
7、步骤4,对所述文本进行文本编码,将文本转化为语义向量;
8、步骤5,基于文本的语义向量结果,采用亲和聚类算法对文本进行聚类,获得文本片段的聚类结果;
9、步骤6,根据所述聚类结果,将连续属于同一聚类类别的文本片段对应的视频片段合并为一个完整的新闻片段;
10、步骤7,当某一视频片段的长度小于预设的最小帧数时,计算该片段与相邻片段的图片相似度,将其与相似度较高的相邻片段进行合并;
11、步骤8,对合并后的新闻片段进行内容总结,以完成视频的拆条。
12、作为本专利技术进一步的方案,步骤2中使用的图片相似度计算通过将每个图片帧的向量化表示进行向量积计算,确定相邻帧的相似度,并与预设的相似度阈值比较以决定是否合并帧。
13、作为本专利技术进一步的方案,步骤5中使用的亲和聚类算法不需要预设类别数量,能够根据文本语义相似性动态聚类,并将相似度高的文本片段归为同一聚类类别。
14、作为本专利技术进一步的方案,步骤7中,当某一视频片段的帧数低于预设的最小帧数时,先计算该片段与前一视频片段的最后一帧图片相似度,以及与后一视频片段的第一帧图片相似度,并将该视频片段与相似度较高的片段进行合并。
15、作为本专利技术进一步的方案,所述预设的最小帧数为150帧,低于该帧数的视频片段被视为过短片段并触发动态合并机制。
16、作为本专利技术进一步的方案,步骤6中使用的文本语义向量通过轻量化的文本编码模型生成,所述模型能够高效处理视频中的大量文本,并行计算文本语义相似度。
17、作为本专利技术进一步的方案,所述视频片段的合并和切割步骤通过并行处理技术进行,实现了处理速度与视频时长比为十分之一的高效处理。
18、作为本专利技术进一步的方案,所述视频拆条方法进一步包括在视频片段合并后进行片段内容的语义总结,生成对应的摘要信息以帮助用户快速了解新闻片段的主要内容。
19、作为本专利技术进一步的方案,步骤3中的音频转文本技术通过语音识别模型按固定间隔对视频音频进行提取,以确保与视频片段的时间对齐。
20、作为本专利技术进一步的方案,所述方法适用于不同来源的新闻视频,能够在新闻中存在无主持人、人物或背景音效的情况下,仍然准确进行视频片段的拆分和合并。
21、与现有技术相比,本专利技术的有益效果是:
22、1、针对新闻视频中经常出现主持人的情况,本专利技术的拆条方法不依赖于主持人的出现或人脸识别来判断新闻片段的切换点,而是通过图片相似度与语义聚类的双重分析进行精确切割。传统技术中,当主持人持续出现在多个新闻片段之间时,往往难以准确判断片段的实际切换点,导致误切或片段合并错误。本专利技术有效解决了这一问题,即使主持人在不同新闻片段中频繁出现,系统依然能够通过语义差异和视频内容的变化识别出真实的新闻切换点,确保新闻片段的准确性和连贯性,特别是在复杂场景下,大幅提升了视频拆条的精度与适用性。
23、2、双层次裁剪机制,确保拆条精度和连贯性:本申请将图片相似度与文本语义相似度相结合,通过图片相似度初步裁剪视频片段,再通过文本语义聚类对片段进行二次合并。这种双重裁剪机制有效避免了单纯依赖图片相似度导致的片段过度细碎化问题,同时保证了文本的连贯性和语义完整性,大幅提升了视频拆条的准确性。
24、3、动态合并策略,解决过短片段问题:本申请通过设定最小帧数限制,针对过短的片段,通过动态计算相邻片段的图片相似度进行智能合并。这一策略不仅有效解决了由于阈值设置导致的片段过短问题,还确保了拆条结果的逻辑完整性和视觉连贯性,实现了更加智能化的动态合并处理。
25、4、亲和聚类算法的灵活应用,无需预设类别数量:相较于传统的聚类算法,本申请采用的亲和聚类方法能够动态确定文本的聚类结果,无需事先设定类别数量。该方法特别适用于新闻视频这种片段数量不确定的应用场景,能够灵活处理多源新闻内容,确保文本合并的高效性和准确性。
26、5、轻量化模型与并行处理,大幅提升处理效率:本申请使用轻量级的ai模型,并采用并行处理技术,确保了在进行大规模视频拆条时具有极高的处理效率。实际测试中,该方法的处理时间仅为视频时长的十分之一,远优于现有技术,能够显著减少处理时间,提升用户体验。
27、6、适应多样化场景,通用性强:本申请在新闻视频中,无论是否出现主持人或人物,甚至在包含复杂背景音效本文档来自技高网...
【技术保护点】
1.一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于,步骤2中使用的图片相似度计算通过将每个图片帧的向量化表示进行向量积计算,确定相邻帧的相似度,并与预设的相似度阈值比较以决定是否合并帧。
3.根据权利要求1所述的一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于,步骤5中使用的亲和聚类算法不需要预设类别数量,能够根据文本语义相似性动态聚类,并将相似度高的文本片段归为同一聚类类别。
4.根据权利要求1所述的一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于,步骤7中,当某一视频片段的帧数低于预设的最小帧数时,先计算该片段与前一视频片段的最后一帧图片相似度,以及与后一视频片段的第一帧图片相似度,并将该视频片段与相似度较高的片段进行合并。
5.根据权利要求1所述的一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于,所述预设的最小帧数为150帧,低于该帧数的视频片段被视为过短片段并触发动态合并机制。
6.根据权利要求1所述的一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于,步骤6中使用的文本语义向量通过轻量化的文本编码模型生成,所述模型能够高效处理视频中的大量文本,并行计算文本语义相似度。
7.根据权利要求1所述的一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于,所述视频片段的合并和切割步骤通过并行处理技术进行,实现了处理速度与视频时长比为十分之一的高效处理。
8.根据权利要求1所述的一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于,所述视频拆条方法进一步包括在视频片段合并后进行片段内容的语义总结,生成对应的摘要信息以帮助用户快速了解新闻片段的主要内容。
9.根据权利要求1所述的一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于,步骤3中的音频转文本技术通过语音识别模型按固定间隔对视频音频进行提取,以确保与视频片段的时间对齐。
10.根据权利要求1所述的一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于,所述方法适用于不同来源的新闻视频,能够在新闻中存在无主持人、人物或背景音效的情况下,仍然准确进行视频片段的拆分和合并。
...【技术特征摘要】
1.一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于,步骤2中使用的图片相似度计算通过将每个图片帧的向量化表示进行向量积计算,确定相邻帧的相似度,并与预设的相似度阈值比较以决定是否合并帧。
3.根据权利要求1所述的一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于,步骤5中使用的亲和聚类算法不需要预设类别数量,能够根据文本语义相似性动态聚类,并将相似度高的文本片段归为同一聚类类别。
4.根据权利要求1所述的一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于,步骤7中,当某一视频片段的帧数低于预设的最小帧数时,先计算该片段与前一视频片段的最后一帧图片相似度,以及与后一视频片段的第一帧图片相似度,并将该视频片段与相似度较高的片段进行合并。
5.根据权利要求1所述的一种基于图片相似度与语义聚类的视频高效拆条方法,其特征在于,所述预设的最小帧数为150帧,低于该帧数的视频片段被视为过短片段并触发动态合并机制。
6.根据权利...
【专利技术属性】
技术研发人员:杨珂,王海荣,吕晓宝,宋怀明,王元兵,
申请(专利权)人:曙光天玑数据科技江苏有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。