基于人工智能的视频标注方法及系统、存储介质技术方案

技术编号：31792074 阅读：48 留言：0更新日期：2022-01-08 10:50

本申请公开了一种基于人工智能的视频标注方法及系统、存储介质。该方法包括将单个视频素材剪切成多个剪切视频素材；将视频素材的音轨素材识别为多个语音段落；基于ASR算法将每个语音段落转化为单独的文本素材；将剪切视频素材与文本素材进行关联；将选择的标签与选择的与文本素材关联后的剪切视频素材进行关联。本申请解决了借助传统的电子文档和播放器工具完成一个视频的标注耗费大量的时间的技术问题。术问题。术问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的视频标注方法及系统、存储介质

[0001]本专利技术属于人工智能领域，尤其涉及一种基于人工智能的视频标注方法及系统、存储介质。

技术介绍

[0002]随着近年来营销内容井喷式增长和线上渠道的丰富，短视频成为内容营销的新风口，品牌在视频内容生产和投放的预算持续增加，对视频内容产量和质量都有着极大的需求。品牌方期望通过对视频进行标注和统计，更准确的分析短视频内容，提升内容质量。
[0003]综上所述，现有的视频标注技术存在如下技术问题：
[0004]借助传统的电子文档和播放器工具完成视频的标注需要耗费大量的时间。

技术实现思路

[0005]为解决上述技术问题，本专利技术提供一种基于人工智能的视频标注方法，包括步骤：
[0006]将单个视频素材剪切成多个剪切视频素材；
[0007]将视频素材的音轨素材识别为多个语音段落；
[0008]基于ASR算法将每个语音段落转化为单独的文本素材；
[0009]将剪切视频素材与文本素材进行关联；
[0010]将选择的标签与选择的与文本素材关联后的剪切视频素材进行关联。
[0011]优选的，所述将单个视频素材剪切成多个剪切视频素材包括：
[0012]读取视频素材中每一帧画面；
[0013]计算相邻两帧画面差异度；
[0014]当画面差异度大于设定的阈值时，通过剪切此两帧画面得到剪切视频素材。
[0015]优选的，所述将视频素材的音轨素材识别为多个语音段落包括：/>[0016]将音频素材中音量小于设定阈值的范围识别为空隙；
[0017]以空隙范围的边界处将音频素材的语音内容分割为多个语音段落。
[0018]优选的，所述基于ASR算法将每个语音段落转化为单独的文本素材包括：
[0019]分析语音段落得到语音特征参数；
[0020]基于ASR算法，从存储语音特征参数模板的语音库中确定与所述语音特征参数相匹配的语音特征参数模板；
[0021]将该语音特征参数模板关联的文字模板作为该语音段落转化的文本素材；
[0022]将语音段落与其转化的文本素材关联。
[0023]优选的，所述将剪切视频素材与文本素材进行关联包括：
[0024]视频素材与其音轨素材拥有相同的时间轴，剪切视频素材、语音段落均包含原时间轴的部分时间轴；
[0025]比较剪切视频素材与语音段落各自的部分时间轴；
[0026]当语音段落的部分时间轴处于剪切视频素材的部分时间轴内，将两者关联；
[0027]将与该语音段落关联的剪切视频素材、文本素材互相关联；
[0028]通过将剪切视频素材的的部分时间轴与原视频素材的时间轴对应，为剪切视频素材排序，其中，剪切视频素材关联的语音段落、文本素材均按相同顺序排列。
[0029]优选的，所述将选择的标签与选择的与文本素材关联后的剪切视频素材进行关联包括：
[0030]根据行业、渠道、客户的不同预设标签体系；
[0031]标签体系包括标签层和标签树；
[0032]标签树采用多级结构。
[0033]一种视频标签的提取系统，其特征在于，所述系统包括：
[0034]视频素材剪切模块，用于将单个视频素材剪切成多个剪切视频素材；
[0035]语音段落识别模块，用于将视频素材的音轨素材识别为多个语音段落；
[0036]音转文模块，用于通过ASR算法将每个语音段落转化为单独的文本素材；
[0037]文本关联模块，用于将剪切视频素材与文本素材进行关联；
[0038]标签关联模块，用于将选择的标签与选择的与文本素材关联后的剪切视频素材进行关联；
[0039]文件导出模块，用于导出csv和json格式的标注数据。
[0040]优选的，所述视频素材剪切模块：
[0041]用于读取视频素材中每一帧画面；
[0042]计算相邻两帧画面差异度；
[0043]当画面差异度大于设定的阈值时，通过剪切此两帧画面得到剪切视频素材。
[0044]优选的，所述语音段落识别模块：
[0045]用于将音频素材中音量小于设定阈值的范围识别为空隙；
[0046]以空隙范围的边界处将音频素材的语音内容分割为多个语音段落。
[0047]优选的，所述音转文模块：
[0048]用于分析语音段落得到语音特征参数；
[0049]基于ASR算法，从存储语音特征参数模板的语音库中确定与所述语音特征参数相匹配的语音特征参数模板；
[0050]将该语音特征参数模板关联的文字模板作为该语音段落转化的文本素材；
[0051]将语音段落与其转化的文本素材关联。
[0052]优选的，所述文本关联模块：
[0053]视频素材与其音轨素材拥有相同的时间轴，剪切视频素材、语音段落均包含原时间轴的部分时间轴；
[0054]比较剪切视频素材与语音段落各自的部分时间轴；
[0055]当语音段落的部分时间轴处于剪切视频素材的部分时间轴内，将两者关联；
[0056]将与该语音段落关联的剪切视频素材、文本素材互相关联；
[0057]通过将剪切视频素材的的部分时间轴与原视频素材的时间轴对应，为剪切视频素材排序，其中，剪切视频素材关联的语音段落、文本素材均按相同顺序排列。
[0058]优选的，所述标签关联模块：
[0059]用于根据行业、渠道、客户的不同预设标签体系；
[0060]标签体系包括标签层和标签树；
[0061]标签树采用多级结构。
[0062]优选的，所述文件导出模块：
[0063]导出csv文件用于视频标签的统计和分析；
[0064]导出json文件用于算法的模型训练。
[0065]本专利技术还提供一种电子设备，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序在所述处理器中执行可实现上述任一种方法。
[0066]本专利技术还提供一种存储介质，存储计算机程序，所述计算机程序在处理器中执行可实现上述任一种方法。
[0067]本专利技术采用计算视频中相邻两帧画面差异度，将视频素材剪切成若干个剪切视频素材，使每个剪切视频素材的画面相对连续完整，通过ASR算法，将视频中的语音对话转变成相应的文字，并和相应的视频片段对应，从而实现使视频内容便于用户理解的技术效果，解决了传统的电子文档和播放器工具标注视频需要耗费大量的时间的技术问题。
附图说明
[0068]图1为一种基于人工智能的视频标注方法的流程图；
[0069]图2为本申请的content模式的拆条表现效果的折线图；
[0070]图3为本申请的threshold模式的拆条表现效果的折线图。
具体实施方式
[0071]为了使本专利技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本专利技术进行进一步详本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的视频标注方法，其特征在于，包括：将单个视频素材剪切成多个剪切视频素材；将视频素材的音轨素材识别为多个语音段落；基于ASR算法将每个语音段落转化为单独的文本素材；将剪切视频素材与文本素材进行关联；将选择的标签与选择的与文本素材关联后的剪切视频素材进行关联。2.如权利要求1所述的方法，其特征在于，所述将单个视频素材剪切成多个剪切视频素材包括：读取视频素材中每一帧画面；计算相邻两帧画面差异度；当画面差异度大于设定的阈值时，通过剪切此两帧画面得到剪切视频素材。3.如权利要求1所述的方法，其特征在于，所述将视频素材的音轨素材识别为多个语音段落包括：将音频素材中音量小于设定阈值的范围识别为空隙；以空隙范围的边界处将音频素材的语音内容分割为多个语音段落。4.如权利要求1所述的方法，其特征在于，所述基于ASR算法将每个语音段落转化为单独的文本素材包括：分析语音段落得到语音特征参数；基于ASR算法，从存储语音特征参数模板的语音库中确定与所述语音特征参数相匹配的语音特征参数模板；将该语音特征参数模板关联的文字模板作为该语音段落转化的文本素材；将语音段落与其转化的文本素材关联。5.如权利要求1所述的方法，其特征在于，所述将剪切视频素材与文本素材进行关联包括：视频素材与其音轨素材拥有相同的时间轴，剪切视频素材、语音段落均包含原时间轴的部分时间轴；比较剪切视频素材与语音段落各自的部分时间轴；当语音段落的部分时间轴处于剪切视频素材的部分时间轴内，将两者关联；将与...

【专利技术属性】
技术研发人员：王喆，范凌，
申请(专利权)人：特赞上海信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人