System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及视频图片数据处理,具体涉及一种视频图片数据处理方法及系统。
技术介绍
1、数字化时代,广告视频作为信息传播的主要载体之一,其内容的安全监管愈发重要。随着互联网广告视频平台的迅猛发展,各种广告视频的投放量也越来越多,给广告视频内容的审核带来了严峻的挑战。因此,对广告视频内容进行高效且精准的审核就显得尤为重要。
2、现有的广告视频内容审核技术大多依赖于视频抽帧、图像识别、ocr光学字符识别等技术手段,将广告视频逐帧分解成图像后,使用ocr技术识别图像中的文本数据,之后对文本数据进行拼接,最后将拼接后的文本数据与违禁词库进行对比。然而,对于相邻帧之间的文本信息往往高度相似甚至完全一致的广告视频来说,现有技术并未对相邻帧中的文本进行处理,使用ocr技术识别不同排版以及背景下的包含大量重复文本的图像时会出现语序颠倒的问题,导致文本进行拼接后,广告视频的文本数据的语义发生了改变,使得广告视频的文本数据的语义精度不高,导致违禁词的对比精度较低。
技术实现思路
1、为了解决上述技术问题,本申请的目的在于提供一种视频图片数据处理方法及系统,所采用的技术方案具体如下:
2、第一方面,本申请实施例提供了一种视频图片数据处理方法,该方法包括以下步骤:
3、s1,采集智能风控检测平台上的待审核广告视频中的各帧图像;获取语气词库中的语气字符串;对各帧图像进行分割后,使用文本识别算法获得各帧图像的文本字符串;
4、s2,根据各帧图像的文本字符串中字符的分
5、s3,根据各字符在所有帧图像的文本字符串中的分布和出现次数,获取各字符的保存指数;所述保存指数的获取过程包括:
6、s31,根据相邻帧图像的文本字符串中字符的对应关系以及紧随系数,获取各字符的重复字甄别系数;
7、s32,根据各字符在所有帧图像的文本字符串中出现的次数以及重复字甄别系数,获得各字符的重复字保存系数;
8、s33,根据各字符在所有帧图像的文本字符串中出现的次数以及重复字保存系数,获得各字符的保存指数;
9、s4,根据所有帧图像的文本字符串中字符的保存指数,对各帧图像的文本字符串进行去重,获得广告视频文本数据。
10、进一步,所述对各帧图像进行分割后,使用文本识别算法获得各帧图像的文本字符串,包括:
11、对各帧图像按照从上到下的顺序进行预设等分切割,获得各分割子帧图像;对各分割子帧图像进行文本识别,获得各分割子帧图像的文本数据字符串;
12、将所有分割子帧图像的文本数据字符串按照分割子帧图像从上到下的顺序排列,获得各帧图像的文本字符串。
13、进一步,所述根据紧随系数对文本字符串中的字符进行重新排列的具体方法包括:
14、对于各帧图像的文本字符串中的任意两个字符:字符u与字符v,若字符v位于字符u之后,将字符v紧位于字符u之后的位置排列权重赋值为0;反之,将字符v紧位于字符u之后的位置排列权重赋值为2;
15、根据各帧图像的文本字符串中字符的分布和出现次数,获取任意两个字符之间的排斥程度;
16、根据各帧图像的文本字符串中的任意两个字符之间的排斥程度和位置排列权重,获得紧随系数;
17、对于各帧图像的文本字符串,将文本字符串中相对于各字符的紧随系数最大的字符,记为各字符的紧随字符;从文本字符串的第一个字符开始,依次将当前字符的紧随字符置于当前字符之后,直至所有字符排序完成。
18、进一步,所述获取任意两个字符之间的排斥程度的具体方法包括:
19、对于各帧图像的文本字符串,获取文本字符串中各个字符的对应的词向量;获取各字符在文本字符串中出现的次数,记为各字符的频次;计算任意两个字符的词向量之间的余弦相似度,记为两个字符之间的语义相似度;获取任意两个字符的频次的差值绝对值;
20、根据任意两个字符之间的欧氏距离、频次的差值绝对值以及语义相似度,确定两个字符之间的排斥程度;所述两个字符之间的排斥程度与所述欧氏距离、所述差值绝对值成正相关关系,与所述语义相似度成负相关关系。
21、进一步,所述获得紧随系数,包括:
22、统计由字符u与字符v所组成的词组在所有帧图像的文本字符串中出现的次数,记为第一数量;统计所有帧图像的文本字符串中包含的字符数量,记为第二数量;计算第一数量与第二数量的比值,记为第一比值;计算字符v紧位于字符u之后的位置排列权重与字符u与字符v之间的排斥程度的比值,记为第二比值;所述第一比值和第二比值均与字符v相对于字符u的紧随系数成正相关关系。
23、进一步,所述获取各字符的重复字甄别系数,包括:
24、对两个任意相邻帧图像的文本字符串,采用最长公共子序列算法,获取两个文本字符串之间的最大公共子字符串;
25、分别将两个任意相邻帧图像中的前一个帧图像的文本字符串记为前帧文本字符串,后一个帧图像的文本字符串记为后帧文本字符串;在前帧文本字符串中,按照从前往后的顺序,依次获取与后帧文本字符串中包含的字符一致的字符,组成交集字符串;
26、将前帧文本字符串中的任一字符记为待分析字符,当待分析字符不属于最大公共子字符串时,则对待分析字符的重复字甄别系数赋值为0;
27、当待分析字符属于最大公共子字符串时,若待分析字符属于语气词字符串,则对待分析字符的重复字甄别系数赋值为1;若待分析字符不属于语气词字符串,则计算待分析字符对于其前一个字符的紧随系数与待分析字符的后一个字符对于待分析字符的紧随系数的和值,将所述和值作为待分析字符的重复字甄别系数。
28、进一步,所述获得各字符的重复字保存系数,包括:
29、统计各字符在所有帧图像的文本字符串中出现的次数,记为第三数量;获取所述第二数量与第三数量的比值,记为第三比值;所述第三比值与各字符的重复字保存系数成正相关关系;各字符的重复字甄别系数与各字符的重复字保存系数成负相关关系。
30、进一步,所述获得各字符的保存指数,具体包括:
31、计算所述前帧文本字符串与所述最大公共子字符串的字符个数的差值绝对值,记为第一差值绝对值;计算所述后帧文本字符串与最大公共子字符串的字符个数的差值绝对值,记为第二差值绝对值;获取第一差值绝对值与第二差值绝对值的和值,记为第一和值;
32、当第一和值等于0时,将待分析字符的保存指数赋值为0;反之,将待分析字符的重复字保存系数作为待分析字符的保存指数。
33、进一步,所述根据所有帧图像的文本字符串中字符的保存指数,对各帧图像的文本字符串进行去重,获得广告视频文本数据,包括:
34、将所有帧图像的文本字符串中的所有字符的保存指数进行阈值分割,获得最优阈值;将各帧图像的文本字符串中保存指数小于最优阈值的字符进行剔除,获得各帧图本文档来自技高网...
【技术保护点】
1.一种视频图片数据处理方法,其特征在于,该方法包括以下步骤:
2.如权利要求1所述的一种视频图片数据处理方法,其特征在于,所述对各帧图像进行分割后,使用文本识别算法获得各帧图像的文本字符串,包括:
3.如权利要求1所述的一种视频图片数据处理方法,其特征在于,所述根据紧随系数对文本字符串中的字符进行重新排列的具体方法包括:
4.如权利要求3所述的一种视频图片数据处理方法,其特征在于,所述获取任意两个字符之间的排斥程度的具体方法包括:
5.如权利要求3所述的一种视频图片数据处理方法,其特征在于,所述获得紧随系数,包括:
6.如权利要求1所述的一种视频图片数据处理方法,其特征在于,所述获取各字符的重复字甄别系数,包括:
7.如权利要求5所述的一种视频图片数据处理方法,其特征在于,所述获得各字符的重复字保存系数,包括:
8.如权利要求6所述的一种视频图片数据处理方法,其特征在于,所述获得各字符的保存指数,具体包括:
9.如权利要求1所述的一种视频图片数据处理方法,其特征在于,所述根据所有帧图
10.一种视频图片数据处理系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-9任意一项所述方法的步骤。
...【技术特征摘要】
1.一种视频图片数据处理方法,其特征在于,该方法包括以下步骤:
2.如权利要求1所述的一种视频图片数据处理方法,其特征在于,所述对各帧图像进行分割后,使用文本识别算法获得各帧图像的文本字符串,包括:
3.如权利要求1所述的一种视频图片数据处理方法,其特征在于,所述根据紧随系数对文本字符串中的字符进行重新排列的具体方法包括:
4.如权利要求3所述的一种视频图片数据处理方法,其特征在于,所述获取任意两个字符之间的排斥程度的具体方法包括:
5.如权利要求3所述的一种视频图片数据处理方法,其特征在于,所述获得紧随系数,包括:
6.如权利要求1所述的一种视频图片数据处理方法,其特征在于,所...
【专利技术属性】
技术研发人员:林欣扬,骆龙泉,连志尧,郑翠春,肖蕾,赖宜亮,陈荣赏,谢小竹,
申请(专利权)人:厦门众联世纪股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。