基于知识图谱的视频标签提取方法技术

技术编号：32180101 阅读：26 留言：0更新日期：2022-02-08 15:41

本发明专利技术是基于知识图谱的视频标签提取方法，包括：一，根据专业知识整理基础知识包，将包内词组按层级关系整理到excel并导入知识图谱；二，根据基础知识包特征词组合特征整理应用知识包，整理知识到excel并导入知识图谱；三，利用深度学习语音识别技术识别视频字幕信息，结合标题形成文档并预处理；四，利用自然语言处理关键词匹配技术，按基础知识包类别分别查找文档中基础知识包内末端节点关键词及其基础知识包类别；五，利用关键词反向搜索应用知识包标签，定制化微调输出标签。本发明专利技术的优点：知识图谱数据更丰富；简化了工作复杂度，标签工作具有更好的继承性和系统性；对于行业和企业发展提供大数据分析平台，数据更全面，关系更清晰。系更清晰。系更清晰。

全部详细技术资料下载

【技术实现步骤摘要】
基于知识图谱的视频标签提取方法

[0001]本专利技术涉及的是基于知识图谱的视频标签提取方法，属于深度学习、机器学习和知识图谱

技术介绍

[0002]在信息的基础上，建立实体之间的联系，就能形成“知识”，知识图谱就是这样由一条条知识组成的，每条知识表示为一个spo三元组。知识图谱是Google于2012年提出的，目的是用来优化搜索结果，让计算机理解人类信息内在的相关性。
[0003]经过多年的发展，知识图谱在人工智能的许多行业都拥有了成熟落地的应用。按照知识图谱的覆盖面来看，主要分为通用知识图谱与行业知识图谱。
[0004]由于视频媒体行业的应用标签比较多样和多变，那么通过完全的深度学习模型去进行预测不太可行。关键词匹配算法是相较于正则搜索法效率较高的一种关键词搜索方法，这样的方法结合知识图谱正好可以应用在视频标签提取。对于视频来讲，直接处理视频或者图片本身去打标签的计算复杂度和设备要求比较高，因此，可以选择将视频的音频内容利用现在比较成熟的语音识别技术将其文本化，再处理文本，这样的经济效益要高很多，效率也会高很多。
[0005]对于新媒体企业，每年生产大量的视频媒资等素材，保存有海量新闻娱乐媒体的信息。基于这些素材的搜索是一项困难而艰巨的事情，对这些信息进行整合和挖掘更是难上难。想要解决这些难题，首先要对这些数据和信息进行合理有效的整理，有效的整理需要依赖有效且可持续的标签体系，引入AI技术和知识图谱可解决这一问题。

技术实现思路

[0006]本专利技术提出的是基于...

【技术保护点】

【技术特征摘要】
1.基于知识图谱的视频标签提取方法，其特征是该方法基于深度学习自然语言处理技术和知识图谱技术，应用于视频媒体领域，包括：第一步，根据专业知识整理若干个基础知识包，并将这些基础知识包内的词组按照层级关系整理到excel并导入到知识图谱中,基础知识包是指某一个特定领域的基础知识的所有层级类别以及其对应的实体关键词；第二步，根据第一步得到的基础知识包的特征词的组合特征整理应用知识包，整理这些知识到excel并导入知识图谱中，应用知识包是指视频分类或者应用需要设定的某一些特定规则下的分类标签以及其对应的特征关键词；第三步，利用深度学习的语音识别技术，将视频的字幕信息识别出来，结合标题形成文档并进行预处理；第四步，利用自然语言处理中的关键词匹配技术，按第一步得到的基础知识包的类别分别查找第三步中得到的文档中的基础知识包内的末端节点的关键词及其基础知识包类别；第五步，利用第四步查找的关键词，反向搜索应用知识包标签，最后进行定制化微调，输出标签。2.如权利要求1所述的基于知识图谱的视频标签提取方法，其特征是所述的第一步中，利用Cypher的load csv命令导入到neo4j知识图谱中，设所有基础知识包的末端节点集合为baselist，baselist中包含了所有关键词。3.如权利要求2所述的基于知识图谱的视频标签提取方法，其特征是所述的第二步中，设所有应用知...

【专利技术属性】
技术研发人员：孙伟芳，朱立松，黄建杰，
申请(专利权)人：央视国际网络无锡有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人