基于自然语言处理的短视频内容标签知识库快速检索方法技术

技术编号：39305809 阅读：21 留言：0更新日期：2023-11-12 15:54

本发明专利技术公开了信息获取相关技术领域的一种基于自然语言处理的短视频内容标签知识库快速检索方法，S1：对视频数据进行处理，转换为文本信息存储；S2：建立知识库架构；S3：使用自然语言处理技术对文本分析、信息提取、文本分类和命名实体识别；S4：对知识库中的文本数据进行预处理；S5：使用自然语言处理技术，从文本中抽取关键信息并进行标注；S6：根据用户提出的问题，从知识库中检索相关信息并找到对应短视频内容。本发明专利技术不仅可以实现对视频数据和文本信息的处理、分析和存储，并利用自然语言处理技术进行信息提取和检索，从而提高处理效率、获取有用信息并提供相关回答，还支持大规模向量数据的存储和快速检索，有效地减少搜索的时间复杂度。的时间复杂度。的时间复杂度。

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语言处理的短视频内容标签知识库快速检索方法

[0001]本专利技术属于信息获取相关
，具体是一种基于自然语言处理的短视频内容标签知识库快速检索方法。

技术介绍

[0002]目前，虽然已经建立了一些用于用户学习的知识库或数据库，但是，常规建立知识库的方法往往是对现有内容的简单分类和简单存储，实质上相当于建立了一个电子图书馆，所以常规知识库中的内容之间往往是相互独立的。用户在进行检索和学习时，往往需要不断地尝试新的关键字才能得到足够有用的信息，甚至有时即使经过多次的检索仍然没有得到想要的结果。在用户不断尝试新关键字的过程中，呈现给用户的冗杂的、无用的内容会耗费用户大量的时间，用户往往需付出大量无用的劳动才能对需要学习的知识点有所了解，导致知识获取的效率过低、耗时耗力，难以满足用户的需求，而且上述问题导致用户体验非常差。
[0003]因此，面对大量的学习材料的情况下，如何使用户尽快学习到需要的知识点、提高用户学习效率、改善用户体验，成为了本领域技术人员亟待解决的技术问题和始终研究的重点。
[0004]为了解决上述问题，例如中国专利，公告号为：CN107808014B，该专利技术公开了一种基于自然语言处理的知识库建立方法，该方法包括：步骤1，将文件中的文本数据放入预设的数据集中；步骤2，发现父主题、将涉及父主题的所有语句从数据集中摘出、作为父主题内容清单；步骤3，发现子主题、将定义子主题的所有语句从父主题内容清单中摘出；步骤4，判断所有子主题是否全部被发现，如果是，则执行步骤5；如果否，则返回步...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的短视频内容标签知识库快速检索方法，其特征在于具体步骤如下：S1：对视频数据进行处理，筛选质量较高的视频抽取视频帧信息，将帧信息识别转换为文本信息存储；S2：建立知识库架构；S3：使用自然语言处理技术对文本分析、信息提取、文本分类和命名实体识别；S4：对知识库中的文本数据进行预处理；S5：使用自然语言处理技术，从文本中抽取关键信息并进行标注；S6：根据用户提出的问题，从知识库中检索相关信息并找到对应短视频内容。2.根据权利要求1所述的基于自然语言处理的短视频内容标签知识库快速检索方法，其特征在于：S1中对视频数据进行处理，筛选质量较高的视频抽取视频帧信息，将帧信息识别转换为文本信息存储包括：视频质量评估指标的定义和筛选方法，视频帧信息提取图像、生成帧号，将视频帧信息进行识别，将图像信息转换为文本信息。3.根据权利要求1所述的基于自然语言处理的短视频内容标签知识库快速检索方法，其特征在于：S2中的知识库架构建立方法为：使用词嵌入技术将知识库内容转换为向量表示，并存入向量库中，使用与知识库文本向量化相同的方法，将查询文本转换为向量表示，以获得一致的向量表示。4.根据权利要求3所述的基于自然语言处理的短视频内容标签知识库快速检索方法，其特征在于：S2中转换为向量表示的方法为：S2
‑
1：构建词汇表；S2
‑
2：使用知识库文本数据训练词嵌入模型；S2
‑
3：对于知识库中的每个词语，通过查询词嵌入模型获得其对应...

【专利技术属性】
技术研发人员：王晶，刘才果，张俊林，罗建华，
申请(专利权)人：空间视创重庆科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人