一种基于视频信息的交互方法、装置、设备及存储介质制造方法及图纸

技术编号：39262464 阅读：11 留言：0更新日期：2023-10-30 12:15

本申请公开了一种基于视频信息的交互方法、装置、设备及存储介质，涉及自然语言处理领域，包括：对待处理视频文件进行分离，并对得到的音频数据以及视频画面数据进行预处理，以得到若干音频段落文本和若干视频画面文本；对若干音频段落文本和若干视频画面文本进行向量化，并将得到的向量化数据保存至预设向量数据库；对接收到的问题文本进行向量化，并基于向量化问题文本对向量化数据进行相似度匹配，以确定目标向量化数据；将目标向量化数据以及向量化问题文本输入至预设语言模型，以生成答案文本，并将答案文本呈现至待处理视频文件的视频播放窗口。这样一来，可以实现基于视频信息的问答交互，提升用户观看视频、获取信息的体验和效率。验和效率。验和效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视频信息的交互方法、装置、设备及存储介质

[0001]本专利技术涉及自然语言处理领域，特别涉及一种基于视频信息的交互方法、装置、设备及存储介质。

技术介绍

[0002]随着视频网站和自媒体的发展，各类课程学习视频、会议演讲汇报视频的数量正在飞速增长，大量用户通过这类视频学习专业课程知识、了解行业前沿技术。并且随着人工智能技术的发展，尤其是近期在语音识别、自然语言处理、大型语言模型技术等方面的突破性进展，基本可以实现对视频信息的结构化，从而加速视频信息的传递效率。但现有技术中，对视频信息的处理可能导致基于视频信息的问答交互中利用的视频知识密度较低、结构性差，进而造成信息传递的瓶颈。

技术实现思路

[0003]有鉴于此，本专利技术的目的在于提供一种基于视频信息的交互方法、装置、设备及存储介质，可以根据用户输入的问题文本对基于视频得到的文本数据进行匹配，以得到与所属问题文本对应的答案文本，并将答案文本呈现给用户，这样一来，可以实现基于视频信息的问答交互，提升用户观看视频、获取信息的体验和效率。其具体方案如下：
[0004]第一方面，本申请公开了一种基于视频信息的交互方法，应用于视频播放客户端，包括：
[0005]对待处理视频文件进行分离操作，并对通过分离操作得到的音频数据以及视频画面数据进行预处理，以得到与所述音频数据对应的若干音频段落文本，以及与所述视频画面数据对应的若干视频画面文本；
[0006]对所述若干音频段落文本以及所述若干视频画面文本进行向量化，并将得到的向量化数...

【技术保护点】

【技术特征摘要】
1.一种基于视频信息的交互方法，其特征在于，应用于视频播放客户端，包括：对待处理视频文件进行分离操作，并对通过分离操作得到的音频数据以及视频画面数据进行预处理，以得到与所述音频数据对应的若干音频段落文本，以及与所述视频画面数据对应的若干视频画面文本；对所述若干音频段落文本以及所述若干视频画面文本进行向量化，并将得到的向量化数据保存至预设向量数据库；对接收到的问题文本进行向量化，并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配，以确定与所述向量化问题文本对应的目标向量化数据；将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型，以生成与所述问题文本对应的答案文本，并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。2.根据权利要求1所述的基于视频信息的交互方法，其特征在于，对所述音频数据进行预处理，包括：对所述音频数据进行语音识别，以得到与所述音频数据对应的音频文本；利用预设语言模型对所述音频文本进行段落划分，以得到若干音频段落文本，并确定与所述若干音频段落文本对应的若干段落摘要以及起止时间；所述起止时间为所述若干音频段落文本中每一个音频段落文本各自对应的起止时间。3.根据权利要求2所述的基于视频信息的交互方法，其特征在于，对所述视频画面数据进行预处理，包括：基于所述起止时间对所述视频画面数据进行视频分割，以得到与所述若干音频段落文本对应的若干视频画面数据；基于预设时间间隔分别抽取所述若干视频画面数据中每一个视频画面数据中的相邻视频帧，并计算所述相邻视频帧的画面重复率；所述相邻视频帧为基于所述预设时间间隔的两帧视频画面；若所述画面重复率大于预设重复率阈值，则从所述相邻视频帧中剔除一帧视频画面，以得到若干目标视频帧；基于光学字符识别技术提取所述若干目标视频帧中的文本，以得到若干视频画面文本。4.根据权利要求2所述的基于视频信息的交互方法，其特征在于，还包括：基于所述若干段落摘要创建第一跳转接口，并判断是否通过所述第一跳转接口接收到与所述若干段落摘要中目标段落摘要对应的第一视频跳转指令；若是，则基于所述目标段落摘要对应的第一目标起止时间将所述视频播放窗口中当前播放的视频画面数据切换为与所述第一目标起止时间对应的第一目标视频画面数据。5.根据权利要求1所述的基于视频信息的交互方法，其特征在于，还包括：判断是否接收到语言转录指令，若是，则基于所述语言转录指令中的语言类型分别将所述若干音频段落文本以及所述若干视频画面文本转换为与所述语言类型对应的若干目标音频段落文本以及若干目标视频画面文本；将所述若干目标音频段落文本覆盖至所述视频播放窗口预设第一视频区域，并将所述
...

【专利技术属性】
技术研发人员：高岩，张铮，郭冬升，姜凯，王光鑫，
申请(专利权)人：山东浪潮科学研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人