一种基于视频信息的交互方法、装置、设备及存储介质制造方法及图纸

技术编号:39262464 阅读:11 留言:0更新日期:2023-10-30 12:15
本申请公开了一种基于视频信息的交互方法、装置、设备及存储介质,涉及自然语言处理领域,包括:对待处理视频文件进行分离,并对得到的音频数据以及视频画面数据进行预处理,以得到若干音频段落文本和若干视频画面文本;对若干音频段落文本和若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库;对接收到的问题文本进行向量化,并基于向量化问题文本对向量化数据进行相似度匹配,以确定目标向量化数据;将目标向量化数据以及向量化问题文本输入至预设语言模型,以生成答案文本,并将答案文本呈现至待处理视频文件的视频播放窗口。这样一来,可以实现基于视频信息的问答交互,提升用户观看视频、获取信息的体验和效率。验和效率。验和效率。

【技术实现步骤摘要】
一种基于视频信息的交互方法、装置、设备及存储介质


[0001]本专利技术涉及自然语言处理领域,特别涉及一种基于视频信息的交互方法、装置、设备及存储介质。

技术介绍

[0002]随着视频网站和自媒体的发展,各类课程学习视频、会议演讲汇报视频的数量正在飞速增长,大量用户通过这类视频学习专业课程知识、了解行业前沿技术。并且随着人工智能技术的发展,尤其是近期在语音识别、自然语言处理、大型语言模型技术等方面的突破性进展,基本可以实现对视频信息的结构化,从而加速视频信息的传递效率。但现有技术中,对视频信息的处理可能导致基于视频信息的问答交互中利用的视频知识密度较低、结构性差,进而造成信息传递的瓶颈。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种基于视频信息的交互方法、装置、设备及存储介质,可以根据用户输入的问题文本对基于视频得到的文本数据进行匹配,以得到与所属问题文本对应的答案文本,并将答案文本呈现给用户,这样一来,可以实现基于视频信息的问答交互,提升用户观看视频、获取信息的体验和效率。其具体方案如下:
[0004]第一方面,本申请公开了一种基于视频信息的交互方法,应用于视频播放客户端,包括:
[0005]对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本;
[0006]对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库;
[0007]对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据;
[0008]将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。
[0009]可选的,对所述音频数据进行预处理,包括:
[0010]对所述音频数据进行语音识别,以得到与所述音频数据对应的音频文本;
[0011]利用预设语言模型对所述音频文本进行段落划分,以得到若干音频段落文本,并确定与所述若干音频段落文本对应的若干段落摘要以及起止时间;所述起止时间为所述若干音频段落文本中每一个音频段落文本各自对应的起止时间。
[0012]可选的,对所述视频画面数据进行预处理,包括:
[0013]基于所述起止时间对所述视频画面数据进行视频分割,以得到与所述若干音频段落文本对应的若干视频画面数据;
[0014]基于预设时间间隔分别抽取所述若干视频画面数据中每一个视频画面数据中的相邻视频帧,并计算所述相邻视频帧的画面重复率;所述相邻视频帧为基于所述预设时间间隔的两帧视频画面;
[0015]若所述画面重复率大于预设重复率阈值,则从所述相邻视频帧中剔除一帧视频画面,以得到若干目标视频帧;
[0016]基于光学字符识别技术提取所述若干目标视频帧中的文本,以得到若干视频画面文本。
[0017]可选的,所述基于视频信息的交互方法,还包括:
[0018]基于所述若干段落摘要创建第一跳转接口,并判断是否通过所述第一跳转接口接收到与所述若干段落摘要中目标段落摘要对应的第一视频跳转指令;
[0019]若是,则基于所述目标段落摘要对应的第一目标起止时间将所述视频播放窗口中当前播放的视频画面数据切换为与所述第一目标起止时间对应的第一目标视频画面数据。
[0020]可选的,所述基于视频信息的交互方法,还包括:
[0021]判断是否接收到语言转录指令,若是,则基于所述语言转录指令中的语言类型分别将所述若干音频段落文本以及所述若干视频画面文本转换为与所述语言类型对应的若干目标音频段落文本以及若干目标视频画面文本;
[0022]将所述若干目标音频段落文本覆盖至所述视频播放窗口预设第一视频区域,并将所述若干目标视频画面文本覆盖至所述视频播放窗口预设第二视频区域。
[0023]可选的,所述对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据,包括:
[0024]判断是否接收到输入的问题文本,若是,则对所述问题文本进行向量化,以得到向量化问题文本;
[0025]计算所述向量化问题文本与所述预设向量数据库中保存的所述向量化数据之间的相似度,并将计算得到的数值最高的相似度确定为目标相似度;
[0026]将与所述目标相似度对应的向量化音频段落文本确定为目标向量化音频段落文本,并将与所述目标相似度对应的向量化视频画面文本确定为目标向量化视频画面文本。
[0027]可选的,所述将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口之后,还包括:
[0028]确定与所述目标向量化音频段落文本以及与所述目标向量化视频画面文本对应的第二目标起止时间;
[0029]创建与所述答案文本对应的第二跳转接口,并判断是否基于所述第二跳转接口接收到与所述答案文本对应的第二视频跳转指令;
[0030]若是,则将所述视频播放窗口中当前播放的视频画面数据跳转至与所述第二目标起止时间对应的第二目标视频画面数据。
[0031]第二方面,本申请公开了一种基于视频信息的交互装置,应用于视频播放客户端,
包括:
[0032]视频分离模块,用于对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本;
[0033]数据向量化模块,用于对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库;
[0034]问题匹配模块,用于对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据;
[0035]答案呈现模块,用于将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。
[0036]第三方面,本申请公开了一种电子设备,包括:
[0037]存储器,用于保存计算机程序;
[0038]处理器,用于执行所述计算机程序以实现前述的基于视频信息的交互方法。
[0039]第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的基于视频信息的交互方法。
[0040]本申请中,首先对待处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视频信息的交互方法,其特征在于,应用于视频播放客户端,包括:对待处理视频文件进行分离操作,并对通过分离操作得到的音频数据以及视频画面数据进行预处理,以得到与所述音频数据对应的若干音频段落文本,以及与所述视频画面数据对应的若干视频画面文本;对所述若干音频段落文本以及所述若干视频画面文本进行向量化,并将得到的向量化数据保存至预设向量数据库;对接收到的问题文本进行向量化,并基于得到的向量化问题文本对所述预设向量数据库中保存的所述向量化数据进行相似度匹配,以确定与所述向量化问题文本对应的目标向量化数据;将所述目标向量化数据以及所述向量化问题文本输入至预设语言模型,以生成与所述问题文本对应的答案文本,并将所述答案文本呈现至所述待处理视频文件的视频播放窗口。2.根据权利要求1所述的基于视频信息的交互方法,其特征在于,对所述音频数据进行预处理,包括:对所述音频数据进行语音识别,以得到与所述音频数据对应的音频文本;利用预设语言模型对所述音频文本进行段落划分,以得到若干音频段落文本,并确定与所述若干音频段落文本对应的若干段落摘要以及起止时间;所述起止时间为所述若干音频段落文本中每一个音频段落文本各自对应的起止时间。3.根据权利要求2所述的基于视频信息的交互方法,其特征在于,对所述视频画面数据进行预处理,包括:基于所述起止时间对所述视频画面数据进行视频分割,以得到与所述若干音频段落文本对应的若干视频画面数据;基于预设时间间隔分别抽取所述若干视频画面数据中每一个视频画面数据中的相邻视频帧,并计算所述相邻视频帧的画面重复率;所述相邻视频帧为基于所述预设时间间隔的两帧视频画面;若所述画面重复率大于预设重复率阈值,则从所述相邻视频帧中剔除一帧视频画面,以得到若干目标视频帧;基于光学字符识别技术提取所述若干目标视频帧中的文本,以得到若干视频画面文本。4.根据权利要求2所述的基于视频信息的交互方法,其特征在于,还包括:基于所述若干段落摘要创建第一跳转接口,并判断是否通过所述第一跳转接口接收到与所述若干段落摘要中目标段落摘要对应的第一视频跳转指令;若是,则基于所述目标段落摘要对应的第一目标起止时间将所述视频播放窗口中当前播放的视频画面数据切换为与所述第一目标起止时间对应的第一目标视频画面数据。5.根据权利要求1所述的基于视频信息的交互方法,其特征在于,还包括:判断是否接收到语言转录指令,若是,则基于所述语言转录指令中的语言类型分别将所述若干音频段落文本以及所述若干视频画面文本转换为与所述语言类型对应的若干目标音频段落文本以及若干目标视频画面文本;将所述若干目标音频段落文本覆盖至所述视频播放窗口预设第一视频区域,并将所述
...

【专利技术属性】
技术研发人员:高岩张铮郭冬升姜凯王光鑫
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1