一种用于回答视频相关问题的情境感知方法,设备和系统技术方案

技术编号:35848808 阅读:17 留言:0更新日期:2022-12-07 10:30
一种用于回答视频相关问题的情境感知方法,设备和系统,包括:接收关于暂停视频在暂停位置的问题;获取并分析在视频的暂停位置的情境信息,情境信息包括视频的补充材料;以及根据在视频的暂停位置的情境信息,自动搜索问题的答案;对答案进行语言通顺处理,以获得语言通顺的答案;输出语言通顺的答案。输出语言通顺的答案。输出语言通顺的答案。

【技术实现步骤摘要】
一种用于回答视频相关问题的情境感知方法,设备和系统


[0001]本
技术实现思路
涉及机器阅读理解
,更具体地说,涉及一种用于回答视频相关问题的情境感知方法,设备和系统。

技术介绍

[0002]媒体内容已经成为信息、娱乐,乃至教育的主要来源。提供视频内容查询及互动体验的能力是一个新的挑战。为此,问答(question answering,QA)系统,如Alexa和谷歌助手,已在消费者市场上相当成熟,但仅限于针对普通信息,缺乏情境感知的能力。自动的情境感知QA系统成为需求,来为与视频内容相关的查询提供答案。

技术实现思路

[0003]本专利技术其中一方面提供了一种用于回答视频相关问题的情境感知方法。方法包括:接收关于暂停视频在暂停位置的问题;获取并分析在视频暂停位置的情境信息,情境信息包括视频的补充材料;以及根据在视频的暂停位置的情境信息,自动搜索问题的答案。
[0004]本专利技术另一个方面提供了一种用于回答视频相关问题的情境感知设备。设备包括一个存储程序指令的存储器和一个与存储器耦合的处理器。将处理器配置为执行程序指令以:接收关于暂停视频在暂停位置的问题;获取并分析在视频的暂停位置的情境信息,情境信息包括视频的补充材料;以及根据在视频的暂停位置的情境信息,自动搜索问题的答案。
[0005]本专利技术的另一个方面提供了一种用于回答视频相关问题的情境感知系统。系统包括一个终端设备和一个云服务器。将终端设备配置为:接收关于暂停视频在暂停位置的问题;发送问题到云服务器;从云服务器接收语言通顺的答案;以及输出答案。将云服务器配置为:接收来自终端设备问题;获取并分析在视频的暂停位置的情境信息,情境信息包括视频的补充材料;根据在视频的暂停位置的情境信息,自动搜索问题的答案;对答案进行语言通顺处理,以获得语言通顺的答案;以及将语言平滑的答案发送到终端设备。
[0006]本
技术实现思路
的其他方面可由本领域的技术人员根据本
技术实现思路
的描述、权利要求和附图来理解。
附图说明
[0007]以下附图仅是根据本专利技术实施例进行说明的示例,并非有意限制本专利技术范围。
[0008]图1是本专利技术实施例情境感知方法的流程图,方法用于回答视频相关的问题。
[0009]图2是本专利技术实施例样本场景和相关元数据的示意图。
[0010]图3是本专利技术实施例依存关系示意图。
[0011]图4是本专利技术实施例阶段式QA控制器算法的阶段示意图。
[0012]图5是本专利技术实施例来自情境问答(Context

QA)的答案和来自统一问答(Unified QA)的答案的比较结果示意图。
[0013]图6是本专利技术实施例来自池的样本问题示意图,池包括所有时态。
[0014]图7是本专利技术实施例第一阶段和第二阶段调试的阈值示意图。
[0015]图8是本专利技术实施例第三阶段调试的阈值示意图。
[0016]图9是本专利技术实施例场景库的调试大小示意图。
[0017]图10是本专利技术实施例各种QA系统的用户偏好示意图。
[0018]图11是本专利技术实施例用户所问的问题类型示意图。
[0019]图12是本专利技术实施例情境感知问答设备的结构示意图。
具体实施方式
[0020]现在将详细提及本专利技术的示例性实施例,这些实施例会在附图中展示说明。在下文中,将参照附图描述与本
技术实现思路
相一致的实施例。全部附图将尽可能地使用相同标号来指代相同或相似部分。显然,所描述的实施例是本专利技术其中的部分实施例,并非全部实施例。基于公开的实施例,本领域技术人员可获得与本
技术实现思路
一致的其他实施例,所有这些实施例都在本专利技术范围内。
[0021]仅视频流本身就占据57%以上全球互联网流量。媒体内容被嵌入到许多其他应用中,如社交网络、游戏和信息传递。媒体内容已经成为人们获取信息、娱乐和教育的主要来源。随着媒体内容量继续快速增长,对视频内容查询和互动体验的需求也在不断增加,以使得用户方便地访问媒体内容。即使是电视这种歌曾经的被动装置,现也可通过移动设备进行互动。从被动到互动的趋势为媒体内容的新形式开创许多机会。
[0022]例如,用户可以暂停正在观看的视频,并提出关于视频的问题。用户提出的问题可由自然语言处理模型来处理。例如,基于变换器的双向编码器表示(bidirectional encoding representations for transformers,BERT)模型经常被用来处理用户的问题,并已获得良好的准确性。其他深度学习模型也可用于实现类似的准确性。亚马逊Alexa和谷歌助手是基于这些模型的问答(QA)系统的示例。这些QA系统能够进行人机对话,并广泛应用于消费市场。虽然擅长通用信息的问答,但这些QA系统还没有显著深入到更多的情境感知对话。此外,随着信息丰富的视频内容的QA模型更加需要密集的资源,QA模型的计算复杂性成为部署系统的另一个挑战。
[0023]本专利技术提供了用于轻量级情境感知QA的方法和设备,以改善多媒体内容的QA体验。轻量级情境感知QA也简称为情境问答(Context

QA)。情境感知通过阶段式的QA控制算法实现,算法在与问题最相关的情境中持续搜索答案。评估结果显示,与传统的QA模式相比,方法提升了答案高达52%的质量,并消耗的时间减少了高达56%。主观测试显示,方法比传统QA模型优秀38%,并获得90%的正面回应。
[0024]本专利技术提供了用于视频问答的情境感知方法。方法也被称为情境问答(Context

QA)方法。Context

QA是一种轻量级情境感知QA架构,提供了多媒体内容QA。用户可以实时向运行Context

QA的设备或系统提出视频的相关问题。通过使用补充材料(如电影文献、摘要、剧本和视频的隐藏式字幕),并在使用补充材料生成答案时控制补充材料的流量,Context

QA提供情境感知处理过程,是。在获取答案后,回答被通顺处理以得到更加自然并拟人的互动体验。通过将所有QA处理过程和任务转移到云端,Context

QA实现其轻量级目标。
[0025]在本专利技术声明中,QA系统包括建立在视频播放器之上的网络界面,QA系统可以部
署在任何现代网络设备上。当用户暂停视频并提问时,Context

QA功能会被激活。QA系统以近乎实时的方式提供答案,同一问题的答案可能因用户在视频中暂停的不同位置而不同。评估结果显示,与传统的非情境感知QA基准模型相比,Context

QA提高了多达52%的回答质量,消耗的时间减少了高达56%。主观测试表明Context

QA比QA基准模型优秀38%,90%的用户表示喜欢Context

QA。此外,使用HTTP API和云计算使Context

QA可适用于包括移动设备的任何系统。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于回答视频相关问题的情境感知方法,其特征在于,包括:接收关于暂停视频在暂停位置的问题;获取并分析在所述视频的所述暂停位置的情境信息,所述情境信息包括所述视频的补充材料;以及根据在所述视频的所述暂停位置的所述情境信息,自动搜索所述问题的答案。2.根据权利要求1所述的方法,其特征在于,进一步包括:对所述答案进行语言通顺处理,以获得语言通顺的答案;以及输出所述语言通顺的答案。3.根据权利要求1所述的方法,其特征在于,所述获取并分析在所述视频的所述暂停位置的情境信息,包括:确定所述问题的场景库;获取所述场景库中所述视频的补充材料;将所述补充材料组织成多个段落;以及对多个所述段落中每个段落与所述问题的相关性进行排序,所述相关性即段落分数。4.根据权利要求3所述的方法,其特征在于,所述确定所述问题的场景库,包括:分析所述问题中的动词,确定所述问题的时态;针对所述问题的时态是过去时态,确定所述场景库包括当前场景和当前场景之前的N

1个场景,N是过去时态问题或将来时态问题的场景库大小;针对所述问题的时态是现在时态,确定所述场景库包括当前场景;针对所述问题的时态是将来时态,确定所述场景库包括当前场景和当前场景之后的N

1个场景。5.根据权利要求4所述的方法,其特征在于:N是大于1的整数。6.根据权利要求5所述的方法,其特征在于:N=3。7.根据权利要求3所述的方法,其特征在于,所述将所述补充材料组织成多个段落,包括:将每个场景的补充材料组织为三个层次,其中第一层次包括每个场景的摘要段落,第二层次包括每个场景的剧本段落,第三层次包括每个场景的隐藏字幕段落或每个场景的音轨转录段落;以及通过角色的角色名称索引描述所述角色的段落,其中在多个角色的每个角色名称下多次索引描述多个所述角色的段落。8.根据权利要求3所述的方法,其特征在于,所述对多个所述段落中每个段落与所述问题的相关性进行排序,包括:使用文档排序器评估段落与所述问题相关的概率,为多个所述段落中每个段落生成所述段落分数,其中所述段落分数是一个负浮点数。9.根据权利要求1所述的方法,其特征在于,所述根据在所述视频的所述暂停位置的所述情境信息,自动搜索所述问题的答案,包括:搜索多个段落,根据段落分数搜索与所述问题相匹配的段落;
针对找到与所述问题相匹配的段落,根据与所述问题相匹配的所述段落生成所述答案;以及针对无法找到与所述问题相匹配的段落,生成的所述答案是通知未找到答案。10.根据权利要求9所述的方法,其特征在于,所述搜索多个段落,根据段落分数搜索与所述问题相匹配的段落,包括:根据所述段落分数在多个所述段落中进行位置搜索,搜索与所述问题相匹配的段落;针对在所述位置搜索中未找到与所述问题相匹配的段落,根据所述段落分数在多个所述段落上执行角色搜索,搜索与所述问题相匹配的段落;以及针对在所述角色搜索中未找到与所述问题相匹配的段落,根据所述段落分数在多个所述段落上进行迭代搜索,搜索与所述问题相匹配的段落。11.根据权利要求10所述的方法,其特征在于:当所述段落分数大于或等于预设阈值时,确定所述段落与所述问题相匹配,所述预设阈值与当前搜索相对应,...

【专利技术属性】
技术研发人员:凯尔
申请(专利权)人:TCL科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1