当前位置: 首页 > 专利查询>脸谱公司专利>正文

基于描述性模型的自动决策制造技术

技术编号:27193089 阅读:28 留言:0更新日期:2021-01-31 11:39
在一个实施例中,一种方法包括访问来自一个或更多个不同输入源的输入数据。输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图。基于输入数据为当前音频

【技术实现步骤摘要】
【国外来华专利技术】基于描述性模型的自动决策
[0001]优先权
[0002]本申请根据35 U.S.C.
§
119(e)要求2018年10月5日提交的第16/153,613号美国专利申请和2018年4月10日提交的第62/655,751号美国临时专利申请的权益,其通过引用结合于此。


[0003]本公开总体上涉及视频会议。
[0004]背景
[0005]可以包括社交网络网站的社交网络系统可以使它的用户(例如个人或组织)能够与它交互以及通过它彼此交互。社交网络系统可以利用来自用户的输入来在社交网络系统中创建并存储与用户相关联的用户简档(user profile)。用户简档可以包括用户已经输入的信息。根据用户的隐私设置,信息可以是公开的或私有的,并且可以包括人口统计信息、通信渠道(communication-channel)信息和关于用户个人兴趣的信息。社交网络系统还可以用来自用户的输入和许可来创建并存储用户与社交网络系统的其他用户的关系的记录,以及提供服务(例如,发帖墙(wall post)、照片分享、事件组织、消息传送、游戏或广告)以便于在用户之间或当中的社交互动。
[0006]社交网络系统可以通过一个或更多个网络向用户的移动设备或其他计算设备发送与它的服务相关的内容或消息。用户还可以在用户的移动设备或其他计算设备上安装软件应用,用于访问用户的用户简档和在社交网络系统内的其他数据。社交网络系统可以生成一组个性化的内容对象以显示给用户,例如关连(connect)到该用户的其他用户的汇集的动态(story)的动态消息(newsfeed)。
[0007]移动计算设备(例如智能手机、平板电脑、笔记本电脑或专用音频/视频(audio/video)通信接口)可以包括用于确定其位置、方向或取向的功能,例如GPS接收器、指南针、陀螺仪或加速度计。这种设备还可以包括用于无线通信(例如蓝牙通信、近场通信(NFC)、或红外(IR)通信、或与无线局域网(WLAN)或蜂窝电话网络的通信)的功能。这种设备还可以包括一个或更多个摄像机、扫描仪、触摸屏、麦克风或扬声器。移动计算设备还可以执行软件应用,例如游戏、web浏览器或社交网络应用。使用社交网络应用,用户可以与他们的社交网络中的其他用户关连、通信和分享信息。
[0008]特定实施例概述
[0009]智能通信设备可以用于音频/视频(audio/visual)通信,例如实时或视频聊天或预先录制的音频/视频演示。智能通信设备可以是位于用户家中或办公室中的专用通信设备。智能通信设备可以具有触敏显示屏、扬声器、一个或更多个摄像机以及一个或更多个麦克风。设备可以根据设备所有者和进入设备视野内的每个用户指定的隐私设置来访问用户信息。例如,设备所有者可以指定在任何情况下设备都不能访问由社交网络系统存储的关于任何人的信息。在这种情况下,设备不会就任何类型的用户信息与远程服务器通信。作为另一个示例,设备所有者可以指定设备可以访问由社交网络系统存储的信息以增强用户体
验(如下面将讨论的)。在这种情况下,设备可以就设备所有者的社交网络数据与社交网络系统通信,但是设备将继续检查访问其他用户的社交网络数据的许可。例如,如果设备所有者选择加入社交网络数据访问,但是设备所有者的朋友没有选择加入,则设备将不会访问朋友的社交网络数据。
[0010]智能通信设备可以具有内部处理功能,使其能够做出模拟人类将做出的影片决策(cinematic decision)的自动影片决策。这种影片决策可以包括人类导演在她控制摄像机和麦克风的情况下做出的任何选择(例如,生成影片剪辑(cinematic cut)),以及可以通过视频编辑器获得的任何决策(例如,选择实时地应用视觉效果)。这样的选择可以包括:一个人正在说话并且(例如,在与社交网络系统相关联的隐私设置界面中)已经指定她允许设备向她拉近(zoom in)时则拉近这个人、平移(pan)或切换(cut)到另一个人、拉远(zoom out)具有大量活动的场景、设备所有者和声源允许这样的功能时则将麦克风波束形成为特定声源、以及其他合适的决策。为了做出这些决定,智能导演可以访问两个或更多用户之间的当前音频-视频(audio-visual)通信会话(“AV通信会话”)的描述性模型。智能导演可以位于智能通信设备中,也可以位于远程服务器中。根据设备所有者和每个相关用户的隐私设置,描述性模型可以包括关于以下项的信息:(1)与发送智能通信设备所处的环境相关的非身份识别信息(non-identifying information);(2)位于发送设备环境中的一个或更多个人;(3)与接收方的智能通信设备所处的环境相关的非身份识别信息;(4)位于接收方设备环境中的一个或更多个人;以及(5)当前音频-视频(audio-video)通信会话周围的上下文(context)。如果设备触发从远程服务器检索关于用户的信息,则该用户可以是相关用户。根据这些输入以及来自任何参与用户的其他手动输入和任何被捕获用户的隐私设置,智能导演可以做出与以下项相关的影片决策:视觉目标(例如,拉近一个人,特别是在这个人已经允许拉近的情况下)、音频目标(例如,如果特定的声源已经允许声音放大,则相对于其他声源放大该特定的声源)或风格(例如,视觉目标之间的平滑与快速转换)。
[0011]在特定实施例中,发送到参与音频-视频通信会话的设备的视觉数据可以经历至少三种类型的视觉处理中的一种或更多种:(1)背景/前景建模;(2)重新识别人;以及(3)消除重叠的人(overlapping people)的歧义。背景/前景建模可以包括基于实时多人2D姿势估计数据对人体骨骼使用边界框,并且只为边界框之外的区域收集背景数据。重新识别人可以涉及识别一个或更多个人体骨骼,并生成关于每个人体骨骼的一个或更多个描述性特征。如果设备所有者和相关用户已经选择加入该功能,则描述性特征可以包括对应于人体骨骼的人的颜色直方图、当前位置和轨迹、以及与人体骨骼相关联的一组比例(例如,臀肩比)。如果需要重新识别人体骨骼,系统可以依靠描述性特征来重新识别人体骨骼。重要的是要注意,重新识别可能不是设备或后端系统确定与人体骨骼相关联的人的身份的实际识别,而是“骨骼A”的更良性的非身份识别的识别(benign non-identifying identification),其中相应的人的身份没有被发现。消除重叠的人的歧义旨在分离出其人体骨骼共享同一边界框或者其边界框重叠的人。此外还包括将每个人的面部映射为一副面部结构,并在该映射基础上构建一棵“人类树(human tree)”。下面将更详细地解释这些和其他实施例。
[0012]本文公开的实施例仅仅是示例,并且本公开的范围不限于它们。特定实施例可以包括上面公开的实施例的组件、元件、特征、功能、操作或步骤中的全部、一些或没有一个被
包括。根据本专利技术的实施例在涉及方法、存储介质、系统和计算机程序产品的所附权利要求中被具体公开,其中,在一个权利要求类别(例如,方法)中提到的任何特征也可以在另一个权利要求本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:访问来自一个或更多个不同输入源的输入数据,所述输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图;基于所述输入数据,生成当前音频-视频通信会话的当前描述性模型,所述当前描述性模型包括关于以下项的一个或更多个描述性特征:(1)与所述当前音频-视频通信会话相关联的环境,(2)所述环境中的一个或更多个人,或者(3)与所述当前音频-视频通信会话相关联的一个或更多个上下文元素;基于所述一个或更多个描述性特征为所述当前音频-视频通信会话生成一个或更多个指令;和向与所述一个或更多个摄像机和所述一个或更多个麦克风相关联的计算设备发送所述一个或更多个指令。2.根据权利要求1所述的方法,其中,关于与所述当前音频-视频通信会话相关联的环境的所述一个或更多个描述性特征包括:所述环境中的一面或更多面墙中的每一面墙的位置;所述环境中的一个或更多个门中的每一个门的位置;所述环境的类别;和所述环境中的一个或更多个对象中的每一个对象的位置。3.根据权利要求1所述的方法,其中,对于所述一个或更多个人中的每个人员,关于所述一个或更多个人的所述一个或更多个描述性特征包括:所述当前音频-视频通信会话的参与度度量;和所述人员与所述一个或更多个人中的至少一个其他人员之间的亲和力。4.根据权利要求3所述的方法,其中,所述一个或更多个人中的每个人员的参与度度量至少部分地基于所述人员说的字数、所述人员和所述计算设备之间的物理距离、所述人员在所述当前音频-视频通信系统期间在所述环境中的时间量、或者与所述人员相关联的社交图数据。5.根据权利要求1所述的方法,还包括基于已经在所述环境中发生的多个过去的音频-视频通信会话生成历史描述性模型,其中,所述一个或更多个描述性特征至少部分地基于所述历史描述性模型。6.根据权利要求1所述的方法,其中,所述一个或更多个指令包括向视觉目标拉近、向视觉目标平移、将麦克风波束形成为音频目标、或将场景切换到视觉目标的指令。7.根据权利要求1所述的方法,其中,与所述当前音频-视频通信会话相关联的一个或更多个上下文元素包括所述当前音频-视频通信会话在一天中的时间、所述当前音频-视频通信会话的数据或与所述当前音频-视频通信会话相关联的事件。8.一个或更多个计算机可读非暂时性存储介质,其体现软件,所述软件在被执行时可操作来:访问来自一个或更多个不同输入源的输入数据,所述输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图;基于所述输入数据,生成当前音频-视频通信会话的当前描述性模型,所述当前描述性模型包括关于以下项的一个或更多个描述性特征:(1)与所述当前音频-视频通信会话相关
联的环境,(2)所述环境中的一个或更多个人,或者(3)与所述当前音频-视频通信会话相关联的一个或更多个上下文元素;基于所述一个或更多个描述性特征为所述当前音频-视频通信会话生成一个或更多个指令;和向与所述一个或更多个摄像机和所述一个或更多个麦克风相关联的计算设备发送所述一个或更多个指令。9.根据权利要求8所述的介质,其中,关于与所述当前音频-视频通信会话相关联的环境的所述一个或更多个描述性特征包括:所述环境中的一面或更多面墙中的每一面墙的位置;所述环境中的一个或更多个门中的每一个门的位置;所述环境的类别;和所述环境中的一个或更多个对象中的每一个对象的位置。10.根据权利要求8所述的介质,其中,对于所述一个或更多个人中的每个人员,关于所述一个或更多个人的所述一个或更多个描述性特征包括:所述当前音频-视频通信会话的参与度度量;和所述人员与所述一个或更多个人中的至少一个其他人员之间的亲和力。11.根据权利要求10所述的介质,其中,所述一个或更多个人中的每个人员的参与度度量至少部分地基于所述人员说的字数、所述人员和所述计算设备之间的物理距离、所述人员在所述当前音频-视频通信系统期间在所述环境中的时间量、或者与所述人员相关联的社交图数据。12.根据权利要求8所述的介质,其中,所述软件在被执行时还可操作来基于已经在所述环境中发生的多个过去的音频-视频通信会话生成历史描述性模型,其中,所述一个或更多个描述性特征至少部分地基于所述历史描述性模型。13.根据权利要求8所述的介质,其中,所述一个或更多个指令包括向视觉目标拉近、向视觉目标平移、将麦克风波束形成为音频目标、或将场景切换到视觉目标的指令。14.根据权利要求8所述的介质,其中,与所述当前音频-视频通信会话相关联的一个或更多个上下文元素包括所述当前音频-视频通信会话在一天中的时间、所述当前音频-视频通信会话的数据或与所述当前音频-视频通信会话相关联的事件。15.一种系统,包括:一个或更多个处理器;和一个或更多个计算机可读非暂时性存储介质,其耦合到一个或更多个所述处理器,并且包括指令,所述指令当由一个或更多个所述处理器执行时可操作来使所述系统:访问来自一个或更多个不同输入源的输入数据,所述输入源包括:一个或更多个摄像机、一个或更多个麦克风以及由社交网络系统维护的社交图;基于所述输入数据,生成当前音频-视频通信会话的当前描述性模型,所述当前描述性模型包括关于以下项的一个或更多个描述性特征:(1)与所述当前音频-视频通信会话相关联的环境,(2)所述环境中的一个或更多个人,或者(3)与所述当前音频-视频通信会话相关联的一个或更多个上下文元素;基于所述一个或更多个描述性特征为所述当前音频-视频通信会话生成一个或更多个
指令;和向与所述一个或更多个摄像机和所述一个或更多个麦克风相关联的计算设备发送所述一个或更多个指令。16.根据权利要求15所述的系统,其中,关于与所述当前音频-视频通信会话相关联的环境的所述一个或更多个描述性特征包括:所述环境中的一面或更多面墙中的每一面墙的位置;所述环境中的一个或更多个门中的每一个门的位置;所述环境的类别;和所述环境中的一个或更多个对象中的每一个对象的位置。17.根据权利要求15所述的系统,其中,对于所述一个或更多个人中的每个人员,关于所述一个或更多个人的所述一个或更多个描述性特征包括:所述当前音频-视频通信会话的参与度度量;和所述人员与所述一个或更多个人中的至少一个其他人员之间的亲和力。18.根据权利要求17所述的系统,其中,所述一个或更多个人中的每个人员的参与度度量至少部分地基于所述人员说的字数、所述人员和所述计算设备之间的物理距离、所述人员在所述当前音频-视频通信系统期间在所述环境中的时间量、或者与所述人员相关联的社交图数据。19.根据权利要求15所述的系统,其中,所述处理器在执行所述指令时还可操作来基于已经在所述环境中发生的多个过去的音频-视频通信会话生成历史描述性模型,其中,所述一个或更多个描述性特征至少部分地基于所述历史描述性模型。20.根据权利要求15所述的系统,其中,所述一个或更多个指令包括向视觉目标拉近、向视觉目标平移、将麦克风波束形成为音频目标、或将场景切换到视觉目标的指令。21.一种方法,包括:访问来自一个或更多个不同输入源的输入数据,所述输入源包括:一个或更多个摄像机、一个或更多...

【专利技术属性】
技术研发人员:詹森
申请(专利权)人:脸谱公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1