对视频或语音消息的内联响应制造技术

技术编号:28117689 阅读:7 留言:0更新日期:2021-04-19 11:17
方法包括,接收由与发送方相关联的发送方设备记录的发送方媒体。方法进一步包括,由接收方设备为接收方播放发送方媒体。方法进一步包括,检测到接收方正在说话。方法进一步包括,基于检测到接收方正在说话,记录接收方媒体。方法进一步包括,确定发送方媒体中的接收方媒体将被包括的位置。方法进一步包括,生成组合媒体,该组合媒体包括发送方媒体的至少一部分和在该位置处的接收方媒体。和在该位置处的接收方媒体。和在该位置处的接收方媒体。

【技术实现步骤摘要】
【国外来华专利技术】对视频或语音消息的内联响应
相关申请的交叉引用
[0001]本申请要求于2018年9月13日提交的标题为“对视频或语音消息的内联响应”的美国专利申请第16/130,650号的优先权,该美国专利申请的内容通过引用被完全结合在本文中。

技术介绍

[0002]本说明书涉及一种媒体应用,该媒体应用生成包括发送方媒体和接收方媒体的组合媒体。
[0003]随着移动电话和其他便携式通信设备变得越来越流行,发送方可以为接收方留下视频消息或音频消息。存在接收方响应消息内的问题的技术。例如,存在允许接收方手动点击他们想要添加响应的消息的一部分的技术。然而,用于添加响应的手动技术足够费力,以至于接收方可能决定放弃使用该技术。另外,对已经很长的消息添加响应可能会使得它足够长,以至于发送方不希望收听该消息。
[0004]本文中提供的
技术介绍
描述是出于总体上呈现本公开的情境的目的。该
技术介绍
部分中描述的目前署名的专利技术人的工作,以及在提交时可能没有另外限定为现有技术的描述的方面,对于本公开而言既不应清楚地也不应隐含地被认定为现有技术。

技术实现思路

[0005]实施例总体上涉及一种方法,所述方法包括,接收由与发送方相关联的发送方设备记录的发送方媒体。所述方法进一步包括,由接收方设备为接收方播放发送方媒体。所述方法进一步包括,由麦克风检测到所述接收方正在说话。所述方法进一步包括,基于检测到所述接收方正在说话,记录接收方媒体。所述方法进一步包括,确定所述发送方媒体中的所述接收方媒体将被包括的位置。所述方法进一步包括,生成组合媒体,所述组合媒体包括所述发送方媒体的至少一部分和在所述位置处的所述接收方媒体。
[0006]在一些实施例中,所述方法进一步包括,确定所述发送方媒体相对于所述接收方媒体的情境,所述情境包括在所述发送方媒体中的所述接收方媒体将被包括的所述位置处由所述发送方询问的问题、以及包括所述问题和所述问题之前或之后的至少一个句子的所述发送方媒体的子集,以及基于所述情境,对所述发送方媒体进行概括,其中,基于所述情境,所述发送方媒体的所述至少一部分被概括。在一些实施例中,通过检测所述发送方媒体中的暂停或语义中断来确定作为所述发送方媒体的所述情境的一部分的所述问题。在一些实施例中,被训练为检测所述暂停或所述语义中断的机器学习模型通过检测所述发送方媒体中的所述暂停或所述语义中断来确定所述情境。在一些实施例中,基于所述情境,所述发送方媒体被概括为文本转录。在一些实施例中,被训练为分析与所述发送方媒体相关联的音频以检测所述音频中的问题的机器学习模型确定所述发送方媒体的所述情境。在一些实施例中,通过在所述发送方媒体中的所述接收方媒体将被包括的所述位置之后添加暂停来修改所述发送方媒体,并且所述发送方媒体的所述至少一部分在所述暂停之后开始。在一
些实施例中,检测到所述接收方正在说话包括,使用所述接收方设备的麦克风来检测语音信号的起点。在一些实施例中,所述方法进一步包括,生成可操作为回放所述组合媒体的用户界面,所述用户界面包括搜索栏和标识符,所述搜索栏促进选择所述组合媒体内的不同回放位置,所述标识符识别所述接收方媒体在所述组合媒体中的所述位置。在一些实施例中,所述发送方媒体是视频文件或音频文件。
[0007]在一些实施例中,一种系统包括一个或多个处理器以及其上存储有指令的存储器,当所述指令由所述一个或多个处理器执行时,所述指令使得所述一个或多个处理器进行操作,所述操作包括,接收包括第一音频的发送方视频,所述第一音频由与发送方相关联的发送方设备记录,为一组接收方播放所述发送方视频,基于来自麦克风的一个或多个通知,检测所述一组接收方中的每个接收方何时说话,基于所述一组接收方响应于所述发送方视频而说话,记录接收方媒体,以及生成组合媒体,所述组合媒体包括(1)所述发送方视频的至少一部分和(2)所述接收方媒体。
[0008]在一些实施例中,其中,所述存储器具有其上存储的进一步指令,所述进一步指令使得所述一个或多个处理器进行操作,所述操作包括,确定与所述组合视频中的来自所述一组接收方中的至少一个接收方说话的部分相关联的主题,以及基于所述组合媒体来生成包括搜索栏的用户界面,所述搜索栏示出(1)所述组合媒体内的所述一组接收方响应所述发送方的位置;(2)在所述位置处说话的所述一组接收方中的接收方的数量;以及(3)与所述发送方视频的所述部分相关联的所述主题。在一些实施例中,其中,所述存储器具有其上存储的进一步指令,所述进一步指令使得所述一个或多个处理器进行操作,所述操作包括,确定所述发送方媒体相对于所述接收方媒体的情境,所述情境包括在所述发送方媒体中的所述接收方媒体将被包括的所述位置处由所述发送方询问的问题、以及包括所述问题和所述问题之前或之后的至少一个句子的所述发送方媒体的子集,以及基于所述情境,对所述发送方媒体进行概括,其中,基于所述情境,所述发送方媒体的所述至少一部分被概括。
[0009]在一些实施例中,一种非暂时性计算机可读介质包括其上存储的指令,当所述指令由一个或多个计算机执行时,所述指令使得所述一个或多个计算机进行操作,所述操作包括:接收由与发送方相关联的发送方设备记录的发送方媒体,由接收方设备为接收方播放所述发送方媒体,由麦克风检测到所述接收方正在说话,基于检测到所述接收方正在说话,记录接收方媒体,确定所述发送方媒体中的所述接收方媒体将被包括的位置,以及生成组合媒体,所述组合媒体包括所述发送方媒体的至少一部分和在所述位置处的所述接收方媒体。
[0010]在一些实施例中,所述操作进一步包括,确定所述发送方媒体相对于所述接收方媒体的情境,所述情境包括在所述发送方媒体中的所述接收方媒体将被包括的所述位置处由所述发送方询问的问题、以及包括所述问题和所述问题之前或之后的至少一个句子的所述发送方媒体的子集,以及基于所述情境,对所述发送方媒体进行概括,其中,基于所述情境,所述发送方媒体的所述至少一部分被概括。在一些实施例中,通过检测所述发送方媒体中的暂停或语义中断来确定作为所述发送方媒体的所述情境的一部分的所述问题。在一些实施例中,被训练为检测所述暂停或所述语义中断的机器学习模型通过检测所述发送方媒体中的所述暂停或所述语义中断来确定所述情境。在一些实施例中,基于所述情境,所述发送方媒体被概括为文本转录。在一些实施例中,被训练为分析与所述发送方媒体相关联的
音频以检测所述音频中的问题的机器学习模型确定所述发送方媒体的所述情境。在一些实施例中,通过在所述发送方媒体中的所述接收方媒体将被包括的所述位置之后添加暂停来修改所述发送方媒体,并且所述发送方媒体的所述至少一部分在所述暂停之后开始。
[0011]下面描述的各种实施例有利地描述了一种生成组合媒体的方式,该组合媒体包括:(1)发送方媒体的至少一部分和(2)发送方媒体中的接收方媒体旨在被包括的位置处的接收方媒体。结果,组合媒体可以包括来自发送方的问题和来自接收方的回答。在一些实施例中,接收方收听发送方媒体,并且当检测到接收方正在说话时,回放被暂停。在一些实施例中,确定发送方媒体的情境,并本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,其特征在于,包括:接收由与发送方相关联的发送方设备记录的发送方媒体;由接收方设备为接收方播放所述发送方媒体;由麦克风检测到所述接收方正在说话;基于检测到所述接收方正在说话,记录接收方媒体;确定所述发送方媒体中的所述接收方媒体将被包括的位置;以及生成组合媒体,所述组合媒体包括所述发送方媒体的至少一部分和在所述位置处的所述接收方媒体。2.根据权利要求1所述的方法,其特征在于,进一步包括:确定所述发送方媒体相对于所述接收方媒体的情境,所述情境包括在所述发送方媒体中的所述接收方媒体将被包括的所述位置处由所述发送方询问的问题、以及包括所述问题和所述问题之前或之后的至少一个句子的所述发送方媒体的子集;以及基于所述情境,对所述发送方媒体进行概括;其中,基于所述情境,所述发送方媒体的所述至少一部分被概括。3.根据权利要求2所述的方法,其特征在于,通过检测所述发送方媒体中的暂停或语义中断来确定作为所述发送方媒体的所述情境的一部分的所述问题。4.根据权利要求3所述的方法,其特征在于,被训练为检测所述暂停或所述语义中断的机器学习模型通过检测所述发送方媒体中的所述暂停或所述语义中断来确定所述情境。5.根据权利要求2所述的方法,其特征在于,基于所述情境,所述发送方媒体被概括为文本转录。6.根据权利要求2所述的方法,其特征在于,被训练为分析与所述发送方媒体相关联的音频以检测所述音频中的问题的机器学习模型确定所述发送方媒体的所述情境。7.根据权利要求1所述的方法,其特征在于,通过在所述发送方媒体中的所述接收方媒体将被包括的所述位置之后添加暂停来修改所述发送方媒体,并且所述发送方媒体的所述至少一部分在所述暂停之后开始。8.根据权利要求1所述的方法,其特征在于,检测到所述接收方正在说话包括,使用所述接收方设备的麦克风来检测语音信号的起点。9.根据权利要求1所述的方法,其特征在于,进一步包括:生成可操作为回放所述组合媒体的用户界面,所述用户界面包括搜索栏和标识符,所述搜索栏促进选择所述组合媒体内的不同回放位置,所述标识符识别所述接收方媒体在所述组合媒体中的所述位置。10.根据权利要求1所述的方法,其特征在于,所述发送方媒体是视频文件或音频文件。11.一种系统,其特征在于,包括:一个或多个处理器;以及其上存储有指令的存储器,当所述指令由所述一个或多个处理器执行时,所述指令使得所述一个或多个处理器进行操作,所述操作包括:接收包括第一音频的发送方视频,所述第一音频由与发送方相关联的发送方设备记录;为一组接收方播放所述发送方视频;
基于来自麦克风的一个或多个通知,检测所述一组接收方中的每个接收方何时说话;基于所述一组接收方响应于所述发送方视频而说话,记录接收方媒体;以及生成组合媒体,所述组合媒体包括(1)所述发送方视频的至少一部分和(2)所述接收方媒体。12.根据权利要求11所述的系统,其特征在于,所述存储器具有其上存储的进一步指令,所述进一步指令...

【专利技术属性】
技术研发人员:马修
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利