当前位置: 首页 > 专利查询>微软公司专利>正文

活动说话者标识制造技术

技术编号:4625882 阅读:158 留言:0更新日期:2012-04-11 18:40
描述了用于标识音频事件中的客户机的过程。在一示例中,媒体服务器可基于输入水平来对提供音频的客户机进行排序。标识符可以与客户机相关联以标识在事件中提供输入的客户机。经排序的客户机可被包括在列表中,该列表可被插入到携带音频内容的分组首部中。

【技术实现步骤摘要】
【国外来华专利技术】背景媒体会议参与者可能难以标识其他会议参与者。参与者可能不熟悉说话者的话音或参与者的面孔或者音频交换可能使收听者混淆。在后一种情况下,如果若干参与者同时说话或者如果在多个参与者之间存在快速交换,则无论是否正在说话,收听者都可能被混淆。在某些情况下,说话者可包括他/她的名字“这/他是Bob,...”或者收听者可询问在前说话者的身份。该问题的复杂性可随着说话或提供音频输入的参与者的数量的增加而提高。虽然收听者可从对话中的“上下文线索”中导出说话者的身份,但在某些情况下,参与者可能不会了解哪些参与者正在提供音频输入。另外,可能期望最小化带宽消耗或者用于携带信息的数据吞吐量。例如,虽然用于传输数据的物理连接可具有额外的吞吐量,但消耗通信链路资源可减少对其他数据传输可用的吞吐量,或者可能在用户恰巧具有有限的网络带宽的情况下影响会议音频数据传输。如果媒体会议改进不是“向后兼容的”,则对该改进的接受可能是有限的。例如,如果修改与现有协议和版本不相容,则用户可能必须获得已更新的版本以便与实现经修改版本的参与者进行通信和/或寻求组织批准。上述情形可能抑制对经修改的技术的接受。概述描述了用于标识音频或音频/视频事件中的客户机的过程。在一示例中,媒体服务器可基于输入电平来对提供音频的客户机进行排序。标识符可以与客户机相关联以标识在事件中提供输入的客户机。经排序的客户机可被包括在列表中,该列表可被插入到携带音频内容的分组首部中。提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。-->附图简述参考附图来描述该详细描述。在附图中,附图标记中的最左边的数字标识该附图标记首次出现的附图。在说明书和附图中的不同的实例中使用相同的附图标记可指示相似或相同的项目。图1示出了可使用各种技术来准许标识活动说话者的示例性实现中的环境。图2是描绘在贡献源(CSRC)字段的列表中包括经排序/经重新排序的活动客户机列表的实时协议数据分组的示图。图3是描绘用于标识活动客户机的示例性实现中的过程的流程图。图4是描绘用于标识实时协议会议中的活动客户机的示例性实现中的过程的流程图。详细描述概览描述了标识媒体事件中的活动音频贡献者的技术。在各实现中,贡献或参与音频的客户机的列表可基于该客户机对会话的贡献来排列。标识符可以与参与的客户机相关联以使得这些客户机可标识哪一个/哪些客户机正活动地为事件作贡献。经排列的列表可被插入到供转发给各会议客户机的数据流分组首部中。在各实现中,标识信息可被包括在结合数据传输使用的控制分组中。此处所讨论的技术可提供说话者信息同时消耗最少的网络资源且不会引发同步问题。在其他实现中,用于切换/混合音频流的媒体服务器可被配置成将将排序的活动客户机列表插入到数据分组首部中。例如,媒体服务器可包括活动说话者的列表,该列表可基于当前活动说话者来排序以使得向客户机提供关于哪些客户机正活动地说话的信息。该列表可在不增加网络的媒体传输开销的情况下提供。示例性环境图1示出了可用于使用活动说话者标识的示例性实现中的环境100。例如,-->媒体服务器102可在混合客户机在媒体事件中提供的音频流并在其间切换时标识活动音频客户机。虽然讨论了音频数据处理,但媒体服务器102可基于会议和客户机设备的能力来处理包括视频等在内的其他类型的媒体数据。例如,媒体服务器102可操纵某些客户机的音频/视频数据,同时将音频数据转发给缺乏视频能力等的客户机。例如,媒体服务器处理器104可在混合/切换对应于客户机的音频流时确定哪一个或哪些客户机正在活动地贡献音频内容。媒体服务器处理器104可基于该处理器所采用的混合/切换算法/技术来确定哪些客户机正在活动地输入音频数据以生成发送媒体流。该确定可用于对为来自媒体服务器102的出站媒体流作贡献的客户机,或者为媒体服务器输出作贡献的客户机的列表进行排序。对于包括客户机“A”106、“B”108、“C”110、“D”112和“E”114的音频事件,其中客户机“A”106和“E”114正在贡献音频输入(诸如客户机A 106和E 114正在进行对话),可向非活动客户机“B”108、“C”110、“D”112提供来自媒体服务器102的“A+E”发送流,或这两个说话者的组合,而客户机“A”106和“E”114分别从媒体服务器102接收对方的发送流(例如,客户机A 106接收客户机E的发送流而客户机E 114接收客户机A的发送流)。合适的客户机设备包括但不限于,网际协议语音(VoIP)电话、具有音频能力的计算设备、通过网关连接到数字音频会话的公共交换电话网(PSTN)电话等等。在某些实现中,可能不向活动说话者提供包括该说话者自己的发送流的信号以避免反馈或回声(例如,可不向客户机A 106发送包含客户机A的音频的音频流)。可考虑若干通用标识情形,例如,客户机A可能正在比客户机E“更高声地谈话”(诸如如果与客户机A 106相关联的参与者正在大声说话而参与者“E”(与客户机E 114相关联)正以相比较正常的话音说话),参与者“A”和“E”参与其中当前说话者在这两个参与者之间变化的快速交换,或者参与者“A”主宰对话而参与者“E”提供相对较少的输入。后一种情形的示例可包括向主要说话者的占优势的独白添加次要确认的参与者。在各实现中,媒体服务器102可基于在接收音频内容时从客户机接收到的分组数量、分组大小、音频能级等来确定主要客户机(并由此确定说话者)。-->由此,在两个或更多客户机正在同时贡献内容时,可基于上述因素来将一个活动客户机指定为主要客户机(并由此指定为说话者)。例如,媒体服务器102可结合混合从不同客户机接收到的输入并在其间切换,基于包括从活动客户机接收到的音频内容的当前数据分组来确定当前活动客户机(及相关联的说话者)。例如,如果客户机E当前没有在贡献数据分组,则媒体服务器102可将客户机A 106指定为当前“活动”客户机。在其他情况下,如果客户机A 106和客户机E 114两者都是活动的,但客户机A 106正以比客户机E 114更大的能级贡献音频内容(即,参与者A正在大声说话而E正以较低的声调说话),则客户机A 106可被指定为主要活动说话者。可向各客户机提供从客户机A106开始的活动客户本文档来自技高网...

【技术保护点】
一种方法,包括: 根据一个或多个音频输入客户机中所包括的单独的音频输入客户机所提供的输入来对所述一个或多个音频输入客户机进行排序(306); 将标识符与所述单独的音频输入客户机相关联(304);以及 将一个或多个音频输入客 户机标识符的有序列表插入到分组首部中(308)。

【技术特征摘要】
【国外来华专利技术】US 2007-6-12 11/761,9631.一种方法,包括:
根据一个或多个音频输入客户机中所包括的单独的音频输入客户机所提
供的输入来对所述一个或多个音频输入客户机进行排序(306);
将标识符与所述单独的音频输入客户机相关联(304);以及
将一个或多个音频输入客户机标识符的有序列表插入到分组首部中
(308)。
2.如权利要求1所述的方法,其特征在于,所述列表被插入到所述分组首
部中的实时传输协议(RTP)贡献源列表(CSRC)中。
3.如权利要求1所述的方法,其特征在于,排序由主机通过混合音频流来
确定以使得所述列表从当前活动音频输入客户机降序排列。
4.如权利要求1所述的方法,其特征在于,还包括发送对应于所述单独的
客户机的规范名(CNAME)和映射到所述CNAME的同步源(SSRC)标识
(310)。
5.如权利要求4所述的方法,其特征在于,所述CNAME及相关联的SSRC
从对应于所述单独的客户机的实时控制协议(RTCP)记录中获取。
6.如权利要求5所述的方法,其特征在于,所述CNAME及相关联的SSRC
在RTCP分组中被发送到收听客户机。
7.如权利要求1所述的方法,其特征在于,还包括将所述CNAME和SSRC
存储在收听客户机的本地存储器中(312)。
8.如权利要求1所述的方法,其特征在于,主要客户机基于能级、静默时
间段的持续时间、持续时间或分组大小中的至少一个来确定。
9.如权利要求1所述的方法,其特征在于,还包括如果所述客户机在会话
中改变源传输地址,则用客户机规范名(CNAME)来更新所述同步源(SSRC)
标识。
10.一种方法,包括:
基于单独的活动音频客户机对会议的参与来对所述会议中的一个或多个
活动音频客户机的列表进行排序(404),所述单独的活动音频客户机与规范
名(CNAME)和同步源...

【专利技术属性】
技术研发人员:RJ克林恩HM卡恩D库克利卡
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1