视频会议的方法、装置、电子设备及介质制造方法及图纸

技术编号：42692463 阅读：23 留言：0更新日期：2024-09-10 12:42

本发明专利技术实施例提供了视频会议的方法、装置、电子设备及介质，所述方法包括：根据目标会议终端上传的音频流，确定多个音频片段；分别生成所述多个音频片段对应的多个中间特征向量；其中，当前音频片段的第一帧特征向量为上一个音频片段的最后一帧特征向量；根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端。通过本发明专利技术实施例，实现了根据音频片段之间关联来合成用于呈现数字人像的视频流，提升了合成的视频流的实时性、连续性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频会议，特别是涉及视频会议的方法、装置、电子设备及介质。

技术介绍

1、随着通信技术的发展，用户对通信的质量和效率的要求越来越高，需求也越来越多样化和差异化。在视频会议场景下，用户不满足于仅仅能看到实时的视频图像，对高清晰、高质量、高稳定的视讯业务的需求越来越强烈。

2、在视频会议中，由会议终端将拍摄到的视频流上传到服务器，再由服务器分发给各会场的显示设备进行显示，但是鉴于会议终端的性能不同，会出现部分会议终端上传的是高清视频流、部分会议终端上传的不是高清视频流，而如果将所有的会议终端都换成高清拍摄，在视频流传输时可能因带宽波动较大等原因导致出现视频会议画面卡顿等情况。

3、在现有技术中，可以采用数字人技术来合成视频替换视频会议画面，进而避免出现视频会议画面卡顿等情况，而由于现有的数字人通常是离线生成的，合成视频的实时性、连续性等方面存在问题。

技术实现思路

1、鉴于上述问题，提出了以便提供克服上述问题或者至少部分地解决上述问题的视频会议的方法、装置、电子设备及介质，包括：

2、一种视频会议的方法，所述方法包括：

3、根据目标会议终端上传的音频流，确定多个音频片段；

4、分别生成所述多个音频片段对应的多个中间特征向量；其中，当前音频片段的第一帧特征向量为上一个音频片段的最后一帧特征向量；

5、根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端。

6、可选地，所述分别生成所述多个音频片段对应的多个中间特征向量，包括：

7、获取上一个音频片段的最后一帧特征向量；

8、将上一个音频片段的最后一帧特征向量确定为当前音频片段的第一帧特征向量，并生成所述当前音频片段的其他帧特征向量。

9、可选地，还包括：

10、根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，并插入在所述第一帧特征向量和第二帧特征向量之间。

11、可选地，所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，包括：

12、确定所述当前音频片段的第一帧特征向量和第二帧特征向量的平均值，并根据所述平均值，生成过渡帧特征向量。

13、可选地，在所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，并插入在所述第一帧特征向量和第二帧特征向量之间之前，还包括：

14、确定所述当前音频片段的第一帧特征向量和第二帧特征向量的相似度；

15、在所述相似度小于预设相似度的情况下，执行所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，并插入在所述第一帧特征向量和第二帧特征向量。

16、可选地，所述根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端，包括：

17、采用多个显卡或服务器，并行处理所述多个音频片段对应的多个中间特征向量，得到用于呈现数字人像的视频流，并按照时间顺序，将所述多个音频片段对应的视频流发送至其他会议终端。

18、可选地，所述根据目标会议终端上传的音频流，确定多个音频片段，包括：

19、接收目标会议终端上传的音频流，并在接收到的音频流的长度大于长度阈值时，将接收到的音频流确定为一个音频片段。

20、一种视频会议的装置，所述装置包括：

21、音频片段确定模块，用于根据目标会议终端上传的音频流，确定多个音频片段；

22、中间特征向量生成模块，用于分别生成所述多个音频片段对应的多个中间特征向量；其中，当前音频片段的第一帧特征向量为上一个音频片段的最后一帧特征向量；

23、视频流合成模块，用于根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端。

24、一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的方法。

25、一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的方法。

26、本专利技术实施例具有以下优点：

27、在本专利技术实施例中，通过根据目标会议终端上传的音频流，确定多个音频片段，分别生成多个音频片段对应的多个中间特征向量，当前音频片段的第一帧特征向量为上一个音频片段的最后一帧特征向量，然后根据多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将视频流发送至其他会议终端，实现了根据音频片段之间关联来合成用于呈现数字人像的视频流，提升了合成的视频流的实时性、连续性。

本文档来自技高网...

【技术保护点】

1.一种视频会议的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述分别生成所述多个音频片段对应的多个中间特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，包括：

5.根据权利要求3或4所述的方法，其特征在于，在所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，并插入在所述第一帧特征向量和第二帧特征向量之间之前，还包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述多个中间特征向量，进行视频流合成，得到用于呈现数字人像的视频流，并将所述视频流发送至其他会议终端，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据目标会议终端上传的音频流，确定多个音频片段，包括：

8.一种视频会议的装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种视频会议的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述分别生成所述多个音频片段对应的多个中间特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述当前音频片段的第一帧特征向量和第二帧特征向量，生成过渡帧特征向量，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述多...

【专利技术属性】
技术研发人员：曹裕民，张鉴石，李阔，杨春晖，
申请(专利权)人：海南乾唐视联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人