【技术实现步骤摘要】
一种基于AI的音视频传输方法及装置
[0001]本专利技术属于通信
,具体而言属于一种基于
AI
的音视频传输方法及装置
。
技术介绍
[0002]音视频传输在软件应用上是一项非常重要的传输形式,但目前音视频基本通过压缩传输,压缩传输不仅会导致画质和音质受损,同时,音视频文件的信息容量较大,通过压缩传输时间较长
。
[0003]有鉴于此,特提出本专利技术
。
技术实现思路
[0004]有鉴于此,本专利技术公开了一种基于
AI
的音视频传输方法及装置,用以解决现有音视频传输时间长,音视频画质和音质受损的问题
。
[0005]具体的,本专利技术是通过以下技术方案实现的:
[0006]第一方面,本专利技术公开了一种基于
AI
的音视频传输方法,包括如下步骤:
[0007]采集音视频数据,通过智能
AI
识别引擎将所述音视频数据生成对应的信息描述文本;
[0008]在相同带宽下传输所述信息描述文本;
[0009]智能
AI
生成引擎根据神经网络模型将所述信息描述文本转换为语音和视频并输出
。
[0010]进一步地,所述信息描述文本包括语言描述文本和图像描述文本
。
[0011]进一步地,所述语言描述文本转换为语音的方法包括:
[0012]将所述信息描述文本输入至文本分析器中,形成音素序列;
[001 ...
【技术保护点】
【技术特征摘要】
1.
一种基于
AI
的音视频传输方法,其特征在于,包括以下步骤:采集音视频数据,通过智能
AI
识别引擎将所述音视频数据生成对应的信息描述文本;在相同带宽下传输所述信息描述文本;智能
AI
生成引擎根据神经网络模型将所述信息描述文本转换为语音和视频并输出
。2.
根据权利要求1所述的音视频传输方法,其特征在于,所述信息描述文本包括语言描述文本和图像描述文本
。3.
根据权利要求2所述的音视频传输方法,其特征在于,所述语言描述文本转换为语音的方法包括:将所述信息描述文本输入至文本分析器中,形成音素序列;将所述音素序列输出至所述预生成的神经网络语言和
/
或自定义神经网络语言中,预测定义语音信号的声学特征;神经网络声码器将所述声学特征转化为可听见的波形,进而合成语音;其中,对于
10
分钟以上的所述语言描述文本,使用批量合成
API
进行异步合成
。4.
根据权利要求2所述的音视频传输方法,其特征在于,所述图像描述文本转换为视频的方法包括:将所述图像描述文本输入至文本特征提取器内,转换为高维向量;根据所述高维向量训练视频生成器并生成对应的视频
。5.
根据权利要求1所述的音视频传输方法,其特征在于,所述神经网络模型包括文本特征提取子网络
、
文本特征向视频潜空间扩散模型和视频潜空间到视频视觉空间
。6.
根据权利要求1所述的音视频传输方法,其特征在于,所述音视频数据包括音频数据...
【专利技术属性】
技术研发人员:陈亚刚,封昌俊,胡爽,邵雪娇,
申请(专利权)人:上海金桥信息股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。