本发明专利技术提供了一种动态图像信息的高性能编码压缩系统,其课题是:在受到信息传送量制约的图像传送线路中,对动态图像的信息进行压缩削减,以此缩短传送的延迟时间和削减构成系统的硬件。解决手段是:把图像中比较重要的部分,如人说话时嘴唇动作的脸部;以及不太重要的部分,如脸部以外的背景,把二者相区别,并根据加权平均对它们的信息进行处理,以此提高信息传送的效率。通过把B帧的差分信息强制地变为全零值的图像的这种方法,使传送方能够以最少的信息传送图像,而接受方又能够还原图像。从而省略编码器的离散余弦变换部分和量化部分,并且保证和以前的方式兼容。本发明专利技术可用于各种多媒体通信中的动态图像压缩。(*该技术在2021年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术,与可视电话等所需要的,降低比特率的动态图像信息的编码压缩系统相关。换言之,在图像信息中,有比较重要的部分,比如在可视电话中人说话时嘴唇运动的脸部图像;也有不太重要的部分,比如人的脸部图像以外的背景;把它们加以区别,着重重要部分的信息处理,以此来提高信息传送效率,同时,原来的电话线路制约着不断增长的传送容量,只有将图像信息传送量压缩到最小限度,以此来适应原来的电话线路,来同步传送接近自然对话的表情,特别要实现说话时声音与嘴唇的运动同步传送,即唇声同步。本专利技术就是涉及这样的动态图像信息的高性能编码压缩系统。
技术介绍
以前的可视电话里所看到图像,为了能够在可以传送的信息量允许范围内传送信息,由于受电话线路的制约,图像信息被削减,图像质量不佳,和电视的动态画面相比,传送的是近似于连续的缺乏变化的静止画面。或者说,感觉上,是把打电话人的脸部照片用传真(FAX)比电话的声音稍稍晚一点发送出来。这样的话,同动态画面机能相比,就要优先维持每一帧的画质。而为了维持静止画面时的画质,不得不降低理应按每秒传送25帧(欧洲,亚洲的PAL,SECAM方式电视)或者每秒30帧(日本等国的NTSC方式电视)的电视图像的每秒可传送的帧数,即以大幅度降低电视原本具有的动态图像机能作为代价。这样,即使大多数的帧被削减,可是和声音相比信息量还是很多,因其处理和传送需要时间,最终导致接收延迟,所以嘴唇的运动和说话的声音不一致。反过来,如果为了和延迟接收的图像配合,而采取强制使声音同步的方法。这样,回话也将被延迟,就象在电视卫星转播见到的一样,交谈非常的不和谐。
技术实现思路
当然,可视电话等所采用的图像,没有必要追求像剧场放映的高品位电影那样的画质;可视电话只要能看到和讲话人的说话相一致的嘴唇的运动,伴随嘴唇的运动,面孔以外的部分,能达到每秒24帧(电影标准)或者是每秒25或者30帧(电视标准)的程度的高忠实度的运动图像的还原,就能达到了可视电话本来的目的。根据这个目的,考虑画面中包含被拍摄者面孔轮廓等的特定区域有没有重要性,有选择性地完成各个部分的信号处理。这样就可以把信息量压缩成必要的最小限度,同时又不损害可视电话谈话的气氛,这是本专利技术的目的之一。根据可视电话本来的目的,把画面中接收者不太感兴趣的部分,以及容易产生兴趣的醒目的面孔的部分作为特定区域进行区分。用达到每秒24帧(电影标准)或者是每秒25或者30帧(电视标准)的程度,实现真实运动的还原,而且嘴唇的运动和声音相一致,实现唇声同步传送,这也是本专利技术的目的。和可视电话的画面相对应,根据人的兴趣来区分轻重处理,这样对占用有限而昂贵的传送线路的动态图像信息量进行压缩,进而提高信息传送的效率。这也是本专利技术的目的。为此实现上述目的,本专利技术要解决的技术问题是1、首先,是在受到传送线路的信息处理量的制约的时候,要对传送信息做加权平均处理,也有必要进行有限的信息取舍,可是一定要把用来进行上述加权平均处理的选择基准作为必要条件。可是,作为选择基准,如果把它设定为上述包含打电话人重点区域的窗口的时候,确定用这个窗口来追随被摄像人的动作的手段,就变成了课题。为此,可通过用窗口来追随被摄主体的运动,把该窗口确定为对其包含的图像部分的动态图像信息进行加权平均的选择基准;同时,用该窗口来追随被摄主体的运动,从而确实达到对实际的动态图像信息的加权平均。2、在可视电话的使用当中,不仅把人的面部作为主体,同时,对于与所看到的说话人被看到的姿态,手势等动作相伴的动态图像进行信息的重点处理,即加权平均,并且使之实时而且清晰。可是,以前的做法并不设定可以追随手等部分的运动的窗口,所以就不能对这个部分进行实际的动态图像信息的加权平均。为此,可把与说话人的姿态,手势等动作相关连的动态图像也着实地作为加权平均的选择基准,并且以此作为周边窗口,用该周边窗口来追随被摄像人的手势等动作,其目的是以人的面部为主体,以姿态和手势作为连带部分,以此来进行动态图像信息的加权平均处理。3、在汽车里配备的移动式可视电话,摄取的是连续移动的背景。背景的移动很快,所以动态图像的信息量剧增,如何大幅度地削减其信息量,是我们研究的课题。可是,在什么时候需要大幅度削减这种因为背景剧烈移动造成的信息量以及合适的处理方法还没有确定。为此,就是确定在什么时候大幅度削减这种因为背景剧烈移动造成的信息量,并进行合适的处理,目的就是确立一种把不重要的背景的动态图像在视觉上不难看出的程度上进行适当的取舍的手段。4、从动态图像中把运动信息提取出来,将它与已经被解码的参照图像进行运动补偿后合成的预测图像相比较得到差分图像,对此差分图像进行压缩,传送,通过此编码方式,进而确立改善解码器一侧被还原的动态图像的画质的手段。与此相关的是,在差分图像进行压缩时掺杂进来的噪声信号,在提高压缩率的同时也被加大了,结果是,导致解码器一侧图像画质的降低。更进一步的情况是,以这个画质不好的解码图像为基准而合成的预测图像,其预测精度也降低了,这样,差分图像的信息量还要增加,压缩率还要提高,如此导致恶性循环,这是问题点。为此,用把在时间关系上前后的2个图像帧合成的预测图像作为图像解码时使用的B帧图像,其他的图像帧解码时与它没有关系,所以不会影响其他的图像帧的画质,利用这个特点,把B帧的差分图像信息强制设为0,以此把B帧浪费的信息量抑制在最小限,而把节省下来的部分用在对画质具有直接影响的I帧或P帧使之可以分担更多的信息量,这正是目的所在。5、图像信息进行编码并传送,其解码还原的图像中包含了被编码的噪声。从对这些噪声进行削减的效果来看,灰度信号和色差信号相比,我们知道利用色差信号进行噪声削减的效果,从人眼的视觉特点出发效果更佳,因而我们确立在色差信号上进行有效的噪声削减的手段。所以,虽然在H.263+标准中已经确立了“作为正式可选项的色差信号的噪声削减方法”,可是在“作为正式可选项的色差信号的噪声削减方法”中并不具备图像信息编码传送系统,所以,这里以更加简洁的结构以及不一样的方法来提供「色差信号的噪声削减手段」。这是该专利技术的目的。6、是在编码器中信息压缩处理的比特率的控制机构。其必要性有两点原因,原因之一是为了适应传送线路对信息传送量的限制;原因之二是如果解码器对动态图像的还原速度是一定的话,各个帧的比特长度应该尽可能地平均化。在以前的比特率控制方式中,根据国际电信同盟ITU(InternationalTelecommunication Union)发布的可视编解码测试模型近期版本11(VideoCodec Test Model,Near-Term,Versionl1)(以下,简称为TMN-11),依据H.263+标准中的动态图像信息压缩软件程序,有几种可以采用的方式。可是,以前的比特率控制方式的情形是,从摄像头输入的图像经过上述编码器、传送线路以及解码器直到输出解码后的图像,这期间发生时间延迟及帧幅损失。而以前的比特率控制方式不具备为了使该延迟以及损失的帧数达到最小限度所需要的严格控制这种延迟时间的机能;这样,延迟时间成为问题,也就是说和无延迟的声音相比,表示嘴部运动的动态图像滞后了,由此导致嘴部的运动和声音不能同步,带来这样的课题。而且,为了使上述各个图像帧的比特长度精确本文档来自技高网...
【技术保护点】
一种动态图像信息的高性能编码压缩系统,其特征是:输入当前帧图像、前参照帧图像和后参照帧图像,并执行运动预测、运动补偿以及决定预测方式的运动预测机能部分;以及,从该运动预测机能部分输出的预测图像与当上述前帧图像的差分信息,把它输入并把差分信息的所有像素值进行强制的归零的全像素值归零化机能部分;以及,从该全像素值归零化机能部分输出的归零化的所有像素,把它们输入,并按照前面运动预测机能部分所决定的预测方式,对动态图像的下一个运动进行预测,同时对上述归零化的全图像信息进行编码的编码生成部分;由该编码器对动态图像信息进行编码压缩后发送出去,经过传送线路接受从编码器发来的信号并进行解码的解码部分;以及,从解码部分输出的解码信号,被输入并进行逆量化的逆量化部分;以及,从该逆量化部分输出逆量化的信号,把它输入并进行离散余弦逆变换,进而还原出上述的差分图像的离散余弦逆变换部分;以及,把该还原的差分图像与通过预测方式预测得到的预测图像一起混合进而输出还原图像的加法器,由以上这些部分构成解码器。具备以上解码器,并以B帧处理为特点的动态图像信息的高性能编码压缩系统。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:国枝博昭,一色刚,李冬菊,伊藤和人,大塚友彦,崔欧阿迪恩,查瓦雷特宏沙卫克,
申请(专利权)人:国枝博昭,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。