视频压缩显神通，金箍棒也能变成绣花针

发布时间：21年01月28日

于丽妍

本篇报道围绕2018年上海市技术发明奖一等奖项目《面向移动终端的可视媒体通信及处理关键技术与应用》展开，该奖项由上海交通大学电子信息学院熊红凯教授领衔的团队获得。

道路拥堵中……

“缓冲中……”“正在加载……”“正在缓冲，请稍后……”看视频的我们最闹心的就是看到如此字样，莫名卡顿。

看到不停转动的“小宇宙”，不知正在读文章的你们是否已经抓狂。

这时不可避免地就要唠叨上几句：“网速太慢了！”“太卡了！”

那么“网速慢”“卡顿”表象之下，有哪些深层次的原因呢？

除了宽带、手机质量及内存之外，追溯到源头，视频太大导致传输过程的“堵车”是脱不了干系的。

我们需要知道一个前提条件，视频数据不能直接传输而必须依据特定的协议被封装入数据包中。视频信号中包含很多的信息量，并且受到网络带宽的限制，在处理和传输视频内容的时候，需要对视频进行压缩编码来节省传输中所需的带宽与存储空间，才可以在网络上传输或者在磁盘上存储。举个例子，一个普通的电影信息量很大，如果不经过压缩直接使用原始数据，就会占用几十G甚至几百G的空间，这些数据如果是从互联网上下载的话，下载时间长得不可接受，经过压缩编码之后，可能也就变成了1G～2G大小。

简而言之，对视频进行压缩编码就是为了减小视频占用的容量。数字视频实质上就是一帧帧连续的图像，虽然一帧图像的大小并不大，但它们累计起来就会占据非常大的空间，我们没有那么多的地方存储原始数据，那么只有一条路可以走，对它进行压缩。

视频的编码过程就是这个压缩过程。某种程度上，压缩编码技术就决定着这个视频的压缩情况。形象点说，视频数据如同一个快递，数据压缩成的“包裹”越小，因为携带方便轻快，在带宽一定的条件下，可以随身携带的“小包裹”就越多，传输的数据量越大，传输速率越快。相反，数据未被压缩或者压缩率不高，就很容易出现前文中提到的“缓冲”“加载”的情况。

随着移动互联网的发展，手机、平板等移动终端的使用人数和频率越来越多。各类视频传播方式如视频直播、体育赛事转播、视频会议及视频聊天等让人眼花缭乱，人们对视频质量的清晰度、流畅度、实时度的要求也越来越高。

而与此相矛盾的是，数据“存不下”、视频大得“传不动、声画质量不佳”等资源道路拥堵成为视频业务发展的重要瓶颈。据不完全统计，移动视频产生的数据量极其巨大，每两年就会增长一倍左右。但视频压缩率（指压缩后的数据量与压缩前的数据量之比）却跟不上移动视频数据量的增长速度，十年才增长一倍。

去冗余是长期研究热点

视频压缩的实质就是去除冗余信息。

那么何为冗余信息呢？

视频信号里面有大量冗余，这些冗余数据往往具有高相关性，占用大量不必要的空间，给视频网络传输或者介质存储带来巨大浪费。例如，视频描述的是连续的图像集合，前后两幅图像中有大量的图像是一样的，每秒播放的几十帧视频图片变化不大，不变的这些数据就是很明显的冗余。这些冗余完全可以去除。当这些冗余被去除，被占用的大量空间或者带宽就能够被节约或释放。

数据信息可以以如下公式表示：

数据量=信息量+冗余数据量

在保证视觉效果的前提下，通过视频的压缩算法，对原始数据变换、量化、编码，保留信息量，把实际存在的冗余信息去掉，从而减少它的数据量，达到减小占用容量的目的。

视频压缩是不是和我们平时用到的文件压缩是一个概念呢？

非也。目的虽然都是为了压缩所占空间，但是压缩技术是完全不同的，难度也无法相比较。WORD\EXCEL\照片等文件是单一静态的，而视频是一组有连续运动的数字图像的集合，有图像，有声音、且是必威在线网站首页网址的，压缩技术的难度明显不在一个量级。

目前，业内解决这一问题的最好方法就是可伸缩视频编码（SVC）。该技术在不同设备和网络环境下，用户可以很方便地只接收解码需要的那部分，无须解码那些不需要的部分，以达到视频快速流畅的体验效果。

其实，可伸缩视频编码的概念的提出已有相当长的历史，而伴随着视频编码技术的发展，相关的传输速率控制技术一直被研究。早期的可伸缩视频编码均没有获得成功，一方面是由于当时的可伸缩编码性能低下，另一方面是当时市场对可伸缩视频没有较高的需求。然而随着网络技术的不断演变以及可视化需求的不断提升，新的视频编码标准和网络传输技术一直是长期的研究热点，也是直至目前信息领域仍在解决的重要问题之一。

特殊“工具包“秒变神器

上海交通大学熊红凯教授从2005年起，就带领团队长期围绕“如何在低码率、低带宽下，提供更高清晰度和流畅度的影像“这一问题展开攻关，并最终提出了新的“可伸缩视频传输编解码技术”——面向移动终端的可视媒体通信及处理关键技术。

如何理解“可伸缩”？这并不是我们肉眼可见的视频画面可以变大变小。可伸缩性是一种对处理传输系统表示能力的度量指标，高可伸缩性代表一种弹性，在系统扩展成长过程中，影像呈现能够保证旺盛的生命力，通过很少的改动就能实现整个多媒体系统处理能力的线性增长，实现高吞吐量、低延迟、高性能。

“可伸缩视频传输编解码技术”通过特定的编码技术，将视频在时间、空间、质量的不同维度上，增强传输数据的弹性，把视频压缩得足够小，以达到更快的传输速率和更高的视频质量。熊红凯团队在原有的可伸缩技术基础上，制作了一个“工具包”，嵌入编码中。这个“工具包”可不容小觑，功能实用且创新。

“工具包”可以根据整体视频时间的长度，优先传输关键数据，不仅大幅提升了视频压缩效率，节省宽带，有效减少了视频卡顿和缓冲时间。在以往，视频需要下载到本地之后方可播放，如果一帧的数据没有传输完，视频就卡住了，特别是当遇到网络不稳定的情况时，视频下载可能就会变得极其缓慢。可伸缩技术采用了比帧更小的单元比特（bit，指信息量），用户就可以一边下载一边收听观看，而不需要等待整个文件下载到自己的机器后才观看。

同时，不同的终端用户对视频的尺寸、帧率和质量的要求也大相径庭，有的用户可以接受用低分辨率换取高传输速度，用标清替代高清已经完全可以满足他的观看需求。“工具包“可以适应不同的带宽条件、终端能力和视频流业务中的质量要求，根据需求输出适合用户的视频质量。数字视频是一组有连续运动的数字图像的集合。当人眼接收到的图像速率达到或超过每秒24帧时，人眼就会感觉接收到的是必威在线网站首页网址的视频而不是单一的静态图像。因此，该功能的创新让用户有了更多的选择，是追求画质，还是追求倍速，随意切换。这一突破较国际H.264 标准获得平均0.8 dB 的PSNR（Peak Signal to Noise Ratio，即峰值信噪比，是一种评鉴画质的客观标准）提升，较最新的视频压缩标准HEVC国际标准平均节约3.16%比特率。

另一大创新就是，在网络必威在线网站首页网址环境下，“工具包”可以对资源再分配，减少数据 “丢包”。丢包，顾名思义，在通信中是指通信数据包丢失。数据包丢失会导致视频画面出现马赛克现象、图像模糊、局部变形、图像静止等等，也会导致音频失真、间断甚至中断等。如果发生在视频会议中，可能就会导致幻灯片变形、翻页速度减慢、会议中断、增加调试与等待，严重降低了视频会议的质量和效益。

在以往的视频传输中，网络只会确定一条路由器上的路线，一旦路由器“开小差”丢了数据，视频就会缺损。而“工具包”增强了“鲁棒性”（鲁棒性，可以理解为健壮性，在发生故障时仍能保持稳定），为数据传输拓展了新的路径，多了一条备选路径，重新分配带宽、缓存、时延。一旦原规划传输路径出现异常，网络高速发生了拥堵，视频数据就可以自动选取最优路线，以保证传输的速率达到最高。相较代表性的分布式优化算法能降低50%的收敛时间。同时，团队在国际互联网标准化组织IETF建立P2P流媒体工作组，完成3项国际标准制定。

除了探索压缩视频信息的编解码技术，熊红凯团队也将信息识别的编解码技术纳入项目。一份完整的视频信息，由视频、音频和辅助信息组成。辅助信息是指那些为了帮助人们更好理解视频信息的字幕、解说框、弹幕等信息，并可以实现与观影者互动。这项技术可以先从视频编码的目标位置上识别出指定的符号，再将符号信息进行编码存放进视频的辅助信息。

例如，可以识别出视频里某偶像所穿的服装颜色、品牌，并在播放时显示出品牌名称，甚至购买链接。同时，通过丰富的数据库，辅助信息中不仅可以编入表演者的服装颜色、品牌这些简单的信息，还可以在没有表演者的场景图像中直接生成带人物的图像。与国际主流方法（如微软研究院、加州大学等研发的技术）相比，这项技术的语义提取精度及语义编码效率分别提升10%以上。这也是在国际上首次提出的针对目标位置语义信息的编码技术，能够节约10%以上的编码率。

在移动终端可视媒体通信及处理关键技术上，熊红凯团队解开了一个个难题，也取得一个个突破。经中国移动现网测试，应用本项目成果的可视电话体验通话视频帧率提升到60%，音视频同步延迟减少30%，视频掉帧率减少30%，视频文件缓冲时间缩短50%，大幅改善了移动可视媒体通信与处理的效率和体验。

数十位国内外院士和国际权威学者引用并肯定上述成果，并评价“提出的可伸缩视频传输技术，突破了现有方法性能局限”。同时，部分项目成果已进入目前最广泛普及的国际视频压缩标准H.264/MPEG-4 AVC，打破了核心技术长期受制于发达国家专利和标准的垄断格局。

该技术在智能手机可视电话、在线视频直播、智能前端监控等领域应用推广，大幅度提高了移动视频的编解码与传输效率。通过产学研合作，相关关键技术成果还集成、应用在上海航天技术基础研究所的航天高速摄像视频分析和处理、上海市公安局的智能前端监控系统和大尺度人群目标分析检测，均得到充分肯定。项目应用推广三年后，就实现销售额16.98 亿元，利润 0.8 亿元，利税 0.63 亿元，创收外汇0.35亿美元。

深度学习，探索人工智能方向

视频压缩没有最小，只有更小。

在目前普及的国际视频压缩标准H.264和正在推广的H.265中，视频压缩技术的重点方向是进一步去冗余，即利用编程算法将视频数据中的关键信息更加精准识别并更快传输。

但去冗余的方法本身还是以牺牲图像质量为代价。如果不问质量，一味压缩，虽然压缩比很高，但压缩后严重失真，显然达不到要求；反之，如只讲质量，压缩比太小，也不符合要求。因此，在研究中的国际视频压缩标准H.266走向了人工智能的方向，结合深度学习，探索在去冗余的基础上还原并提升视频画质。

熊红凯教授带领的项目团队未来也计划朝这个方向前行，目标是只需要极低的bit就可以生成视频影像。

据透露，新的研究将从源头理解信号，根据学习网络（数据库）中的信息，结合深度学习，通过图像生成的方式补偿图像画质。未来我们看到的大部分影像，也许就不是镜头拍摄采集到的，而是来自系统通过编码生成，真实和虚拟的界限将更加模糊。

本文由上海市“科技创新行动计划”科普项目（19DZ2332500）资助。

必威体育备用地址目录 contents

卷首语

科学在疫情和流言中经受考验

专稿

《科学》2020年度十大科学突破