感谢 AI!原生 1 个 G 的视频,现在只需要传 200K 数据就能看了 ——视频数据的压缩率干到了 0.02%,但依旧能保持画面的高清、连贯和画面细节。或许你会问,这又有什么用呢?想象一下,你身处于太平洋的一艘远洋货轮中,卫星信号只有一两格,刷个朋友圈,加载内容的圈圈都要转好久。但正是因为有了这项 AI 技术,现在在如此极端的环境之下,你甚至可以直接看高清的世界杯直播!
没错,视频传输的物理法则,算是被重写了。而这项新研究,正是来自中国电信人工智能研究院(TeleAI)的技术 —— 生成式视频压缩(GVC,Generative Video Compression)。作为国资央企、全球领先的综合智能信息服务运营商,中国电信不仅拥有覆盖海陆空天的通信网络基础设施,更具备将前沿 AI 技术与实际通信场景深度融合的能力。这种“云网融合 +AI 原生”的独特优势,使得 GVC 技术从实验室走向远洋船舶、应急现场等真实极端环境成为可能。
那么这项研究到底是如何做到的,以及又能给我们现实生活带来什么改变,我们继续往下看。在介绍这项黑科技之前,我们需得先聊聊现在的视频是怎么传输的。无论是你要看的 Netflix、B站,还是微信视频通话,背后主要依靠的是 HEVC(H.265)或 VVC(H.266)这类传统视频编码标准。这些技术的底层逻辑,说白了是像素的极致搬运:编码器拼命计算哪些像素是不变的、哪些是移动的,然后尽可能多地保留像素信息,再想办法塞进有限的带宽里。这种逻辑在宽带富裕时很完美,但在极限环境下(极低带宽)会迅速崩盘。一旦带宽不够,传统编码器为了凑合传输,只能疯狂丢弃高频信息。结果我们都见过:画面糊成一团,甚至直接卡死。但 TeleAI 团队换了个思路,如果我不传像素了呢?GVC 的核心逻辑是:不再传递画面本身,而是传递“如何画出这幅画面”的指令。打个比方:
刚刚说的只是打个比方,实际情况要复杂得多,传输的内容也并非只有文字。这就是技术报告中提到的核心理念:用计算,换宽带(Trading computation for bandwidth)。把传输的压力,转移到了推理计算上。既然不传像素,那这 0.02% 的数据里到底装了什么?技术报告揭示了 GVC 系统的内部构造,它主要由神经编码器(Neural Encoder)和生成式视频解码器(Generative Video Decoder)两部分组成。里面传输的是一种被称为压缩 Token 的极小数据包,这些 Token 里包含了视频的灵魂,主要分为两类:
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,蓝鸢梦想所有文章均包含本声明。
