4K修复经典动画 字节跳动多年技术火山引擎如何发挥最大的效用?

时间:2021-10-25 11:04:09       来源:极客公园

葫芦娃、黑猫警长……你们的童年回忆被承包了。

随着 4K 修复技术普及,每过一段时间,人们就能重温高清版的「回忆」。

2019 年北京国际电影节,4K 修复版《2001 太空漫游》开票,5 秒售罄;2020 年,《哈利波特与魔法石》4K 版上映,4 日票房突破了 1 亿元。

大银幕上的光影仅是回忆的一部分。葫芦娃、黑猫警长、哪吒、大头儿子和小头爸爸、舒克和贝塔……这些形象已定格成表情包和网络梗。

不久后,这些童年回忆,也同样会以 4K 高清的模样,重新出现在你的手机屏幕上。

这是西瓜视频在 4K 修复上的「大动作」,背后的技术承担方是字节跳动面向企业的技术服务平台:火山引擎。

简单理解,经过了多年 to C 服务的积累,火山引擎要把字节跳动最好的技术开放出去,服务企业的数字化升级。

视频技术是字节跳动多年来积累的重要内容。「经典中视频 4K 修复计划」,是西瓜视频与火山引擎共同发布的公益计划。

这个计划将在一年内用技术手段,4K 修复百余部经典中视频。

修复后,人们可以免费在西瓜视频 App 上观看这些动画片。目前,已经有《葫芦兄弟》、《黑猫警长》、《大头儿子小头爸爸》等 6 部修复过的动画上线。

首批合作伙伴有央视动漫和上海美术电影制片厂。

名单内的动画除了葫芦娃、舒克和贝塔这样 80、90 后的童年回忆公约数,还有中国动画史中值得反复凝视的经典:中国第一部水墨画风动画片《小蝌蚪找妈妈》(1960),带有敦煌画风的《九色鹿》(1981),小众的木偶动画片《镜花缘》(1991)……

字节跳动多年技术沉淀如何发挥最大的效用?

火山引擎或许可以给出一种答案:一边将技术服务企业实现商业价值,一边服务公益计划实现社会价值。

4K 修复经典动画片更有一层「醉翁之意」,让原先「润物细无声」的中台技术获得展示。

4K修复技术秀「肌肉」人们口中常说的 4K 解析度,是指显示屏幕达到 4096x3112 的像素级别。它的分辨率是 2K 的四倍。2003 年,加拿大一家公司推出首个商业用途的电影摄像机,从此 4K 逐渐普及。

老动画片受限于制作年代,清晰度早已不适应人们的观看习惯。

几十年前的老动画片,像《小蝌蚪找妈妈》、《九色鹿》还是用胶片进行拍摄。将年代久远的胶片修复到 4K 的清晰度,其中的难度可想而知。

从胶片的物理修复做起,先要对原始胶片上的污垢、划痕、掉色等部分进行修复,再将胶片转录为磁带,才能进行数字修复。

数字修复的过程中,增加清晰度、补上缺失帧数等技术之外,还需要匹配原片的艺术风格,以保持「修旧如旧」的效果。这样才不仅实现了「修」,还做到了「复」。

面对这样的劳动密集型工作,火山引擎提供的 AI 功能可以帮助修复师减轻不少劳力,甚至能够比传统的修复方式更有优势。

火山引擎品牌在今年 6 月份正式发布,4K 修复用到的技术都属于视频云产品。

作为中台技术,比起前端的推荐算法、定制内容,视频云一般都隐藏在后方,支持内容传输和播放,鲜少为人感知。

借由「经典中视频 4K 修复计划」中的具体环节,人们可以一瞥这些技术让视觉体验升华的能力。

影片常见的信息损耗就是噪点和划痕,其来源方式也各不相同。

一方面,胶片存放过程中会有物理损耗,这会带来噪点;一方面,转录到磁带过程中也可能增加新噪点和划痕。

对于这些瑕疵,火山引擎结合了传统信号处理和机器学习算法,让修复更为高效。

老胶片的第一道工序是物理修复。即使经过物理修复,胶片上的划痕依然会对画面有损伤。传统人工修复能够保证质量,但是成本极高,速度也很慢。

火山方案采用算法+人工两道工序。算法能够对 95% 的瑕疵进行修改,对艺术效果或者视频内容的困难部分,则通过人工来进行判断。

分辨率升到 4K 之后,原有的画质一定会信息量不够。比如细节不足,帧数偏少而不够流畅,暗景画面模糊。

火山引擎的「智能超分」和「智能插帧」功能在提升画面质感上可以发挥所长。

人工修复中,如果遇到油污、划痕、变形等问题,修复师可能一天只能修 24 帧,也就是一秒。

如果是夜戏、烟雾戏等模糊的画面,画面信息本身不足,修复困难极大。用深度学习,能够根据已有图像建模,做到「修旧如旧」。

像《葫芦兄弟》,人物近景是剪纸风格,远景是水墨笔触。算法可以智能分辨不同的风格来进行处理,提升前景的清晰度的同时,又能保留远景的朦胧感。

应用端打磨技术

「智能超分」、「智能插帧」属于标准化功能,已封装成可调用的产品,向企业客户开放。

除此之外,西瓜视频也提供了内测,个人账号可以在「视频剪辑」菜单中点击体验。

修复中也会遇到新问题。比如,在老影片扫描转数字化的过程中,由于采样算法欠佳,导致画面中的线条出现锯齿。

由于这个问题是数字化扫描阶段带来的,常见算法和修复工具不能很好地处理,火山引擎就针对这种场景单独设计了算法。

这种处理问题的能力,与火山引擎对抖音、西瓜视频进行技术支持的历练有关。

在视频云产品负责人 Keith 看来,视频技术中台的最大优势,就是与生俱来的视频播放经验。简单说,就是「同一套人马做 to B 和 to C」。这让技术团队对 C 端的需求更敏感。

经过疫情催化,音视频企业级服务的市场更加成熟。

企业级服务商中,除了腾讯、阿里云这样的老牌互联网大厂之外,声网这样专注音视频实时互动的技术商得到更多关注。

在此背景下,火山引擎在 C 端的历练,成为了独特的服务能力。

比如,在打磨播放体验时,团队意识到播放第一帧「滑顺感」的重要性,于是率先开发了「零首帧」技术。

首帧即是视频播放的第一帧。当你被一个视频封面吸引,点击播放到首帧渲染出来的耗时小于 200ms 时,基本就没有延时和卡顿感。

视频云团队在这个指标上的追求是小于 100ms。

人类无感的 100ms 的背后,技术程序上需要完成「页面创建」、「网络连接」、「视频解码」、「播放器策略建立」四个环节。

技术团队针对每一个环节都做了技术优化,才实现了播放体验上的「零首帧」。

这项技术已经运用在客户服务上。

火山引擎与足球社区 App「懂球帝」共同建立了视频云解决方案,帮助「懂球帝」解决了播放中首屏卡顿的问题。球迷在浏览 App 中的视频时,首帧时间降低 30% 以上。

音视频技术能够缩短时空距离,因此,远程会议、在线课堂、电商直播是更具潜力的应用领域。

在 2020 年疫情尚未消退期间,财新传媒年度峰会在北京线下举办。

这是一次多时空串联的任务,4 天议程中有 50 多场直播,其中既涉及海内外嘉宾连线,又涉及峰会全程的线上直播。

火山引擎技术团队做到了高清视频连线,全程无卡顿。这背后的技术,是实时通讯技术(RTC Real-times comunication)。

各种趋势表明,RTC 将会成为下一代互联网通信标准的基础和模式。

未来的视频:流量少,更清晰

如今语音和视频功能,已经基本满足日常实时通讯,但是未来各种场景下的时空串联,对技术提出更高要求。

同步与清晰度的提升带来更大的带宽,与之匹配的下一代的编码压缩技术也被需要。

视频编码的最主要目的是数据压缩,让存储和传输更便捷。目前,新一代国际视频编解码标准(H.266/VVC)已正式公布。

标准贡献者排行榜上,字节跳动排名第三。排行榜前五的企业中,字节跳动是唯一一家没有参与上一代标准开发的公司。

这份成绩来源于「火山引擎多媒体实验室」,这个团队至今已经研发了基于 H.266 的编码器 2.0 版本——BVC2.0。

使用这个编码器,同样质量的视频内容,可以节约 8%-15% 的带宽和存储成本。

这意味着,同样网速和带宽的条件下,在手机上能用更少的流量享受更清晰的视频。未来的云游戏、VR 应用如果想成为现实,也需要依靠新编码技术。

除了参与标准制定、开发编码器,火山引擎还站在全链路传播的角度来思考技术。

比如,在抖音 App 上,生产端和播放端可以按照不同的需求处理。

为了照顾投稿率,生产端需要降低码率;为了照顾观看体验,播放端需要提升码率。为了实现全局的最优解,各个环节的不同策略配合,需要更丰富的方案。

应用场景是视频技术的催化剂。MR、VR 已经想象了丰富的场景,但这尚是远景。

从眼下直播、连线、点播的不同需求开始,技术也会在实战中反复被打磨,走到创新的场景中去。

关键词: 动画 经典 修复 4K 字节跳动 火山引擎