文丨智能相对论
作者丨陈选滨
前不久,字节跳动旗下火山引擎组了一个局——视频云科技原力峰会,并拉上了阿里云、腾讯云国内两大云厂商,联合发布了一项“超低延时直播协议信令标准”。
基于这个新标准,阿里云、腾讯云以及火山引擎共同为视频直播行业首次定义了直播“客户端-服务器”信令交互流程,使得传统直播技术3至6秒的延时缩短到了1秒以内,最快可达到500毫秒。且不同技术供应商在一套标准方案下更加方便互通,行业参与者使用一套SDK(软件开发工具包)即可无缝切换各种供应商的产品。
尽管这并非一次业务合作,而是技术共建。但,从某种程度来看,在视频云技术领域,阿里、腾讯、字节跳动已经有意加速互联网的“拆墙行动”,由新BAT格局引领、聚焦到视频云,更是成为接下来互联网发展的重磅焦点。
更低的延时、更协同的技术标准......从这一次标准发布来看,视频云背后的技术动向已经预示了一个泛视频时代的来临,不惜让阿里、腾讯以及字节跳动三大巨头放下了“对立意识”,走向全新的竞合关系。
01 越底层,越标准
“广泛的商业场景内容正在从图文走向视频。”在此次"超低延时直播协议信令标准"发布上,火山引擎总经理谭待提出判断。
而这一判断在大数据的佐证下也更加清晰。根据QuestMobile发布的《2021中国移动互联网年度大报告》显示,互联网场景中的视频内容增长势头迅猛,以短视频为代表,全网用户11.74亿,时长占比25.7%,已经成为了占据人们网络时间最长的行业。
跳出了短视频,还有中长视频、直播等一系列基于视频化的内容输出与交互模式,都已经成为当前互联网服务的主流形态。
艾瑞研究院副总经理徐樊磊在去年的Imagine阿里云视频云全景创新峰会上提到一个观点:视频不应该被看作一个单独的行业,就像云计算同样不该被看作一个单独的行业,它们都将渗透到各个行业、各个场景。
可以预见,随着视频化应用的渗透与扩展,未来将是一个泛视频时代。而越是底层的支持,对于标准化的需求也就越高——当一项技术发展成为一个通用形态,用的人多,做的人也多,流程之间的标准化也就愈发关键。
众所周知,当前视频行业采用WebRTC技术是谷歌在2011年开源的一个API,但并没有一套标准化的信令交互流程。这也就导致了不同厂商之间都有着自家的一套客户端与服务器的交互逻辑,存在着流程上的差异。
比如,此前的信令流程就特别繁杂,标准WebRTC的信令往往需要经过SDP交换,ICE交互,DTLS握手之后才能传输流媒体数据,这导致了直播首帧耗时严重恶化,非常不流畅。
对于这个问题,各家都在提出自己的优化方案,比如腾讯云就是通过miniSDP和0-RTT的结合来大幅减少信令耗时,提升信令交互成功率。但,这种优化方案如果不能在行业内形成统一的标准,那么各家的解决方式不一样,所带来的优化体验还是非常有限的。
因此,随着视频化应用的渗透率越来越高,对于底层技术标准化的共识也就越强烈。但,最终这种标准化能实现到什么程度,还得看未来市场的发展。当前,不管是阿里、腾讯还是字节跳动,之所以在这个节点上发布新标准,除了在技术共建方面初步达成共识之外,最多的考虑主要还是对自家技术能力和行业影响力的展示,也就是“秀肌肉”。
简而言之,三大巨头的“共识”不仅仅只是技术标准化,更有相互“搭台”突显自家技术优势之意。
02 拼技术的周期到了?
徐樊磊认为,云服务市场的需求周期在于前期主要看成本,后期则看能力。
那么,从三大巨头的技术共建来看,视频云作为云服务的一个焦点领域,俨然已经进入到了看能力的后期阶段。
技术以及技术带来的突破价值也是当前各大云厂商讲得最多的一个话题。
技术的标准化是一方面。就在火山引擎召开视频云科技原力峰会的前三天,腾讯云便联合了中国信通院发布《超低延时直播白皮书》,“抢先”为超低延时直播技术标准化奠定基础,从技术层面拿下行业创新的话语权。
但,在拼技术的赛道上,“先人一步”还不足以说明什么,最关键的还得“胜人一筹”。简单来说,技术所带来的成果展现最为重要,也是这一周期内市场最想看到的云厂商差距与优势。
当前视频云技术所要为行业带来的变革主要聚焦在两方面:
一是“数量”问题,即解决视频应用的规模化落地问题,比如如何降低视频创作的门槛,保证视频内容的大规模产出,拉动全民视频消费等等。
从这个角度来看,快手、DOU音等短视频平台同步推出的云端剪辑工具,如云剪、剪映等就属于一个基础的视频云解决方案之一。
再深入一点,又比如冬奥会期间,央视体育新媒体和总台技术团队联合阿里云视频云、阿里巴巴达摩院打造的智能生产工具“AI云智剪”,依托AI技术的引入,能在比赛完成的第一时间实现对比赛视频内容的多维度解析,生成精彩素材,并创作出相应的主题视频,为人们带来及时的视频化内容。
二是“质量”问题,即通过技术突破开拓视频应用边界,带来更多元化的视频化体验,比如如何创新视频的交互模式等等。
阿里云视频云在冬奥会上基于AliRTC(音视频通信技术)推出的云上创新解决方案——阿里云聚“Alibaba Cloud ME”,就是视频交互模式的一次应用试探。
呈现出来的全息形态之所以如此真实并能保证实时动态交互,就在于阿里云视频云视频编码与增强技术团队提出了一种结合可变形卷积的稠密残差连接网络结构,极大提升了窄带高清产品对视频的转码效果。
不可置否,在今年的冬奥会上,阿里云视频云着实是用技术秀了一把“肌肉”。
对于整个视频云领域而言,这也是不可避免的趋势——拼技术,还要拼出创新度、拼出亮眼的效果,就如同视频本身所带给人们的视觉冲击感一样,都是接下来云服务厂商角力的关键。
03 产业的格局已经松动
站在今天的视角来看,「视频化」的想象力是无限的。这种想象能实现多少,本身也就取决于厂商的技术能力。
但,可以确定的是,伴随着技术的持续迭代,视频化的一步步升级,产业的格局也在一点一点的松动,发生变革。
这种松动信号,在百度智能云的“智能视频云3.0全景图”中也能有所预见。
根据介绍,百度智能云基于元学习-迁移学习的视频生成技术可根据需求快速定制不同风格的高质量视频,并同时结合虚拟数字人形象生成与语音合成、唇动等技术,低成本制作形象丰富灵动、线上线下多端覆盖的的数字人,由此应用到媒体主持、金融客服、文娱偶像等场景中。
同样是在今年冬奥会上,“百度智能云曦灵”团队打造的AI手语主播就是一个已经落地的应用。
这种「视频化」的多元应用就已经不仅仅是对一块屏幕表现力的改革,而是对整个产业的基础逻辑的变革——生产力的转变。
从这个角度来看,我们可以发现,负责内容生产、导播、交互的主体已经开始向AI中台以及虚拟数字人转移,视频云技术的应用使得“它们”具备了更强的表现力和规模化落地的条件。
在本届冬奥会上,阿里云的“AI云智剪”就已经自动化处理了200+场比赛,生产素材片段达3万段以上。而像百度AI手语主播这样活跃在冬奥会各个场景的虚拟数字人也多达将近30个,其中就包括了腾讯的“聆语”、科大讯飞的“爱加”、小冰公司的“夏语冰”等等。
在这些虚拟数字人的背后,正是视频云技术的创新与应用。
不要低估了视频云。
在《视频云发展趋势洞察》报告中,IDC认为,数字化时代,从商业活动到社会生活,视频数据已经成为连接个人、家庭、社区乃至社会的重要纽带。IDC预测,到2025年中国视频云市场规模更将达到314亿美元。
不管是从市场潜力还是应用前景来看,视频云都充满巨大的想象空间。
也不枉阿里云、腾讯云、火山引擎、百度智能云等各大云厂商纷纷下场,走向竞合!
*本文图片均来源于网络