VR!VR?VR!(外篇-VR直播 上)

在高盛年初发布的《VR与AR:解读下一个通用计算平台》中,未来十年,游戏、直播和视频娱乐将占整体VR/AR营收预期的60%,预计2020年VR直播的市场营收规模为7.5亿美元,到了2025年则高达41亿美元。


VR直播无疑是下一个风口,也是市场前景最看好的应用之一,因为它不受盗版、用户场地和制作投入的限制,能迅速的找到用户愿意付费的模式,放眼回国内,前不久朋友圈被这张图刷爆了。


据不完全统计,国内的直播平台已经超过100家,还不断有公司加入……活脱脱又一个3年前的百团大战,以至于有人说直播平台太多,主播不够用了。


相比于直播平台的泛滥,VR直播在国内还是雷声大雨点小。因为在技术上,VR直播还存在诸多瓶颈,技术上和表达形式上,都有很多问题亟待解决。上周和国内一家专业视频直播云的技术总监去了一家全国排名前三的直播平台,与他们负责技术和内容的几位总监深入交流了VR直播的要求和挑战,准备分上中下三篇放出来和大家探讨一下。


从技术上来说,一个完整的VR直播需要采集设备、上传网络、直播后台、分发网络和播放设备组成。说起来容易,做起来处处都是坑。



VR采集设备目前主流方案有三种,一种成本最低的,使用双鱼眼镜头背靠背组成VR摄像机,售价从几百到几千不等,从技术难度上来说,这种VR相机的制造难度最低,但由于只有双镜头,有效像素偏低,边缘畸变很大,视角变形也大,适合用于对画质要求不高的直播场合。


(配图仅为示意图,理光 Theta S并不具备VR直播功能)


第二的是俗称“狗笼”使用多个GoPro组成的VR拍摄设备,一般至少使用6个。自从360 Heros公司开源了3D打印的架子,国内的团队就开始了自主创新。而这一切,在GoPro发布了自家的Odyssey和Omini之后,国内狗笼团队基本可以考虑转型问题了。


GoPro Omini (下图高能,密恐患者请退后


GoPro Odyssey


多目一体方案,从4目到16目都有,以Nokia(没错,就是以前做手机那货)做了个“电吹风”OZO为代表,技术难度最大,售价也相对最高,从几千到几十万都有,相对来说,国内团队能在这一块有所建树的不多,毕竟多镜头的拼接算法不那么容易实现,尤其是多镜头的同步算法,微小的不同步都会导致严重的视频跳跃,让用户头晕。


Nokia OZO


当然还有更土豪的多摄像机拼接方案,比如用VR直播NBA的NextVR团队自主研发的红龙摄像机方案,用4-6台Red Epic Dragon6K摄像机拼接,价格嘛……土豪请随意。国内也有团队用BlackMagicDesign+Samyang镜头组成的相对低成本方案,相比起来,这种多摄像机方案同步处理难度更高,对采集端的处理能力要求简直变态。


盘点完了设备硬件,相互来说设备里面搭载的软件和算法才是最重要的,相当于设备的大脑。与VR录播不同,VR直播没有后期,所以所有的缝合(不准导致边缘无法对齐)、白平衡(不准导致不同视角看出去颜色失真)、曝光(不平衡导致阴阳脸或者前景全白背面全黑)、美化(美颜,你懂的)以及接缝的处理(处理不好导致变形和鬼影)都必须即时完成,无法去后期再做调整,对设备的要求也就比录播大了太多,这些的核心在于算法,国内有能力做出自己的VR视频算法的团队屈指可数,一个完全自主VR视频算法的投入基本上是千万级别,所以绝大部分团队都用的是开源算法或者是根据摄像头厂商提供的算法进行了二次定制开发,只有极少数技术团队能做到自主开发算法。


这张截图出现了镜头曝光不匀、鬼影、接缝处理不好


另一个对VR直播的限制在于码流大小,目前最普遍的H.264视频编码在遇到VR视频时表现出了明显的力不从心,因为在VR视频里面所提的2K、4K、8K基本上对应的是映射到矩形后的分辨率,在用户端重新展开为球形以后,视野内分辨率会下降很多。比如一个4K分辨率是3840*2160的视频,在展开成球形并分成左右眼以后,总分辨率下降到了3840*2160/6≈1108*1247,而视野内的分辨率就更低了,如果是3D还会更低,从这点来说4K以下分辨率是不足以拿来做VR视频的。4K情况下用H.264在可接受的清晰度范围内码流接近10Mbps,一部分机身压缩算法不够强的摄像机甚至达到了20Mbps,这对于国内很有限的上传带宽来说,基本上是个不可能的任务,我家里100Mbps宽带,电信也只分配了5Mbps的上传带宽,以至于我在上传大文件时候经常泡杯茶去干别的。这种分辨率和带宽之间的矛盾,也抑制了VR直播的推广普及。下一代高效的H.265编码加分区自适应码流也许是拯救VR直播的最好办法,但目前高效编码算法和专利费这两个大坑还摆在H.265版本的VR直播面前,Facebook的新锥形算法的开源也许将大大推进VR直播的推广进程。


展开前的视频截图(截取自Facebook发布的新一代全景视频分区码流编码示范视频)


展开后的视频截图(截取自Facebook发布的新一代全景视频分区码流编码示范视频)


关于VR直播的硬件端问题就说这么多了,随着认识和实践的推进,也许以后会再次写一篇更详细的,下一章聊聊网络端的挑战。


觉得还不错的话,欢迎关注分享一下