浅谈5g时代对社会产生的影响:5g时代对电影的影响 5G时代会有什么革新？

顺晟科技

2022-11-29 09:29:17

疫情带来了互联网娱乐行业的爆炸性发展，行业本身可以从互动经验中看出划时代的价值。优酷团队开始了互动视频体验的新升级，重点是直播、游戏化、特效三个方面。

本文以阿里巴巴高级算法专家李晶在《5G 时代，优酷新型视频互动特效技术实践》运机大会上的讲话为基础，分享优酷在互动视频领域的创新技术。

视频形式的发展史

说到新的视频交互特效技术，首先要谈谈视频形式的发展历史。起初，我看了2D的一般视频。由于对现实世界虚拟化的极度追求，出现了《阿凡达》等3D电影。以这种视频形式，人们渴望更好地理解虚拟世界，获得身临其境的观看体验。随着AI技术的迅速发展，我们可以放弃这种视频格式，在2D、3D、360甚至FVV上进行交互式体验。

视频的交互能力来自哪里？

最初，视频的交互能力来自于来自视频外部UGC文本的弹幕赞评论，以丰富视频本身。这种传统的交互方式比较简单，但交互效果很好。

另一种互动形式来自于互动电视剧中选择支线情节的同一时间线。另一种方法是在空间区域拍摄，例如多台相机，以便用户选择更感兴趣的相机。这两种格式都旨在捕获原始内容，提供更加个性化的观看体验。此外，信息量来自2D到3D的转换。在VR/AR、全息和360视频格式中，3D交互用于构建新的观看动作，如6DoF视频。

自由视角视频互动直播

自由视角交互式视频基于DIBR重构技术，允许用户以自由视角自由观看，从而实现自由视角交互式直播。

7号055-79000室

深度图像基础渲染(Depth Image Based Rendering，DIBR)重建技术是由多个相机生成的纹理图像，将进行深度重建。基于深度图和几何关系重构虚拟驾驶员。这项技术的核心在于深度图是否正确。基于现有方案的深度估计存在两个问题。第一个需要很多时间，第二个是时域不稳定。例如，在下面的例子中，深度估计不正确或被阻挡，重建睡眠时会出现黑洞。

这是FVV视频，也是自由时间点视频重构的最大困难之一。这个问题怎么解决？在今年的升级中，我们提出了一种新的算法模型来加速和细化深度估计算法。

如何加速，我们采用了基于深度学习的方案。因为深度学习在施加影响力时速度非常快，基本上可以满足实时需求。但是深度学习需要用大量数据进行训练才能得到模型。因此，该模型存在很大的泛化问题。迁移到其他场景进行预测时效果不好。

在最新方案中，我们提出了监督和未监督的整合方案，利用大量未标记的数据进行未监督的训练，利用神经网络学习几何关系。最后，希望它能适应各种场景，解决泛化问题。在某些特定场景中，少量标注数据用于标注和监督培训。

这样可以解决特定场景的精度问题。例如，Demo表明，在新方案中，睡眠重建的领域更有效，时域稳定性更高。

第055-79000号新的和现有的方案

体感互动技术赋予电子游戏化。

说到面部交互技术，人们首先想到的是化妆、美容、贴纸等功能，这也是日常生活中不可缺少的拍照工具。在这次街舞AI挑战赛中，优酷也采用了人脸核心技术，实现了人脸交互。

AI街舞挑战赛(脸部互动1.0)

我把这项技术称为脸部互动的1.0时代。在面部交互2.0时代，比起面部密钥检测技术，识别面部表情更为可取。比如现在流行的虚拟主播场景，用表情驱动虚拟主播，让虚拟形象也可以带着商品直播。

虚拟主播表情驱动，优酷动画《这！就是街舞 3》主角姜信。

另外，在阿里巴巴的云游戏中，可以利用表情进行体感控制，达到多种游戏效果。

表情体感控制阿里云游戏

除了面部交互技术外，优酷还配备了系统的动作捕捉装置，可实现实时数据收集、模型驱动、云效果制作和渲染。例如，使用iphone相机或网络摄像头，将捕获的数据上传到云中，或直接在末端处理，使用3D姿势估计技术和渲染效果将数据分发给最终用户。通过直播、录制、准实时交互、终端或PC满足多种业务应用程序场景。

该运动捕获系统典型的应用场景是虚拟图像驱动，最重要的技术是人体姿势估计的准确性。如果对人体姿势的估计不正确，虚拟图像可能会颤抖、移动不当或漂浮在地面上。为了解决这个问题，我们采用了两阶段训练输出3D骨架键来整合计时权重，在丰富的数据库中进行了训练，得到了准确平滑的3D姿势估计结果。

嘻哈舞者开关vs阿凡达《这！就是街舞 3》强臣

另外，使用CG驱动引擎，生成自适应动画曲线，使用IK使运动有节奏感。虚拟图像驱动技术还应用于优酷即将播出的动画《芯觉》，用户与IP交互，提高了用户粘度。

综艺运动和AR效果的融合带来了新的体验

现在所有的综艺节目基本上都有特效。特效好的话，综艺节目会成为亮点。但是制作综艺特效最大的问题是需要很多时间。我们要实现的是发现AI标记和突出综艺节目的精彩瞬间，通过AI实现综艺效果的大量、自动化生产。

055-79000件

例如，在上面的视频中，优酷利用CG技术制作了30多种特效，帮助制作短视频，提供了更好的用户体验。除了CG效果外，还需要CV技术。CV技术可用于运动检测、运动幅度检测、运动范围检测、恒星识别和BGM。这些技术有助于我们更好地发现特效。

在动作感应方面，我们可以将传统方法与人体核心技术相结合，更准确地识别舞蹈动作。为了运动的幅度检测，人体身高的轨迹与曲线美学评价算法相结合，可以使舞蹈动作的曲线更加优美，产生更好的视觉效果。最后，利用多功能融合策略，自动匹配、选择和组合效果，支持效果的批量生产和分发。

将AR特效应用到体育比赛中，观众可以实时了解比赛。例如，以下两个视频分别拍摄的热点地图、铭牌和阵型。观众可以实时看到现在谁在投篮，他的命中率是多少，现在阵型是怎么样的。

拍热点地图

铭牌和施工

对于这种特殊效果，首先要解决的问题是三维的现场矫正。在3D场所校准过程中，由于球箱或运动员遮挡难以校准，优酷用深度图解决篮球箱遮挡问题，用人体姿势估计和分割技术解决人体遮挡问题。最后，根据虚拟飞行员相机的姿势渲染热图。

以下两个视频显示了渲染结果，您可以看到最终的3D现场校正结果非常准确。

AR特效移植(如铭牌形成)有四个主要CV技术点。首先要实时识别和追踪选手，其次要识别篮球，要识别和定位选手的手脚。最后，我们要制作人体的三维模型，并计算其高度。2020年CBA直播，优酷云效应引擎通过CBA直播实时实现直播输出。

上述特效和交互技术得益于优酷目前的CV和CG技术，有助于交互特效视频的自动化和制作。末端有实时交互式SDK，可以在末端进行实时渲染。

在云中，优酷拥有大云引擎系统，可以进行准确的实时细致渲染。与传统方案相比，速度可以加快100倍。

结束

我们对未来的期望是什么？

未来必须是虚拟世界，将增强世界和物理世界的三位一体。我们需要对虚拟世界的深刻理解，对强化的世界进行个性化的重建。最后，打破界限，开启新的互动体验。

这是我共有的全部。谢谢你。

技术交流，欢迎来到我的微信ezglumes。吸引你加入技术交流群。

阅读推荐：

音视频面试基本问题

共享Opengl教育资源

打开相册|数一下当年写的技术文章相册

NDK学习先进的免费视频在这里

推荐几个教科书级Android影音入门节目。

我觉得还不错。点一个试试~

上一篇：2019CBA全明星周末正式比赛南方下一篇：周琦回归nba了吗:周琦能重返nba

网站建设

Php开发

浅谈5g时代对社会产生的影响:5g时代对电影的影响 5G时代会有什么革新？