18910140161

浅谈5g时代对社会产生的影响:5g时代对电影的影响 5G时代会有什么革新?

顺晟科技

2022-11-29 09:29:17

99

疫情带来了互联网娱乐行业的爆炸性发展,行业本身可以从互动经验中看出划时代的价值。优酷团队开始了互动视频体验的新升级,重点是直播、游戏化、特效三个方面。

本文以阿里巴巴高级算法专家李晶在《5G 时代,优酷新型视频互动特效技术实践》运机大会上的讲话为基础,分享优酷在互动视频领域的创新技术。

01

视频形式的发展史

说到新的视频交互特效技术,首先要谈谈视频形式的发展历史。起初,我看了2D的一般视频。由于对现实世界虚拟化的极度追求,出现了《阿凡达》等3D电影。以这种视频形式,人们渴望更好地理解虚拟世界,获得身临其境的观看体验。随着AI技术的迅速发展,我们可以放弃这种视频格式,在2D、3D、360甚至FVV上进行交互式体验。

视频的交互能力来自哪里?

最初,视频的交互能力来自于来自视频外部UGC文本的弹幕赞评论,以丰富视频本身。这种传统的交互方式比较简单,但交互效果很好。

另一种互动形式来自于互动电视剧中选择支线情节的同一时间线。另一种方法是在空间区域拍摄,例如多台相机,以便用户选择更感兴趣的相机。这两种格式都旨在捕获原始内容,提供更加个性化的观看体验。此外,信息量来自2D到3D的转换。在VR/AR、全息和360视频格式中,3D交互用于构建新的观看动作,如6DoF视频。

02

自由视角视频互动直播

自由视角交互式视频基于DIBR重构技术,允许用户以自由视角自由观看,从而实现自由视角交互式直播。

7号055-79000室

深度图像基础渲染(Depth Image Based Rendering,DIBR)重建技术是由多个相机生成的纹理图像,将进行深度重建。基于深度图和几何关系重构虚拟驾驶员。这项技术的核心在于深度图是否正确。基于现有方案的深度估计存在两个问题。第一个需要很多时间,第二个是时域不稳定。例如,在下面的例子中,深度估计不正确或被阻挡,重建睡眠时会出现黑洞。

这是FVV视频,也是自由时间点视频重构的最大困难之一。这个问题怎么解决?在今年的升级中,我们提出了一种新的算法模型来加速和细化深度估计算法。

如何加速,我们采用了基于深度学习的方案。因为深度学习在施加影响力时速度非常快,基本上可以满足实时需求。但是深度学习需要用大量数据进行训练才能得到模型。因此,该模型存在很大的泛化问题。迁移到其他场景进行预测时效果不好。

在最新方案中,我们提出了监督和未监督的整合方案,利用大量未标记的数据进行未监督的训练,利用神经网络学习几何关系。最后,希望它能适应各种场景,解决泛化问题。在某些特定场景中,少量标注数据用于标注和监督培训。

这样可以解决特定场景的精度问题。例如,Demo表明,在新方案中,睡眠重建的领域更有效,时域稳定性更高。

第055-79000号新的和现有的方案

03

体感互动技术赋予电子游戏化。

说到面部交互技术,人们首先想到的是化妆、美容、贴纸等功能,这也是日常生活中不可缺少的拍照工具。在这次街舞AI挑战赛中,优酷也采用了人脸核心技术,实现了人脸交互。

AI街舞挑战赛(脸部互动1.0)

我把这项技术称为脸部互动的1.0时代。在面部交互2.0时代,比起面部密钥检测技术,识别面部表情更为可取。比如现在流行的虚拟主播场景,用表情驱动虚拟主播,让虚拟形象也可以带着商品直播。

虚拟主播表情驱动,优酷动画《这!就是街舞 3》主角姜信。

另外,在阿里巴巴的云游戏中,可以利用表情进行体感控制,达到多种游戏效果。

表情体感控制阿里云游戏

除了面部交互技术外,优酷还配备了系统的动作捕捉装置,可实现实时数据收集、模型驱动、云效果制作和渲染。例如,使用iphone相机或网络摄像头,将捕获的数据上传到云中,或直接在末端处理,使用3D姿势估计技术和渲染效果将数据分发给最终用户。通过直播、录制、准实时交互、终端或PC满足多种业务应用程序场景。

该运动捕获系统典型的应用场景是虚拟图像驱动,最重要的技术是人体姿势估计的准确性。如果对人体姿势的估计不正确,虚拟图像可能会颤抖、移动不当或漂浮在地面上。为了解决这个问题,我们采用了两阶段训练输出3D骨架键来整合计时权重,在丰富的数据库中进行了训练,得到了准确平滑的3D姿势估计结果。

嘻哈舞者开关vs阿凡达《这!就是街舞 3》强臣

另外,使用CG驱动引擎,生成自适应动画曲线,使用IK使运动有节奏感。虚拟图像驱动技术还应用于优酷即将播出的动画《芯觉》,用户与IP交互,提高了用户粘度。

04

综艺运动和AR效果的融合带来了新的体验

现在所有的综艺节目基本上都有特效。特效好的话,综艺节目会成为亮点。但是制作综艺特效最大的问题是需要很多时间。我们要实现的是发现AI标记和突出综艺节目的精彩瞬间,通过AI实现综艺效果的大量、自动化生产。

055-79000件

例如,在上面的视频中,优酷利用CG技术制作了30多种特效,帮助制作短视频,提供了更好的用户体验。除了CG效果外,还需要CV技术。CV技术可用于运动检测、运动幅度检测、运动范围检测、恒星识别和BGM。这些技术有助于我们更好地发现特效。

在动作感应方面,我们可以将传统方法与人体核心技术相结合,更准确地识别舞蹈动作。为了运动的幅度检测,人体身高的轨迹与曲线美学评价算法相结合,可以使舞蹈动作的曲线更加优美,产生更好的视觉效果。最后,利用多功能融合策略,自动匹配、选择和组合效果,支持效果的批量生产和分发。

将AR特效应用到体育比赛中,观众可以实时了解比赛。例如,以下两个视频分别拍摄的热点地图、铭牌和阵型。观众可以实时看到现在谁在投篮,他的命中率是多少,现在阵型是怎么样的。

拍热点地图

铭牌和施工

对于这种特殊效果,首先要解决的问题是三维的现场矫正。在3D场所校准过程中,由于球箱或运动员遮挡难以校准,优酷用深度图解决篮球箱遮挡问题,用人体姿势估计和分割技术解决人体遮挡问题。最后,根据虚拟飞行员相机的姿势渲染热图。

以下两个视频显示了渲染结果,您可以看到最终的3D现场校正结果非常准确。

AR特效移植(如铭牌形成)有四个主要CV技术点。首先要实时识别和追踪选手,其次要识别篮球,要识别和定位选手的手脚。最后,我们要制作人体的三维模型,并计算其高度。2020年CBA直播,优酷云效应引擎通过CBA直播实时实现直播输出。

上述特效和交互技术得益于优酷目前的CV和CG技术,有助于交互特效视频的自动化和制作。末端有实时交互式SDK,可以在末端进行实时渲染。

在云中,优酷拥有大云引擎系统,可以进行准确的实时细致渲染。与传统方案相比,速度可以加快100倍。

结束

我们对未来的期望是什么?

未来必须是虚拟世界,将增强世界和物理世界的三位一体。我们需要对虚拟世界的深刻理解,对强化的世界进行个性化的重建。最后,打破界限,开启新的互动体验。

这是我共有的全部。谢谢你。

技术交流,欢迎来到我的微信ezglumes。吸引你加入技术交流群。

阅读推荐:

音视频面试基本问题

共享Opengl教育资源

打开相册|数一下当年写的技术文章相册

NDK学习先进的免费视频在这里

推荐几个教科书级Android影音入门节目。

我觉得还不错。点一个试试~

相关文章
我们已经准备好了,你呢?
2024我们与您携手共赢,为您的企业形象保驾护航