由李飞飞教授领导的World Labes团队发布的一项前沿的空间AI技术,标志着人工智能在视觉处理领域的新突破。该技术通过提取AI生成图像的深度信息,成功将二维图像转化为具有三维空间感的动态影像,给用户带来了全新的沉浸式体验。
这一创新不仅仅是传统的图片转3D模型,更是在原始图像的基础上,赋予其空间感和交互性。用户不仅可以通过鼠标旋转图像,还能通过键盘控制视角的前后、左右移动,打造出与增强现实(AR)眼镜相似的互动体验。尽管目前可移动的空间仍较为有限,但该技术的潜力无疑为未来的虚拟现实和沉浸式应用开辟了新的可能性。
通过与团队的技术专家进行深入探讨,我们还发现了一些有趣的细节。例如,切换至不同场景时,我们发现一些潜在的技术漏洞。例如,在某个雕塑的视图中,镂空部分应当随着视角变化而呈现背后空间,但实际上它只是一个固定的色块,未能准确展现出该部分的深度变化。此外,雕塑背后的图像部分明显存在涂抹痕迹,这也暴露出图像处理中的一些挑战:虽然使用了AI技术进行图像填补,但有些区域仍未得到完善的补充。
尽管如此,技术中仍有令人称奇的效果,比如长焦浅景深的镜头效果,用户可以通过滑杆控制焦点的远近,带来与传统摄影类似的动态视觉体验。这一效果被认为是通过虚拟摄像机参数的调节实现的,且其背后或许包含了更为复杂的计算与优化。
深入探索该技术的核心部分,我们看到该系统通过全景图生成了空间模型,并利用色彩深度图展示空间远近关系。较深的颜色代表着较远的空间,暖色调呈现近景,冷色调则表示远景。与传统的黑白深度图相比,这种色彩深度模式显得更加直观。然而,在某些细节上,深度图的精度仍显不足,尤其是在树木丛生的区域,深度差异未能精确计算,导致了明显的“毛边”现象。
结合之前的分析,可以推测该技术的工作原理:团队利用360度全景图生成深度图,再将深度图转换为3D空间模型。随后,基于图像的3D贴图将场景投射到虚拟空间中。对于那些空间上重叠的部分,AI技术或其他图像处理方法被用来补全缺失的部分。值得注意的是,这一技术无需插件即可在网页端直接运行,极大提高了技术的可访问性和易用性。推测这项技术可能采用了如WebGL、VRML等成熟的网页3D技术框架。
虽然当前的技术尚未实现对前景物体背后的空间完全还原,但其所呈现的分层效果和空间感已让人感受到未来潜力的无限可能。期待World Labes团队在未来公开更多关于该技术的幕后细节。
此外,团队还展示了几种基于空间深度信息实现的3D效果,如声纳、聚光灯和波纹效果,进一步验证了其技术的多样化应用潜力。随着技术的不断完善,未来这项空间AI技术有望在影视、游戏、教育等多个领域发挥更大作用。
对于这一突破性的技术,业内专家和技术爱好者也纷纷表达了浓厚的兴趣。如果您对这一创新有更多的见解,欢迎在评论区与我们分享讨论。
12月11日 world labes.mov