2024年05月06日 第895期

苏州创企,想要掀起一场三维重建的AI革命

时间:2024-05-06 17:51:32  来源:

三年前,元宇宙大热,但很快便偃旗息鼓,留下了一个“概念大于落地”的幻影。

然而随着Vision Pro面世,其令人震撼的虚拟现实体验,让国外投资人评价道,Vision Pro或将使元宇宙“再次伟大”。

如果说Vision  Pro等XR交互设备的核心理念是将数字内容无缝融入真实世界,让用户处在当下并与他人保持连接,那在这个美好愿景之上,仍难逃一个核心命题:3D内容稀缺。

当前,三维重建领域普遍采用的是Mesh技术,一些企业虽短暂青睐过谷歌在2020年提出的NeRF(神经辐射场)技术(因其展示了人工智能在三维重建领域的曙光),但因没有解决3D内容不够真实、高生产门槛、高生产成本等问题,更为广泛的XR体验始终没有走入寻常百姓家。

大规模便宜且逼真的三维镜像,或许正是AI和XR结合时的missing link(缺环)。

一家坐落在苏州工业园区的AI创企——知天下(苏州)人工智能科技有限公司(以下简称知天下),想要试着补齐这一环。

知天下走的技术路线,正是近期在计算机视觉领域大火的3D Gaussian Splatting(3D高斯溅射)技术。

去年7月份,法国科研机构Inria和德国马普所联合发表了一篇论文,详细介绍3D高斯溅射技术,这项技术使得大规模生成精细化3D模型成为可能。论文一经发出,便在计算机视觉领域引起极高关注。

“这项技术具有划时代意义”,   知天下创始人兼CEO宋宽博士激动地说,“高斯溅射将使三维点云算法从‘小众’变成‘大杀器’”。

除了由衷的开心之余,几乎没有任何犹豫,宋宽当即做了一个决定:集结全公司的研发力量,All in高斯溅射。

“点云”算法是高斯溅射的核心技术之一。巧合的是,在过去的四年时间里,知天下团队一直在和“点云”算法打交道。

从2021年起,知天下团队在首席科学家魏泽强博士带领下,连续三年揽下国际人工智能顶会(ICCV、ECCV、CVPR)在大规模点云和光场算法方向的大赛冠军。

在那篇重磅论文面世的九个月后,知天下推出了一款基于高斯溅射的三维重建小程序,于上周五正式对外公测。

这是国内市场上第一个基于高斯溅射技术、公开可用的AI三维重建工具。   在这个工具中,每个人都可以用手机或者无人机拍摄的二维照片,自动重建高保真的三维场景。

宋宽认为,高斯溅射这门新兴技术,将催生出下一个平台级机会。

但当前,他很清醒的认识到,提升人工智能算法能力,完成一个又一个美轮美奂的实物3D模型,把三维重建的数据模型做起来才是前提。

“为了不浪费这个机遇,我们平台产出的三维模型要尽可能做到业界最惊艳”。

1. 补上一个missing link

去年夏秋之交,一枚“重磅炸弹”投向计算机视觉行业。

法国科研机构Inria和德国马普所发布了一篇名为“3D Gaussian Splatting for Real-Time Radiance Field  Rendering”的论文,谈论的正是3D高斯溅射技术。

在介绍3D高斯溅射技术特点时,我们不妨先来做个设想:

将自己视为一名艺术家。你不是在普通画布上绘画,而是在三维的空间中进行创作。你为场景中的每个对象绘制彩色的泡泡,生成一堆泡沫。这堆泡沫被称之为高斯溅射的“点云”。

再进一步,你不只是使用点,也在画布上混合颜色,让画面更平滑、更真实。这就是“泼溅”。

这就是3D高斯泼溅背后的想法:它不只使用点,  而是使用柔和地混合在一起的“泼溅”。每个splat就像一个温柔的泡泡,有自己的颜色并且可以是透明的。

不同于传统的点云可视化方法,高斯分布使得空间中的“连续可视化”成为可能,并赋予其深度和自然的外观,使场景看起来更加真实,而不是看起来离散和像素化。

如果对其技术特点进行概括,可总结为:高品质(超越NeRF和传统Mesh);实时渲染(超过100fps);  训练时间短(比NeRF和Mesh降低一个数量级)。

这也就意味着大规模生成精细化的3D模型成为可能。

一时间,高斯溅射技术在业内引起广泛关注,并被不少业内人士称之为是三维重建领域的颠覆式生产力。

在此背景下,即便是此前以NeRF为主要技术路线的厂商Luma  AI,也随即发布新一代基于高斯溅射构建的可交互场景和API,开始“NeRF+高斯溅射”并行,两条腿走路。

那时,距离知天下落户苏州正好半年。

当回忆起看到这篇论文时的第一反应时,宋宽说,除了迅速转发到团队群之外,我还发了一句话:我们之前一直在寻找AI和XR结合时缺失的那一环,终于出现了。

一直以来,XR领域被认为缺乏大规模、高质量的3D内容,无法喂饱用户;人工智能领域则一直在寻找可以实现规模效益和网络效应的直观应用场景。

高斯溅射的出现,正好弥合两者的缺漏。

 

知天下创始人兼CEO宋宽,图片来源:受访人提供

简单来说,三维重建任务就是给定一个场景的多个视角的图像,重建出这个场景的三维模型。

三维重建最早出现于上世纪中叶测绘学的一个子领域:摄影测量。随后在上世纪八九十年代,计算机科学领域重新发现了这项工作的价值,将其快速推进、迭代。

目前,在大多数的3D建模领域中,Mesh网格表达已经成为行业主流。近二十年来,GPU的快速迭代,更是大大提高了Mesh模型的渲染速度。

当然弊端也很明显。Mesh模型只能重建出物体的一层表面“薄壳”,对于表面不平滑的物体的建模效果就会很差、很假,需要追加大量人工,加以修订。

尤其是面对植物、毛发、水面倒影、建筑纹理等建模细节,即便经过人工修订,仍然无法达到真实世界的视觉效果。

时间来到2020年,由谷歌提出的NeRF(神经辐射场 Neural Radiance Fields)技术,为三维重建带来了新思路。

研究NeRF的目的在于合成同一场景不同视角下的图像。其路径大致可以概括如下:根据给定场景的若干张图片,重构出这个场景的3D表示,然后推理的时候输入不同视角就可以合成(渲染)这个视角下的图像了。

这一技术的核心思想是将每一个三维场景的底层数据结构从Mesh网格转为更微小的层级:沿着光传导路线的体渲染。

学者们假设,相机从各个角度去给这个三维场景拍照的时候,相当于从相机角度的光路做了一次该方向的色彩和体素密度的积分,这被称为体渲染   。而深度学习网络所做的就是对每个相机角度拍到照片,和体渲染计算之间的误差最小化。

NeRF提出三年多来,最可贵的思想是光栅化(rasterization)渲染,这是可以使用深度学习的部分。

但是在后来的实践中,从业者们渐渐发现NeRF的渲染效果其实有限,而且体渲染的深度学习训练效率并不高。

从某种程度上来说,高斯溅射的出现,对于急于补上AI与XR之间missing link的宋宽来说,无疑是“久旱逢甘霖”。

“人工智能一定是生产3D内容的必经之路。VR这一块如果用人工手绘或者Mesh建模来做的话,效率极其低下,必定会陷入内容匮乏、成本高昂的境地。可是直到高斯溅射出来之后,我才有了技术抓手。”他说道。

2. 一段厚积薄发的技术源渊

说到宋宽和高斯溅射这门技术的渊源,或许可以追溯到更远。

早在2023年秋季这个时间点之前,宋宽和团队就开始专注于研究“点云”技术。其首席科学家魏泽强博士,更是带领团队接连拿下2021-2023年国际AI顶会(ICCV、ECCV、CVPR)三项深度学习算法冠军。

“当时国内很少有人研究这个方向,我们也不知道是抽了哪根筋,一门心思的铺在点云深度学习这门技术上。”他说。

此外,发源于摄影测量领域的立体视觉定位,也是高斯溅射技术的重要步骤之一。而在先前研究AI遥感技术的岁月里,宋宽团队在这一块也积累了不少经验。

 

图注:苏州金鸡湖畔摩天轮工地,经由知天下“点云”算法渲染前后对比图

如今,高斯溅射横空出世后,知天下团队凭借在点云深度学习算法和摄影测量算法上的积累,成功将其融合,探索出下一代超大规模的三维重建算法,并打造了一套三维重建自动化生产线。

这或许正应了那句话:创业并非一蹴而就,也需要一些歪打正着的“运气”。

但究其根本,“运气”背后又何尝不是厚积薄发的“底气”。

知天下成立之初,宋宽本来是想以AI遥感为技术底座,寻求商业化落地机会。

AI遥感技术是指通过对遥感卫星和无人机影像数据的深度分析和学习,实现自动化识别分类地表特征,提高数据处理的效率和解译的准确性。

从某种程度上来说,AI遥感是计算机视觉和数据挖掘行业的结合点。而在这一结合点上,宋宽已经拥有十余年的产学研经验。

2002年,人工智能的浪潮并未掀起,火热的正是计算机视觉和数据挖掘两大方向。

看中这两大“热门方向”于交汇处的潜力,宋宽选择在全世界最著名的卫星遥感研究中心——马里兰大学攻读博士。毕业归国后,他曾任阿里云数据挖掘专家、佳格天地首席科学家。直到2022年底,方踏上创业之路。

创业之初,他本摩拳擦掌,想大干一场,却受到不少意向投资者的质疑:AI遥感技术的应用落地会不会太过于小众?

面对质疑,宋宽开始重新审视AI遥感技术在商业化落地时面临的若干堵点:

一. 在使用场景和需求上的特殊性。

他发现,在战争和灾难的场景下,国家会对AI遥感技术有一个井喷式的增长需求。

例如在地震和洪水之后,可紧急调配卫星和飞机拍摄发生地震时的场景;深度学习受灾前后照片,就可以评估受灾程度和范围。再比如在欧亚大陆衔接的边缘,战争正在肆虐。深度学习甚至可以对比每天的照片,找到各种隐藏线索。

而在其他场景中,需求天花板有限。

二. 遥感数据源存在由遥感卫星逐渐向无人机迁移的趋势。

无人机航拍和固定翼无人机制造,是宋宽自2016年起,闲暇之余消遣时间的爱好。

最开始他只是单纯觉得酷炫,可在成为一位创业者后,面对行业趋势转移,一个念头闪过:能否以无人机作为数据采集源,来打造属于知天下的“空中数据库”。

那时,他判断,未来以无人机为数据源或许将在中国广阔大地上应用空间更为广泛,而没有民航机场的经济发达城市会在无人机数据的AI应用上具备战略优势。

就这样,没有机场的苏州,成为宋宽团队的落脚地。

2022年,宋宽团队从北京整体迁移到苏州工业园区,并接连拿下两个领军人才资助项目。

面对这场双向奔赴,知天下自是不敢辜负这份信任。

去年9月,知天下团队历时半年精心打磨的同名软件“知天下”登陆国内最大的元宇宙商店PICO,当月冲上免费榜排名第一名。迄今为止,有十分之一的Pico用户已经用过这款App。

这是一个世界旅行应用,用户可以通过该应用游览全球各地的风景名胜。它提供了近百万个地点的无人机全景照片和上百个旅行路线,涵盖了从亚洲到美洲,从太平洋到大西洋,从南极到北极等各个地区,并用大语言模型将全世界的文化历史地理和照片关联到一起。

高斯溅射技术爆火后,在这一技术的加持下,通过无人机拍摄的大规模建筑的二维画面,可以在数小时内转化为栩栩如生的三维模型。

嗅觉灵敏的公司早已付诸行动。这一点,我们能从美国创业公司Luma  AI的官网上窥见一斑,其网站上呈现出的大量三维模型,数量最多的就是由无人机照片建模的室外场景。

而在中国,在知天下的网站上,以无人机为数据源进行三维重建的室外场景,数量也在稳步攀升中。

近期,知天下的三维重建小程序上线,宋宽一连在朋友圈发布多个demo,陆续吸引到一批客户,其中主要是在工程建筑和文旅行业的从业者。比如当前,某省级博物馆相关负责人正在与他们洽谈合作,希望能对现有的文博数字展览系统进行替换。

3. 抓住一个平台级机会

当步入知天下的办公室,“简单”二字扑面而来,映入眼帘的是一个非常典型的理工男创业场景:

左侧是简单装修的办公区,右侧是一个简单搭建的照相区——用来进行各种物件的三维测试,台面上摆放着八卦阵——用来进行方位标识,周边则是五架奇形怪状的无人机——用来拍摄素材。

在这一方小天地里,上周一款基于高斯溅射的三维重建小程序“知天下三维”面世,这使得大批量生成实景3D模型成为可能。

用户只需要从上、中、下三个空间层,八个方位拍摄,上传24张图片,便可获得一张实物的三维重建图:从毛茸茸的童鞋到苏州园林,包罗万象,20分钟便能产出栩栩如生的三维画面。

能做到这样精细的三维重建画面,自是离不开技术上的迭代和创新。

 

知天下团队成员合照,图片来源:受访者提供

此前,法国科研机构Inria在公布论文时,同步也对高斯溅射的基础代码进行开源。这对众多想“尝鲜”的行业从业者来说,无疑是一大利好。

知天下团队在欣喜之余,变得谨慎起来。“copycat并不会产生任何技术护城河,我们并不想当一位心安理得的‘拿来主义者’”。

因此,在消化吸收开源的基础上,知天下团队对原有代码进行了60%的自研替换,和法国Inria团队的成果相比,在精细度上有了大幅提高。

问题来了,当有了足够多的三维重建数据,又将如何实现商业化落地呢?

其中,电商的交互式三维广告,被宋宽认为是直播电商之后的千亿市场,但是碍于当前电商平台限制第三方链接嵌入,这一市场在短时间内很难切入,需要“等风来”。

眼下,文旅和建筑工程行业将是知天下的两大主要落地方向。

一直以来,工程领域的三维重建,“代价”很高,平均每平方公里能达到一万元。而利用3D高斯溅射技术,宋宽说能把这个成本压降到每平方公里千元,甚至更低。

但是二者出来的效果却有着云泥之别。利用3D高斯溅射技术生成的大型商场demo,玻璃透光和建筑的纹理都清晰可见,远超过往的三维展示效果;而且在时间成本上,原本需要数日的集群计算,被压缩至个把小时。

然而,令人稍显挫败的是,公司商务团队在对外沟通时,别人一听“三维”,第一反应是“我们已经有了”。

“大家对于三维这个概念的定义和理解不一样,不少人还停留在Mesh阶段。但在我们看来,这会是一个平台级的机会。从某种程度上来说,我们现在在做市场教育工作。”宋宽说。

瞄准这一平台级机会的,不乏国外入局者。尤其是看到不少有中国元素的三维重建场景图(其素材源自中国用户提交的无人机航拍照片),出现在美国Luma  AI的公司主页上时,宋宽的紧迫感更强了。

他说,在当前的国际地缘政治形势下,真实世界精细的三维重建,蕴含极大的价值,我们要尽可能让中国的三维数据留在中国的服务器上。

创业至今,宋宽从一开始碰到压力晚上睡不着,到现在习惯了压力,泰然接受来自管理、经营、研发带来的全方面考验。他说自己逐渐有了一颗强心脏,也对未来三维重建的世界有了更多的想象:

未来的大模型不只是用文字交互,而是以真实三维环境与用户交互;

未来的电商不再是摆拍照片和视频的卖家秀,而是所见即所得、买家可以翻来覆去探查的高保真三维镜像;

未来XR的3D内容不再是由三维设计师爆肝画出来的,而是在海量真实三维镜像基础上快速编辑、融合、生成的。

这一未来画面的出现,需要三维领域在基本的数据结构层面上,逐渐从Mesh网格结构向高斯溅射技术兼容。

“以真实世界里海量且高质量的数据作为土壤,是这一轮人工智能技术革命的核心。高斯溅射即将为三维重建带来一场颠覆性的革命。谁能掌握最出色的高斯溅射三维算法和数据,谁将有希望训练出最出色的三维生成式AI。”宋宽表示。

他补充道,当一门颠覆性技术出来,希望能看见中国团队带来的中国产品。即便我们不是最先提出来的,但是希望不要被甩开几个身位。

当跳过单一的三维重建世界,把视线拉的再远一些,三维高斯溅射与多模态AI、生成式AI在未来世界里,又将碰撞出何种火花?

这时,一贯以逻辑严密、理性冷静著称的理工男,竟打了个浪漫的比喻:这三种技术在未来将会像格林童话中杰克种下的三颗魔豆一样,互相缠绕支撑,通向天空之城。(稿件来源:甲子苏州  作者:七月)