TGDC2022 | 「数字造物」有多牛?听大咖讲解我们距离未来还有多近

TGDC2022 | 「数字造物」有多牛?听大咖讲解我们距离未来还有多近

作者:news 发表时间:2025-08-22
A股煤炭板块震荡反弹,安源煤业涨停 移动空调市场前景(附行业现状分析、政策分析、发展环境及未来趋势预测)记者时时跟进 稳定币概念股悉数走强 众安在线(06060)涨7.41% 加密货币亚洲峰会即将来袭 谷歌 Pixel 10 系列手机所载 Tensor G5 SoC 采用 IMG GPU,不支持光追官方通报来了 央行将通过香港金融管理局债务工具龙国结算系统招标发行龙国银行票据秒懂 【科创板】上交所举办科创板六周年线上国际路演活动 谷歌 Pixel 10 系列手机所载 Tensor G5 SoC 采用 IMG GPU,不支持光追 【氧氯化锆行业分析报告】市场规模、供需态势及发展前景预测(2025版) 光学元件板块短线拉升 艾芬达今起招股 9月1日申购这么做真的好么? 富士康迎iPhone 17生产旺季,高返费招聘冲刺九月高峰实测是真的 谷歌 Pixel 10 系列手机所载 Tensor G5 SoC 采用 IMG GPU,不支持光追 中兴通讯港股盘初飙升14%,成交额16亿港元后续来了 劳氏豪掷88亿美元收购建材公司FBM!华尔街看好交叉销售潜力实垂了 青云科技:选举董事长及法定代表人太强大了 科陆电子:全球储能市场将持续增长 新兴市场成新增长点实时报道 沙钢股份2025半年度拟派5484.56万元红包 塔吉特新任首席执行官面临艰巨任务,需赢回投资者信心又一个里程碑 北方稀土8月20日大宗交易成交363.44万元 “五连板”公司济民健康披露半年报:前副总裁私刻印章致公司一业务下滑超92%,还涉及7300万元诉讼后续来了 科陆电子:全球储能市场将持续增长 新兴市场成新增长点 沙钢股份2025半年度拟派5484.56万元红包 重庆路桥发生大宗交易 成交溢价率15.16% 讯飞医疗科技披露2025年中期业绩:营业收入3亿元,同比减亏超40%实时报道 重庆路桥发生大宗交易 成交溢价率15.16%科技水平又一个里程碑 贵州茅台大宗交易成交1.00万股 成交额1450.00万元太强大了 手机承压、空调激战、汽车交付爬坡!小米Q2财报上演攻坚战,创新业务盈利尚需时间太强大了 永安期货与浙商银行签订全面深化战略合作协议太强大了 三孚股份:2025年半年度归属于上市公司股东的净利润为38458409.75元 51股每笔成交量增长超50% 厦钨新能公布2025半年度分配预案 拟10派2元实测是真的 手机承压、空调激战、汽车交付爬坡!小米Q2财报上演攻坚战,创新业务盈利尚需时间后续反转来了 “五连板”公司济民健康披露半年报:前副总裁私刻印章致公司一业务下滑超92%,还涉及7300万元诉讼 科技股“抄底”清单:这些低估值标的藏不住了!科技水平又一个里程碑 首发麒麟8020 华为nova 14系列限时降价 至高优惠500元 2499元起 安徽量子云入库科技型中小企业后续来了 2025 年《财富》龙国科技 50 强榜单发布:华为、DeepSeek、宁德时代等上榜后续来了 斑马智行申请港交所主板上市 金融监管总局:正研究制定相关文件,从多方面提出健康保险下一步发展路径又一个里程碑 付亚民,获批出任中信银行董事官方处理结果 吉利汽车因认股权获行使而发行合计87.55万股 人工智能如何重塑微软秒懂 野村:面对关税动荡,美联储与日本央行来到十字路口专家已经证实

来自腾讯互娱像素实验室的科学家季雨,针对现有的几大三维扫描方式进行了拓展性的尝试,从光的物理性质特点出发,对“光”进行控制,对设备加以改进,提出了更经济、更省时、更轻松、更可行的三维重建解决方案。

在由腾讯游戏学堂举办的TGDC2022腾讯游戏开发者大会中,他向大家分享了这套具有创造性的思路。

以下是演讲实录:

TGDC2022

我是来自腾讯像素实验室的研究员:季雨,非常荣幸能在这里跟大家聊一聊基于计算摄影学的三维重建技术,今天带来的分享主题是《数字造物,虚实相生》。首先为了方便各个领域的同学对这个方向的理解,我先简单介绍一下什么是三维重建。

三维重建也被称之为三维扫描,或者说数字孪生。它的目的就是将物体信息,或者说物理世界中的实体信息进行数字化。数字化的信息中主要的就是物体的几何信息,也就是它的形状或者说形态,以三维坐标的形式在数字世界中的呈现。除了它的形态信息之外呢,我们经常还会重建物体自身的颜色信息,我们称之为“纹理”;以及物体的材质信息,例如高反光的金属、漫反射的材料、木材等材质。有了这些信息以后,我们就可以在数字世界当中,也就是在电脑上渲染和复现这样一个物体了。

随着“数字世界”热点的兴起,三维重建更受到了大家的重视。数字世界的目的就是构造一个完全互联的数字虚拟世界,在这个数字世界中我们可以做各式各样充满想象力的创作。但我们都知道——人的创作都是基于现实的一种拓展。对于“如何将物理世界(现实世界)中的实体搬入到数字世界中”的思考,就变得尤为的重要。

举一个简单的例子:我作为一个普通消费者,在现实生活当中看到一个特别漂亮的工艺品,希望把它放到元宇宙的素材库里面,或者说我自己虚拟的“家”里面。我不可能期望制作这个工艺品的师傅坐到电脑前面,然后通过建模的方式来构建这么一个数字化的工艺品。如果三维重建变得简单,我们就可以将任意物品在元宇宙当中得以构建出来。因此三维重建等游戏技术越来越受到游戏开发者的重视。

TGDC2022

下面这个视频展示了一个似曾相识的游戏场景。这是20年前的一款游戏《反恐精英》的一个地图,但是跟原来我们游戏里面的地图不同的是它看上去非常真实,其原因就是这是来自Quixel公司的作品。这个公司致力于三维重建和三维素材采集,这个地图也是Quixel公司利用近些年三维重建得到的一些素材,按照原来的游戏的地图完完全全复现的。通过这一段视频我们可以非常直观地看到,游戏开发者可以非常轻松地利用三维重建的素材制作出这样一个精良的真实的游戏场景。

再举一个很有意思的例子。近期在Kickstarter上有一款非常火的游戏开发项目:Vokabulantis。它里面所有的场景、道具或者说物品,都是通过在这个现实世界当中由艺术家给它构建出来,再利用三维重建的方式将它们采集下来放到游戏当中的。它里面所有的人物也是通过在物理世界当中构造,然后摆放成定格动画的形式,再通过三维重建导入到游戏当中的。

制作这个游戏的开发者说,他们利用了三维扫描的技术将游戏人物数字化的流程一共用了2周时间,其中包含了在物理世界当中捏出这样一个小的人物,以及后面的采集、最后的重建的整个流程。如果用传统的方法:让一个三维建模师在电脑前面直接制作这样一个定格动画,则可能需要5个星期。所以我们可以说,三维重建帮他们节约了约60%的时间。另外值得一提的是,开发人员也表示:通过重建,可以得到更为真实的材质、颜色,以及光影信息,这个是传统的建模所无法做到的。

TGDC2022

除了游戏产业,电影制作也可以从三维重建当中获得大量的好处。

我们可以先看一个30年前的科幻电影《侏罗纪公园》,看看当时的人是怎么在电影当中重现一个霸王龙的。为了制作真实的这样的一个电影效果,他们直接搭建了一个1:1的恐龙的模型,制作了真实的恐龙的骨架,逼真的恐龙的皮肤以及牙齿,甚至是恐龙的舌头。为了让这个制作的恐龙能够动起来,他们又直接造了一台机械控制的恐龙骨架。我不知道制作这样一个或者像电影里面这样制作几个这样的恐龙的成本是多少,但显而易见的是这个花销从设备上来说,或者说时间上以及人力成本上面都绝对不会是这样一个小数目。

再让我们看看当下的影视人员是如何制作这样一个场景的——他们首先找到一个恐龙的三维模型,这个模型包含了几何以及皮肤或者说材质信息。然后让一个动画师给这个恐龙的模型绑定骨架,这样动画师就可以在三维软件当中让这个恐龙给动起来。结合其他的数字模型以及场景,他们就可以渲染出以假乱真的电影特效了。整个流程全部可以在一台电脑前面完成,所需要的技术人员也可能从原来的几十、上百人下降到了几个甚至一个。

让我们再来回顾整个流程,可能最重要的就是找到一个这样的恐龙的三维模型。如果我们有一个方便的三维重建方法为他们扫描出一个好的霸王龙模型,整个流程就完整了。

这里我简单展示一个三维扫描的拍摄过程。视频中的小孩(我的女儿)今年才6岁,她已经可以完成一次简单的三维重建的拍摄任务。只需要拿着一个手机绕着一个恐龙的模型进行环拍,然后将拍摄到的图片上传到了重建软件当中。十几分钟以后,我们就可以得到一个精度还不错的恐龙模型了,这个恐龙甚至还包含它的皮肤纹理。

TGDC2022

回过头来看电影,虽然我不知道左边的这个电影片段当中的恐龙模型是怎么获得的,但是他们用到的这辆吉普车就是他通过三维重建得到的。

说了这么多产业里面的应用,我们接下来聊一聊比较常见的三维重建的方法。

首先,从最简单也是最直观的方法说起,也就我们人类以及其他哺乳类动物对世界进行三维认知的方法:双眼,也称之为“双目视觉”。其主要就是利用左眼和右眼看同一个区域,当我们的目光锁定之后,我们的大脑会自动计算两个眼球之间的夹角,从而产生三维的距离感。比如说夹角比较大的时候,就说明这个物体离我们比较近,夹角比较小就说明这个物体离我们比较远。基于双目视觉的三维重建正是根据人眼的这套算法,采用了两个相机对场景进行了一个拍摄,然后对左边拍摄到的图像和右边拍摄到的图像进行一个匹配,在匹配完成之后,我们可以根据左右图像上面的视差反算出这个物体到相机的距离。

在这个双目视觉上面的一种延伸,也就是当下在游戏以及影视行业当中最常见的一种三维重建方法,被称为“多视角的三维重建”,或称“摄影测量学”。其原理是我们不再受限于只用两张图片,或者两个相机,而是空间中放置更多的相机,或者用一个相机拍摄一段更长的序列图片。将所有的图片进行一个匹配,如果这些相机能够从各个角度拍摄我们想要重建的这个物体,我们就可以对这个物体进行一个更完整的三维重建。当中很重要的一步就是先建立一个虚拟的世界坐标系,然后计算出所有相机在这个虚拟坐标中的三维空间位置,我们称之为“多相机的自标定”。对这部分有兴趣的同学可以通过一个叫做“Structure from motion”的算法来了解它的主要细节。

对于这个双目视觉和多视角重建的这两个方法,我们都仅仅只使用了相机,对这个场景不具有干预性。我们把这样的方法称之为“被动式的三维重建”。被动式的三维重建完全是基于由场景的光照而拍摄到的图像来做的。跟被动式的重建对应的是另一个非常重要的重建方法,我们称之为“主动式的三维重建”。

主动式与被动式的主要区别就是主动式会对场景进行一个自打光,当然这个光源可以是能够被人眼看到的可见光,也可以是人眼无法感知的这个红外光。相机可以采集到这个光线,然后拍摄由自身发射的光线反射回来的图案,系统会进行分析与重建。

其中最具代表性的就是基于结构光的三维重建,iPhone就是利用这个结构光的算法计算它的FaceID的信息。这样一套系统一般由一个相机以及一个投影仪组成。投影仪会打出一个特定的图案,然后相机通过采集到的图片分析里面图案的形变以及偏移来计算三维信息。

另一个被广泛运用的主动式的方法被称为“Time-of-Flight”或称“ToF”。ToF的算法其实非常简单,主要是利用光子从投影仪射出之后碰到空间中的物体而发生反射,再被我们相机所采集到。ToF可以计算光子从投影仪射出来到被相机拍摄到的这段时间差,也就是光子在空气中的飞行时间。根据光速与时间可以计算得到物体到相机的距离。

TGDC2022

接下来来列举一下主动式和被动式各自的优点。

首先对于主动式而言,它的重建只需要一个相机,或者说拍摄到的一张图像。而被动式通常需要2张图片或者2张以上来自一个或者多个相机拍摄的图案来计算。所以从经济成本与时间成本上来说,主动式的重建都比较占优势。其次,主动式的方法一般都是自带光源,即使环境光很暗,它们都能够进行很好地重建,你可以想象iPhone在一个很暗的环境中仍然可以通过人脸来解锁。此外,ToF算法本质上只是基于初中物理知识,整个算法非常简单。所以我们可以将这个系统搭建在一些功耗非常小的设备上面。

而被动式的优势同样也是非常显著的。相机和具有高分辨率摄像头的手机在当下已经非常普及,我们可以随手进行一个这样的拍摄。整个的拍摄过程也非常的易学以及易用,即使一个6岁的小孩也能够熟练地完成这样一些操作。

TGDC2022

有了这两种方法,是不是可以完全解决三维重建的问题了呢?并不是!

为了让大家能够得到一个比较共识的回答,我们从一个消费者的角度出发来看待这样一个问题——假设我走进了这样一个房间,非常喜欢这个起居室的布局。那么是不是只要对这个房间进行一个三维扫描,恢复出整个房间以及房间里面所有家具的三维模型,就可以在之后的元宇宙中把房间改建成这样一个布局呢?

TGDC2022

我们当然希望自己能得到一些高精度的重建结果,里面的墙面和地面都非常的平整,所有的部件也非常的精细。但我们进行了实际的重建以后可以发现,三维重建对于场景当中的某些物体可以得到一个非常好的结果,比如说中间的布椅子、左边的皮沙发、左边墙上的这个油画,以及地面上的地毯。

然而对于场景当中的另一些物体,当下所有的三维重建的方法都没有办法给出令人满意的效果。举个例子:墙上的这面镜子、桌面上透明的花瓶、花瓶中的半缸水、一些高反光的金属……

TGDC2022

当你购买一些三维扫描的设备或者请一个熟练的三维扫描人员的时候,他们会跟你说需要回避哪些物品或者什么样的材质。就拿这个镜子或者玻璃举例,这是研究人员利用结构光扫描系统对这样类似的场景进行一个拍摄的结果——左边的场景包含了一面镜子,右边的场景包含了两扇透明的玻璃门,然后每个图的右边显示了这个结构光系统算出来的三维重建结果。我们可以非常直观地看到所有的镜子、玻璃都没有被正确地重建出来,这些区域在结果当中都是以镂空的样子出现的。而且这个系统还会给出一些错误的结果:例如在镜子当中出现了被镜子反射的衣服的三维模型。而真实的世界当中,你可以想象在这个空间并不存在这样一件衣服。

TGDC2022

或者我们可以尝试使用被动式的方法对这类镜面或者高反光的物体进行重建,这里展示了一个镜面的大象型的书挡。我把这个大象书挡放在一个茶几上面,对其进行了360度的一个环拍。在拍摄了近100张图片后,我将所有的图片导入到了市面上最优秀的摄影测量学的软件当中。从它的重建结果来看,可以看出它至少对这个茶几表面的重建还是令人满意的,但对于这个镜面书挡的重建可以说是“惨不忍睹”了——原先光滑的镜面书档变得非常毛糙,材质也不像一面镜子。

TGDC2022

其实当中的主要原因就是这个摄影测量学都是基于图案的匹配。而镜面反射的图案会随着拍摄位置的变化而变化,所以这些软件都无法得到一个正确的匹配结果。通常对于这样一类物体的解决方法就是对这个物体进行一次喷漆,使用白色或其他纯色油漆覆盖掉它的反光,再通过主动式或者被动式的方法进行重建。但是这个过程会对物品造成一些不可逆的伤害,可以想象喷了漆就没办法再复原了。

而且这些物体不仅仅仅限于镜面。类似于车表面这些反光比较强的金属,或者说车窗部分也会遇到这样相似的问题。所以如果要三维重建车身,可能需要对整个车体进行一个贴膜,然后标注一些可以被识别的标记这整个步骤可以说是非常的费时费力,人工成本、时间成本、经济成本都会因此而大大增加。

说到人工和经济成本,可以再来看一个影视制作的例子。在影视制作当中有一些非常天马行空的剧情,比如复制一个自己,或者说像《阿凡达》一样操控一个跟自己长相接近的虚拟角色,或者要重现一个已经去世的演员。所以构造一个或者扫描一个高精度的人脸模型在影视行业当中一直是一个非常重要的工作。因为有了这样高精度的人脸模型以后,影视从业人员就可以用来塑造一个真实的数字人,用来渲染和合成一些普通拍摄没有办法完成的场景。

对于高精度的人脸的三维重建最著名的一套系统就是被称之为“LightStage”的多光源人脸采集系统。这套设备确实能够提供一个高精度的影视级三维人脸重建,但是它的搭建费用也是相当的昂贵,仅硬件成本就远超200万人民币。不仅如此,它的搭建也是极其繁琐,这里我以百倍乃至千倍的速度展示了一次完整的LightStage的搭建过程,整个过程需要不下10个专业技术人员,搭建时间也超过了80个小时。

TGDC2022

所以我问大家,如果有这么一款三维重建系统,它可以克服镜面这类高反光物体的限制,对于这类物体能够进行高精度的重建,成本只有千元人民币,你会不会考虑?或者说对于影视级的高精度人脸重建,有这么一款三维重建系统可以达到跟LightStage一样的效果,但只需要LightStage十分之一的人工,或者说在成本控制上只需要LightStage 1%的硬件成本,假设你作为影视的从业人员会不会心动?

如果你的回答是“Yes”的话,那就让我们聊一聊今天的主角——计算摄影学。

TGDC2022

在介绍计算摄影学之前,我们可以先从传统的摄影,或者说成像说起。

从一般的用户的角度来说,成像或者说摄影,就是对于一个场景用相机进行拍摄。但这个并不是一种完全准确的描述,因为这样的拍摄会得到一张全黑的照片,究其原因是因为描述的场景当中没有光,只有当场景当中有了光,我们的相机采集到了从物体上反射的光子,才能得到一张彩色的有意义的图像。

所以摄影师总是说“摄影就是捕捉光的过程”,而计算摄影学它的想法就是对场景当中的光进行控制,或者说改造,让它变得更加“智能”。同时我们也可以对相机进行相应改动,让它能够采集到更多的来自光源的信息。对于这样的信息(可能是一些隐性的信息),我们可以通过开发一些相对应的算法将其中丰富的场景给恢复出来。

TGDC2022

要对场景当中的光进行一些改造前,让我们先来看看光有哪些特性——

首先,光是具有起点与方向性的。其次,光是具有颜色的,比如红光、绿光,或者几种颜色叠加的光,比如白光。所以光的第二个特性就是具有颜色及波长,因为波长就对应着不同的颜色。第三,光是一种电磁波,电磁波具有偏振的特点,所以光是具有偏振特性的。这就是光的三大基本特性。除此以外还有些其他的特性,比如光具有亮度、速度以及频率,这里不细说。

TGDC2022

如何以这三个光的基本特点作为出发点设计一个新型光源?

首先,如果我们可以对光源射出的每一条光线进行控制,这样我们就可以对光的方向进行编码。举一个简单的例子:我们可以让亮的光线表示1,暗的光线表示0,这样我们就可以通过接受端采集到的图片亮暗来判断光的方向,或者我们可以在光的场景当中加入多个光源,让每个光源显示不同的亮度,这样我们就可以通过接收到的亮暗来判定光是从哪里射过来的,从而对光的方向以及位置进行编码。

TGDC2022

其次,可以调节从光源射出的光的颜色。不同的颜色表示不同的数据信息,从而利用光的波长对光进行一个编码。

再者,我们可以调节射出的光的偏振特性,比如改变光以线偏振、圆偏振,或者椭圆偏振的性质射出来,这样就可以对光的偏振进行一定程度的编码。

TGDC2022

值得顺带一提的是,我们也可以在时间上对光进行控制,记录光子从光源射出的时间,这也可以认为是一种对光的控制和改造。因为这个技术已经被运用在之前所提到的Time-of-Flight(ToF)之中,所以ToF其实也是计算摄影学。

TGDC2022

与之对应,我们也可以对相机进行相应的改动。比如能够让相机采集到各个角度、各个方向射出来的光线,我们把这个称之为“光场采集”,或者说“light field capture”。或者相机可以采集多波长的信息,最简单的就是普通的红绿蓝三种颜色,甚至多光谱、近红外成像等。

再者,可以在相机的镜头前加装偏振片,分析采集到的光的偏振特性。因为相机其实类似于人的眼睛,这些看似对相机的改动,有些令人感到不同寻常,但其实具有这些能力的视觉系统在自然界的其他物种当中其实非常普遍。

TGDC2022

我这边可以举两个简单的例子:第一个例子是蜜蜂。大家可能都知道的是蜜蜂拥有一对“复眼”,复眼就是在一个眼球上有成千上万个小眼睛。利用它,蜜蜂可以捕捉来自各个角度各个方向上传播过来的光线,从而更快更准的判断距离。大家可能没有那么熟悉的是蜜蜂的头顶上还长了3个眼睛,所以蜜蜂其实一共有五个眼睛,有点类似于我们神话当中的二郎神。那3个眼睛其实可以感应人眼没办法感应的光的偏振信息,因为从太阳照下来的天光具有很强的偏振特性。根据这三个眼睛看到的天光图像,蜜蜂可以得到非常精准的方向感,这也是为什么蜜蜂可以飞很远采花蜜,并能在采完花蜜之后按原路返回的原因。

第二个例子是螳螂虾。螳螂虾的视觉系统可以说在动物界当中是一种变态的存在了。首先它的眼睛可以感知远超人类或者其他动物的光谱,也就是说能比人眼看到更丰富的颜色特性。其次它的一个眼睛可以感知多种偏振态,比如说线偏振和圆偏振,这样可以帮助它在水底快速地识别那些隐藏在石头和水底的小鱼和小虾。

TGDC2022

讲了这几种计算摄影学在仿生学当中的对应,可能有的同学就会问:这到底有什么好处呢?接下来我就稍稍总结一下计算摄影学在用于三维重建时有哪些好处。

第一,它的成本会比较低。对于硬件而言,因为我们主要是对现有的设备进行改动,所以不需要重新设计新的硬件以及新的制造流程。不仅是硬件,因为这些改动,我们也使计算变得更加简单,计算成本也会因此降低。

第二,因为一些针对性的设计,所以它可以处理比传统方法更复杂的一些场景,比如说令人头疼的暗光、高动态范围、快速运动,它都能较好地处理。

第三,除了处理复杂的场景,对于普通的场景,计算摄影也能够提供更棒的三维重建。例如一些纯色物体,比如白色的墙面,基于图像的一些被动式的三维重建方法就远不如ToF这类计算摄影学来得精准。

TGDC2022

说了这些计算摄影学的好处,接下来让我们通过一些实例看一看计算摄影学是如何解决三维重建那几个问题的。

我将围绕我的三个工作:基于偏振的镜面重建、基于多视角光场的流体重建、基于多色彩的高精度人脸重建,这三个工作来介绍计算摄影学是如何体现它在计算以及在控制成本上的优势。

TGDC2022

首先让我们来聊一聊在所有三维重建方法都没办法解决的镜面的物体的重建。

对于镜面的反射,大家可能会认为镜子就是反射所有入射过来的光的信息,但其实不然。我这边展示了一个简单的例子:这是一个我们用普通相机拍摄的池塘的照片。在水面上面我们能看到明显的来自天空的反射,而看不见水底下的情景,这跟镜面的反射的特性其实特别接近。但如果我们在相机前面放置一个偏振片,然后通过旋转偏振片,在某一时刻我们能看到水面的反射几乎被完全的滤掉了,能够看到水下的鲤鱼以及水底的石头。

其原因就是因为镜面反射会改变入射光的偏振态,从而使反射的光带有极强的偏振特性。因为普通相机或者人眼没办法感应这种偏振特性,所以给了我们“镜面会反射所有入射光的”的错误理解,而这种镜面反射对于偏振态的改变是可以由经典的物理公式菲涅尔方程来描述。我们可以根据菲涅尔方程,或者说镜面的反射原理搭建出一套针对镜面反射的拍摄系统。

TGDC2022

这里展示了一个我们在实验室搭建的原型系统的照片。图片的左侧是一个可以对光的偏振态进行编码的光源系统,是通过一个我们平常用的液晶显示器改造而来的,这样的液晶显示器价格也就150美金。将液晶显示器表面的膜撕掉,由于液晶的工作原理,我们就制作出了一台可以对光线进行编码的光源。随后我们只用一个相机对这个镜面物体进行拍摄,通过分析和计算反射得到的偏振信息,我们就可以直接对这样的镜面佛头进行高精度的三维重建,而不用将佛头进行任何的喷漆或者贴膜的工作。

TGDC2022

接着让我们来看看另一个具有挑战性的项目——对于水体的三维重建,并分析水体的三维运动。

水体的重建一直是三维重建当中的难点,其最简单的原因就是水是透明,相机拍摄水的图片其实是在拍摄水后面的物体。在这张照片中,抛开当中的涡旋看两侧的水的话,其实大家很难判断当中的水到底是在以什么样的形式运动。

TGDC2022

但对于水体的运动的分析却有着大量的应用场景。物理学家可以通过得到的水体的流动来进行物理仿真,从而得到更精准的水流物理模型,然后在有了这些物理模型之后。我们可以直接将模型运用到三维动画当中。

计算水流以及水中物体如何随着水流运动,从而渲染出逼真的水中的动画效果。不仅如此,生物学家也可以利用这样的水流来分析鱼群在水中的运动轨迹,从而发现鱼群的运动规律;机器学家可以通过重建的水体运动,来补偿甚至消除水下机器人或者潜水艇的晃动,从而使潜水艇或者水下机器人能够在水下更稳定地游动。

TGDC2022

接下来让我们看看如何才能拍摄到这个水的运动。我拍摄了一个盛满水的水缸,水缸的底部有一个一直在运转的水泵,水缸中的水一直在高速的移动。右边我放大了我拍摄的视频,但是即使我们放大了,仍然无法判断这个水的运动到底是怎么样的——因为我们只能看到水体背面的黑色背景。

TGDC2022

为了解决拍不到水的这么一个问题?科学家想到了一个方法,就是在水中放入一些跟水密度一样,但是可以被相机看到的物体。在这里我轻轻撒入了一些绿色的荧光小球,通过这个方法我们可以看到水缸中的水在以逆时针的方向快速的转动。

但是这并没有完全解决我们重建水的三维运动的问题,最主要的一个原因就是我们拍摄到的图像或视频是平面的,我们没有办法判断水中的这些小球到底离相机的距离是多少,或者说在前后方向上的运动我们是没有办法来重建的。

TGDC2022

当下对于这个水下粒子的三维重建的方法其实都是运用了传统的多视角的三维重建,这样一套系统当中包含了多个相机,利用激光按层照亮水中的粒子,从而恢复出这些粒子在水中的三维坐标。这样一套系统能看出来它非常的笨重,所需要的场地都非常大,且造价不菲,一般都在15万美金一套。

TGDC2022

而我们利用一个光场相机提出了一个基于计算摄影学的想法——这样的相机虽然不同于市面上的普通相机,但仍然可以直接从网上直接购买,价格在1000美金左右。光场相机的原理就是在感光器上方加装了一组微透镜阵列,类似于蜜蜂的复眼,每个小透镜形成一个小的微型相机,用来采集另一个视角下的光线。利用光场相机来拍摄刚刚那些水中的粒子,我们就可以通过算法转换出每个小透镜下后面的图像。

TGDC2022

当我们切换这些图像时,图片中的粒子就会发生偏移,并且一些离相机比较近的粒子偏移会比较明显,而离相机比较远的那些粒子偏移就比较微弱,所以我们就有了一些距离感。

通过这样的方式我们就可以计算出那些粒子在空间当中的三维坐标。通过光场相机,我们可以拍摄一段视频序列,这样我们就可以分析出粒子在三维空间坐标当中的运动轨迹,进而计算出完整的水的流动。因为整个系统只需要一台光场相机,所以硬件成本上也只有相机的价格1000美金,对比传统的多相机加激光的方案,成本上只有原来的1/150。

TGDC2022

说到低成本,让我们再来聊一聊影视需求上面的高精度人脸重建。之前已经举例了至少需要200万人民币的硬件系统lightStage,仅安装就需要10个专业的技术人员以及80个小时的时间。而我们提出了一套基于多彩色光源的三维人脸采集系统,只用到了一个高清相机和三个普通的彩色LED灯,成本只有2万人民币。这个简化后的系统只需要1到2个技术人员就可以完成搭建,整个的搭建时间也只要30分钟。

TGDC2022

这里展示了一个我自己的三维人脸重建的一个视频序列。可以看到我们这个系统可以重建出高精度的人脸模型,即使是睫毛以及细小的毛孔也可以重建出来。

TGDC2022

通过对这三个基于计算摄影学的三维重建项目的讨论,大家应该能够体会到:利用计算摄影学,我们可以克服一些三维重建当中遗留的问题,比如说类似于镜面反射、成本控制等等;也可以体会到光所包含的信息之多,我们对于三维世界的认知其实都是来自于一些光的自身的特性。

这里是一张我非常崇拜的画家M.C.爱舍尔的一幅代表作。爱舍尔对于三维世界或者说光对于三维世界塑造的认知远超于我们常人。这幅画的名字叫《三个球体》,这幅画能让我们清楚地感受到这三个球的形状以及这三种球体各自的材质。比如说左边的是一个透明的玻璃球,中间的是一个类似镜面的金属球,右边是一个类似于石膏的这样一个不透明的球体。

TGDC2022

爱舍尔正是利用光的特性,分别是光的折射、反射,以及漫反射,来体现出物体的几何以及材质特性,这也正是计算摄影学的出发点——更积极地、更正确地去利用这些光的特性。

所以,如果大家对计算摄影学或者说三维重建,或者说光有自己的想法,或者还有其他一定困惑的话,我非常希望也欢迎能够与大家在线下进行一个交流和讨论。谢谢大家!

相关文章