文|硅兔賽跑 Cora Xu
編輯|蔓蔓周
打響空間智能第一槍!李飛飛3個(gè)月拿下10億估值。
生成式AI再次迎來(lái)里程碑時(shí)刻!
就在今天凌晨,斯坦福教授、“AI教母”李飛飛攜手其新團(tuán)隊(duì)World Labs發(fā)布首個(gè)空間智能AI模型:從單個(gè)圖像一鍵生成3D世界。
只要用戶上傳一張圖片,該模型就能?chē)@這張圖片的環(huán)境信息,生成一定范圍內(nèi)的3D虛擬世界。用戶可以直接在網(wǎng)頁(yè)端通過(guò)鼠標(biāo)或者鍵盤(pán)觀看3D世界。
目前,大多數(shù)的GenAI工具都以制作2D內(nèi)容,如圖像或視頻等為主。當(dāng)AI自動(dòng)生成3D內(nèi)容,將會(huì)提高3D內(nèi)容的一致性,將極大簡(jiǎn)化了電影制作、游戲制作、VR游戲制作等內(nèi)容素材的制作流程。
World Labs由李飛飛與三位聯(lián)合創(chuàng)始人Justin Johnson、Christoph Lassner、Ben Mildenhall今年9月共同創(chuàng)立,致力于構(gòu)建大型世界模型,生成、感知、交互3D世界,這也是李飛飛的首個(gè)AI創(chuàng)業(yè)項(xiàng)目。
目前,該模型還處于早期階段,用戶可通過(guò)名單候補(bǔ)的方式獲得體驗(yàn)機(jī)會(huì),產(chǎn)品正式上線預(yù)估到2025年。
從Midjourney,到Sora,再到World Labs,一個(gè)又一個(gè)的AI模型出現(xiàn),宣告著AI內(nèi)容創(chuàng)作的邊界不斷拓寬。
英偉達(dá)高級(jí)研究科學(xué)家Jim Fan用一句話總結(jié)了這段AI內(nèi)容進(jìn)化史:“GenAI正創(chuàng)造更豐富層次的環(huán)境縮影;Stable Diffusion是2D縮影;Sora是2D+時(shí)間維度的縮影;而World Labs是3D、沉浸式的縮影”。
由圖片一鍵生成3D環(huán)境,World Labs借力打力
從文生圖模型誕生以來(lái),一直都有人嘗試用AI打造3D模型,盡管行業(yè)類(lèi)出現(xiàn)的模型并不算太少,但始終難有一個(gè)標(biāo)志性的產(chǎn)品出現(xiàn)。一方面是,現(xiàn)有的3D模型數(shù)據(jù)集太少,很難有足夠的優(yōu)質(zhì)數(shù)據(jù)去訓(xùn)練出合適的模型。另一方面即便生成出3D內(nèi)容,其展示的內(nèi)容邏輯性以及畫(huà)面質(zhì)量都很難真正用到相應(yīng)的電影、動(dòng)畫(huà)中去。
World Labs的空間智能AI模型,與大多數(shù)的AI生成3D模型不同,并非是通過(guò)文字提示生成3D內(nèi)容,而是從圖像生成3D內(nèi)容。李飛飛團(tuán)隊(duì)直接借助了現(xiàn)有文生圖模型如FLUX、Midjourney、Ideogram、DALL-E等模型實(shí)現(xiàn)文字生成圖像這一過(guò)程。
這不但讓W(xué)orld Labs直接兼容各種圖片風(fēng)格,不同模型生成圖像會(huì)有不同風(fēng)格呈現(xiàn),而且新的AI系統(tǒng)可以繼承風(fēng)格特征,在3D世界中進(jìn)一步展現(xiàn)。此外,使用AI模型生成的圖片打造3D環(huán)境的另一大好處是,由于基礎(chǔ)的環(huán)境背景生成來(lái)源于此前的文生圖AI模型,從一定程度上World Labs能夠規(guī)避內(nèi)容版權(quán)問(wèn)題的風(fēng)險(xiǎn)。
比如說(shuō),在FLUX、Midjourney、Ideogram、DALL-E四款文生圖模型中同樣給出如下文字提示:一間充滿活力的卡通風(fēng)格青少年臥室,床上鋪著色彩鮮艷的毯子,書(shū)桌上擺放著一臺(tái)電腦,墻上貼著海報(bào),還有散落的運(yùn)動(dòng)裝備。一把吉他靠在墻上,中間放著一張舒適的帶圖案地毯。窗戶透出的光線給房間增添了溫暖、年輕的氛圍。則會(huì)會(huì)得到四種不同風(fēng)格的AI圖像信息:
*從左到右分別由FLUX、Midjourney、Ideogram、DALL-E生成
空間智能模型則能夠分別根據(jù)這四張圖片生成一定范圍內(nèi)的3D環(huán)境。
比如說(shuō),由FLUX圖片生成出來(lái)的環(huán)境則是:
由Midjourney圖像生成出來(lái)的3D環(huán)境是:
由Ideogram圖像生成出來(lái)的3D環(huán)境是:
由DALL-E圖像生成出來(lái)的環(huán)境是:
可以從預(yù)覽的畫(huà)面看出,首先生成出來(lái)3D環(huán)境是360度全景圖像,在生成的3D環(huán)境內(nèi)部,有一定范圍的探索空間,基于網(wǎng)頁(yè)端設(shè)置,可用鍵盤(pán)和鼠標(biāo)進(jìn)行新的探索。一旦超出探索范圍,畫(huà)面會(huì)顯示“越界”提示用戶。
其次,在風(fēng)格上,生成的內(nèi)容環(huán)境會(huì)繼承原有的圖形風(fēng)格,整體3D內(nèi)容的風(fēng)格較為統(tǒng)一,多數(shù)物品的位置擺放沒(méi)有特別違背常理的地方。
最后,在生成3D內(nèi)容的過(guò)程中,新生成的AI世界將遵循3D幾何形狀的基本物理規(guī)則,具有實(shí)物感,與某AI生成的視頻夢(mèng)幻感對(duì)比鮮明。
Eric Solorio展示了World Labs的模型如何填補(bǔ)其創(chuàng)意工作流程中的空白:用戶可以安排角色在不同場(chǎng)景中出現(xiàn),并指導(dǎo)精確的攝像機(jī)運(yùn)動(dòng)?!氨M管我們只是參與到World Labs模型早期的角色當(dāng)中,但是一切都是如此不可思議?!?/p>
Eric Solorio談到現(xiàn)在有些動(dòng)漫會(huì)采用AI制作背景畫(huà)面,但是大多數(shù)的模型很難同時(shí)生成不同風(fēng)格的3D環(huán)境內(nèi)容,多數(shù)僅采用1至2種風(fēng)格。但World Labs可以根據(jù)圖片生成對(duì)應(yīng)的風(fēng)格畫(huà)面。
打造四大玩法,讓3D世界活起來(lái)!
從文生圖模型誕生以來(lái),一直都有人嘗試用AI打造3D模型,盡管行業(yè)類(lèi)出現(xiàn)的模型并不算太少,但始終難有一個(gè)標(biāo)志性的產(chǎn)品出現(xiàn)。
造一個(gè)AI 3D模型并非難事,但World Labs選擇了更進(jìn)一步,不但讓AI創(chuàng)造了一個(gè)3D世界,同時(shí)讓AI幫助這個(gè)創(chuàng)造的3D世界更加有趣,在畫(huà)面顯示風(fēng)格、交互玩法等多個(gè)方向進(jìn)一步提供了一些方向性指引。
1、預(yù)測(cè)用戶焦點(diǎn)走向,減小渲染壓力
World Labs模型能夠預(yù)測(cè)用戶關(guān)注的焦點(diǎn)走向,這將較大減少實(shí)時(shí)渲染的計(jì)算壓力。
一旦3D世界生成,虛擬世界的布局將會(huì)保持不變,一直存在。這也意味著如果用戶把視線移開(kāi)然后又回來(lái),場(chǎng)景不會(huì)隨時(shí)隨地發(fā)生變化。這一方向,與VR世界里的注視點(diǎn)渲染技術(shù)相類(lèi)似,從一定程度上能夠減少設(shè)備渲染的壓力。
同時(shí),用戶可以實(shí)時(shí)控制生成的3D內(nèi)容。生成場(chǎng)景后,用戶可以實(shí)時(shí)在場(chǎng)景中自由移動(dòng),既可以仔細(xì)觀察花朵的細(xì)節(jié),也可以偷看角落里露出的物體細(xì)節(jié)。
World Labs模型還能夠?qū)⑼ㄟ^(guò)深度圖將3D場(chǎng)景可視化,并且每個(gè)像素根據(jù)其與相機(jī)的距離著色,增強(qiáng)深度感。
2、提供三大動(dòng)畫(huà)效果,展示不同畫(huà)面語(yǔ)言風(fēng)格
在生成3D內(nèi)容的基礎(chǔ)上,World Labs還為生成的3D內(nèi)容準(zhǔn)備了多種畫(huà)面呈現(xiàn)方式,為用戶直觀展示不同3D內(nèi)容動(dòng)畫(huà)效果。
比如說(shuō),波浪形的效果下,畫(huà)面里的櫻花林和樹(shù)木全部都在以波浪形“游動(dòng)”。
再比如說(shuō),低像素沙畫(huà)風(fēng)格:
其中,Brittani Natali將World Labs技術(shù)與Midjourney、Runway、Suno、ElevenLabs、Blender和CapCut等工具相結(jié)合,并精心設(shè)計(jì)了攝像機(jī)路徑工作,在一段視頻中展示了不同的情緒風(fēng)格。
3、提供四大交互方式,點(diǎn)擊即可簡(jiǎn)單交互
用戶可利用3D場(chǎng)景結(jié)構(gòu)來(lái)構(gòu)建交互效果。聚光燈場(chǎng)景下,生成的內(nèi)容畫(huà)面顯示為:
在聲納的顯示效果之下,用戶可以每次點(diǎn)擊3D世界的場(chǎng)景,能夠看到交互畫(huà)面中顯示出一圈圈的聲音波動(dòng)信號(hào),提示交互成功。
4、打造虛擬攝像頭,自由控制焦距遠(yuǎn)近變幻
World Labs生成場(chǎng)景后,用戶可以使用虛擬攝像頭在瀏覽器中實(shí)現(xiàn)實(shí)時(shí)渲染,用戶精確控制攝像頭的角度時(shí),還能夠?qū)崿F(xiàn)藝術(shù)攝影效果。
比如說(shuō)用戶可以模擬場(chǎng)景的景深,其中只有距離相機(jī)一定距離的物體才能聚焦:
*從近及遠(yuǎn)調(diào)整焦距畫(huà)面變化
同時(shí),用戶還可以模擬推拉變焦,同時(shí)調(diào)整攝像機(jī)的位置和視野:
*從遠(yuǎn)及近調(diào)整焦距畫(huà)面變化
3個(gè)月融資10億,李飛飛瞄準(zhǔn)“空間智能”
在諸多AI明星初創(chuàng)公司中,World Labs脫穎而出的理由離不開(kāi)其明星人物——“AI教母”李飛飛以及強(qiáng)大的團(tuán)隊(duì)研發(fā)背景。
公司目前有20名成員,不僅包括CV和圖形學(xué)領(lǐng)域的研究人才,還有系統(tǒng)工程、產(chǎn)品設(shè)計(jì)等職位,致力于在空間智能的基礎(chǔ)模型和產(chǎn)品之間構(gòu)建反饋閉環(huán),從而讓產(chǎn)品落地、服務(wù)用戶。
World Labs9月正式亮相后,就迅速完成了2.3億美元的融資,得到了AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等人的鼎力支持,公司估值已超過(guò)10億美元。如此高額的估值和關(guān)注度,也能夠說(shuō)明業(yè)內(nèi)對(duì)李飛飛的團(tuán)隊(duì)以及研究方向認(rèn)可。
在官網(wǎng)頁(yè)面中,World Labs提到致力于構(gòu)建大型世界模型(Large World Models, LWMs),以感知、生成和與3D世界,并與之進(jìn)行交互。公司目標(biāo)是將AI模型從2D像素的平面提升到完整的3D世界,包括虛擬和現(xiàn)實(shí)世界,并賦予這些模型與人類(lèi)相似的空間智能。
如今,首個(gè)AI項(xiàng)目成果一出,我們能夠更加清晰地看待李飛飛在這一領(lǐng)域的堅(jiān)定決心。
在今年10月,李飛飛接受了a16z的專訪談到自己對(duì)空間智能的理解。她認(rèn)為,空間智能不同于蘋(píng)果提出的空間計(jì)算,但空間計(jì)算需要空間智能。空間智能勢(shì)必會(huì)推動(dòng)著新AI硬件發(fā)展,但具體是眼鏡,頭顯還是新的硬件產(chǎn)生,具體目前無(wú)法確定。
“空間智能是指機(jī)器在三維空間和時(shí)間中感知、推理和行動(dòng)的能力,理解物體和事件在三維空間和時(shí)間中的位置,以及世界中的交互如何影響這些三維位置,以及在空間和時(shí)間上的位置,感知、推理、生成、交互,真正將機(jī)器從大型機(jī)或數(shù)據(jù)中心中解放出來(lái),讓它進(jìn)入現(xiàn)實(shí)世界,并理解這個(gè)豐富多彩的三維、四維世界?!崩铒w飛說(shuō)到。
“什么可以將機(jī)器人大腦的學(xué)習(xí)和行為與現(xiàn)實(shí)世界的大腦連接起來(lái)的呢?它必須是空間智能?!?/p>