福利国产微拍广场一区视频在线,99视频都是精品热在线播放,国产日韩欧美一区二区

文｜硅兔賽跑 Cora Xu

編輯｜蔓蔓周

打響空間智能第一槍！李飛飛3個(gè)月拿下10億估值。

生成式AI再次迎來(lái)里程碑時(shí)刻！

就在今天凌晨，斯坦福教授、“AI教母”李飛飛攜手其新團(tuán)隊(duì)World Labs發(fā)布首個(gè)空間智能AI模型：從單個(gè)圖像一鍵生成3D世界。

只要用戶上傳一張圖片，該模型就能?chē)@這張圖片的環(huán)境信息，生成一定范圍內(nèi)的3D虛擬世界。用戶可以直接在網(wǎng)頁(yè)端通過(guò)鼠標(biāo)或者鍵盤(pán)觀看3D世界。

目前，大多數(shù)的GenAI工具都以制作2D內(nèi)容，如圖像或視頻等為主。當(dāng)AI自動(dòng)生成3D內(nèi)容，將會(huì)提高3D內(nèi)容的一致性，將極大簡(jiǎn)化了電影制作、游戲制作、VR游戲制作等內(nèi)容素材的制作流程。

World Labs由李飛飛與三位聯(lián)合創(chuàng)始人Justin Johnson、Christoph Lassner、Ben Mildenhall今年9月共同創(chuàng)立，致力于構(gòu)建大型世界模型，生成、感知、交互3D世界，這也是李飛飛的首個(gè)AI創(chuàng)業(yè)項(xiàng)目。

目前，該模型還處于早期階段，用戶可通過(guò)名單候補(bǔ)的方式獲得體驗(yàn)機(jī)會(huì)，產(chǎn)品正式上線預(yù)估到2025年。

從Midjourney，到Sora，再到World Labs，一個(gè)又一個(gè)的AI模型出現(xiàn)，宣告著AI內(nèi)容創(chuàng)作的邊界不斷拓寬。

英偉達(dá)高級(jí)研究科學(xué)家Jim Fan用一句話總結(jié)了這段AI內(nèi)容進(jìn)化史：“GenAI正創(chuàng)造更豐富層次的環(huán)境縮影；Stable Diffusion是2D縮影；Sora是2D+時(shí)間維度的縮影；而World Labs是3D、沉浸式的縮影”。

由圖片一鍵生成3D環(huán)境，World Labs借力打力

從文生圖模型誕生以來(lái)，一直都有人嘗試用AI打造3D模型，盡管行業(yè)類(lèi)出現(xiàn)的模型并不算太少，但始終難有一個(gè)標(biāo)志性的產(chǎn)品出現(xiàn)。一方面是，現(xiàn)有的3D模型數(shù)據(jù)集太少，很難有足夠的優(yōu)質(zhì)數(shù)據(jù)去訓(xùn)練出合適的模型。另一方面即便生成出3D內(nèi)容，其展示的內(nèi)容邏輯性以及畫(huà)面質(zhì)量都很難真正用到相應(yīng)的電影、動(dòng)畫(huà)中去。

World Labs的空間智能AI模型，與大多數(shù)的AI生成3D模型不同，并非是通過(guò)文字提示生成3D內(nèi)容，而是從圖像生成3D內(nèi)容。李飛飛團(tuán)隊(duì)直接借助了現(xiàn)有文生圖模型如FLUX、Midjourney、Ideogram、DALL-E等模型實(shí)現(xiàn)文字生成圖像這一過(guò)程。

這不但讓W(xué)orld Labs直接兼容各種圖片風(fēng)格，不同模型生成圖像會(huì)有不同風(fēng)格呈現(xiàn)，而且新的AI系統(tǒng)可以繼承風(fēng)格特征，在3D世界中進(jìn)一步展現(xiàn)。此外，使用AI模型生成的圖片打造3D環(huán)境的另一大好處是，由于基礎(chǔ)的環(huán)境背景生成來(lái)源于此前的文生圖AI模型，從一定程度上World Labs能夠規(guī)避內(nèi)容版權(quán)問(wèn)題的風(fēng)險(xiǎn)。

比如說(shuō)，在FLUX、Midjourney、Ideogram、DALL-E四款文生圖模型中同樣給出如下文字提示：一間充滿活力的卡通風(fēng)格青少年臥室，床上鋪著色彩鮮艷的毯子，書(shū)桌上擺放著一臺(tái)電腦，墻上貼著海報(bào)，還有散落的運(yùn)動(dòng)裝備。一把吉他靠在墻上，中間放著一張舒適的帶圖案地毯。窗戶透出的光線給房間增添了溫暖、年輕的氛圍。則會(huì)會(huì)得到四種不同風(fēng)格的AI圖像信息：

*從左到右分別由FLUX、Midjourney、Ideogram、DALL-E生成

空間智能模型則能夠分別根據(jù)這四張圖片生成一定范圍內(nèi)的3D環(huán)境。

比如說(shuō)，由FLUX圖片生成出來(lái)的環(huán)境則是：

由Midjourney圖像生成出來(lái)的3D環(huán)境是：

由Ideogram圖像生成出來(lái)的3D環(huán)境是：

由DALL-E圖像生成出來(lái)的環(huán)境是：

可以從預(yù)覽的畫(huà)面看出，首先生成出來(lái)3D環(huán)境是360度全景圖像，在生成的3D環(huán)境內(nèi)部，有一定范圍的探索空間，基于網(wǎng)頁(yè)端設(shè)置，可用鍵盤(pán)和鼠標(biāo)進(jìn)行新的探索。一旦超出探索范圍，畫(huà)面會(huì)顯示“越界”提示用戶。

其次，在風(fēng)格上，生成的內(nèi)容環(huán)境會(huì)繼承原有的圖形風(fēng)格，整體3D內(nèi)容的風(fēng)格較為統(tǒng)一，多數(shù)物品的位置擺放沒(méi)有特別違背常理的地方。

最后，在生成3D內(nèi)容的過(guò)程中，新生成的AI世界將遵循3D幾何形狀的基本物理規(guī)則，具有實(shí)物感，與某AI生成的視頻夢(mèng)幻感對(duì)比鮮明。

Eric Solorio展示了World Labs的模型如何填補(bǔ)其創(chuàng)意工作流程中的空白：用戶可以安排角色在不同場(chǎng)景中出現(xiàn)，并指導(dǎo)精確的攝像機(jī)運(yùn)動(dòng)?！氨M管我們只是參與到World Labs模型早期的角色當(dāng)中，但是一切都是如此不可思議?！?/p>

Eric Solorio談到現(xiàn)在有些動(dòng)漫會(huì)采用AI制作背景畫(huà)面，但是大多數(shù)的模型很難同時(shí)生成不同風(fēng)格的3D環(huán)境內(nèi)容，多數(shù)僅采用1至2種風(fēng)格。但World Labs可以根據(jù)圖片生成對(duì)應(yīng)的風(fēng)格畫(huà)面。

打造四大玩法，讓3D世界活起來(lái)！

從文生圖模型誕生以來(lái)，一直都有人嘗試用AI打造3D模型，盡管行業(yè)類(lèi)出現(xiàn)的模型并不算太少，但始終難有一個(gè)標(biāo)志性的產(chǎn)品出現(xiàn)。

造一個(gè)AI 3D模型并非難事，但World Labs選擇了更進(jìn)一步，不但讓AI創(chuàng)造了一個(gè)3D世界，同時(shí)讓AI幫助這個(gè)創(chuàng)造的3D世界更加有趣，在畫(huà)面顯示風(fēng)格、交互玩法等多個(gè)方向進(jìn)一步提供了一些方向性指引。

1、預(yù)測(cè)用戶焦點(diǎn)走向，減小渲染壓力

World Labs模型能夠預(yù)測(cè)用戶關(guān)注的焦點(diǎn)走向，這將較大減少實(shí)時(shí)渲染的計(jì)算壓力。

一旦3D世界生成，虛擬世界的布局將會(huì)保持不變，一直存在。這也意味著如果用戶把視線移開(kāi)然后又回來(lái)，場(chǎng)景不會(huì)隨時(shí)隨地發(fā)生變化。這一方向，與VR世界里的注視點(diǎn)渲染技術(shù)相類(lèi)似，從一定程度上能夠減少設(shè)備渲染的壓力。

同時(shí)，用戶可以實(shí)時(shí)控制生成的3D內(nèi)容。生成場(chǎng)景后，用戶可以實(shí)時(shí)在場(chǎng)景中自由移動(dòng)，既可以仔細(xì)觀察花朵的細(xì)節(jié)，也可以偷看角落里露出的物體細(xì)節(jié)。

World Labs模型還能夠?qū)⑼ㄟ^(guò)深度圖將3D場(chǎng)景可視化，并且每個(gè)像素根據(jù)其與相機(jī)的距離著色，增強(qiáng)深度感。

2、提供三大動(dòng)畫(huà)效果，展示不同畫(huà)面語(yǔ)言風(fēng)格

在生成3D內(nèi)容的基礎(chǔ)上，World Labs還為生成的3D內(nèi)容準(zhǔn)備了多種畫(huà)面呈現(xiàn)方式，為用戶直觀展示不同3D內(nèi)容動(dòng)畫(huà)效果。

比如說(shuō)，波浪形的效果下，畫(huà)面里的櫻花林和樹(shù)木全部都在以波浪形“游動(dòng)”。

再比如說(shuō)，低像素沙畫(huà)風(fēng)格：

其中，Brittani Natali將World Labs技術(shù)與Midjourney、Runway、Suno、ElevenLabs、Blender和CapCut等工具相結(jié)合，并精心設(shè)計(jì)了攝像機(jī)路徑工作，在一段視頻中展示了不同的情緒風(fēng)格。

3、提供四大交互方式，點(diǎn)擊即可簡(jiǎn)單交互

用戶可利用3D場(chǎng)景結(jié)構(gòu)來(lái)構(gòu)建交互效果。聚光燈場(chǎng)景下，生成的內(nèi)容畫(huà)面顯示為：

在聲納的顯示效果之下，用戶可以每次點(diǎn)擊3D世界的場(chǎng)景，能夠看到交互畫(huà)面中顯示出一圈圈的聲音波動(dòng)信號(hào)，提示交互成功。

4、打造虛擬攝像頭，自由控制焦距遠(yuǎn)近變幻

World Labs生成場(chǎng)景后，用戶可以使用虛擬攝像頭在瀏覽器中實(shí)現(xiàn)實(shí)時(shí)渲染，用戶精確控制攝像頭的角度時(shí)，還能夠?qū)崿F(xiàn)藝術(shù)攝影效果。

比如說(shuō)用戶可以模擬場(chǎng)景的景深，其中只有距離相機(jī)一定距離的物體才能聚焦：

*從近及遠(yuǎn)調(diào)整焦距畫(huà)面變化

同時(shí)，用戶還可以模擬推拉變焦，同時(shí)調(diào)整攝像機(jī)的位置和視野：

*從遠(yuǎn)及近調(diào)整焦距畫(huà)面變化

3個(gè)月融資10億，李飛飛瞄準(zhǔn)“空間智能”

在諸多AI明星初創(chuàng)公司中，World Labs脫穎而出的理由離不開(kāi)其明星人物——“AI教母”李飛飛以及強(qiáng)大的團(tuán)隊(duì)研發(fā)背景。

公司目前有20名成員，不僅包括CV和圖形學(xué)領(lǐng)域的研究人才，還有系統(tǒng)工程、產(chǎn)品設(shè)計(jì)等職位，致力于在空間智能的基礎(chǔ)模型和產(chǎn)品之間構(gòu)建反饋閉環(huán)，從而讓產(chǎn)品落地、服務(wù)用戶。

World Labs9月正式亮相后，就迅速完成了2.3億美元的融資，得到了AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等人的鼎力支持，公司估值已超過(guò)10億美元。如此高額的估值和關(guān)注度，也能夠說(shuō)明業(yè)內(nèi)對(duì)李飛飛的團(tuán)隊(duì)以及研究方向認(rèn)可。

在官網(wǎng)頁(yè)面中，World Labs提到致力于構(gòu)建大型世界模型（Large World Models, LWMs），以感知、生成和與3D世界，并與之進(jìn)行交互。公司目標(biāo)是將AI模型從2D像素的平面提升到完整的3D世界，包括虛擬和現(xiàn)實(shí)世界，并賦予這些模型與人類(lèi)相似的空間智能。

如今，首個(gè)AI項(xiàng)目成果一出，我們能夠更加清晰地看待李飛飛在這一領(lǐng)域的堅(jiān)定決心。

在今年10月，李飛飛接受了a16z的專訪談到自己對(duì)空間智能的理解。她認(rèn)為，空間智能不同于蘋(píng)果提出的空間計(jì)算，但空間計(jì)算需要空間智能。空間智能勢(shì)必會(huì)推動(dòng)著新AI硬件發(fā)展，但具體是眼鏡，頭顯還是新的硬件產(chǎn)生，具體目前無(wú)法確定。

“空間智能是指機(jī)器在三維空間和時(shí)間中感知、推理和行動(dòng)的能力，理解物體和事件在三維空間和時(shí)間中的位置，以及世界中的交互如何影響這些三維位置，以及在空間和時(shí)間上的位置，感知、推理、生成、交互，真正將機(jī)器從大型機(jī)或數(shù)據(jù)中心中解放出來(lái)，讓它進(jìn)入現(xiàn)實(shí)世界，并理解這個(gè)豐富多彩的三維、四維世界?！崩铒w飛說(shuō)到。