當(dāng)?shù)貢r(shí)間12月2日,斯坦福大學(xué)教授、AI領(lǐng)域的杰出學(xué)者李飛飛宣布,她創(chuàng)立的公司 World Labs 推出了首個(gè)創(chuàng)業(yè)項(xiàng)目成果——一款能夠通過(guò)單張靜態(tài)圖片生成3D交互式場(chǎng)景的AI工具。這一突破性技術(shù)為電影、游戲、模擬器等領(lǐng)域的內(nèi)容創(chuàng)作打開(kāi)了新局面。
突破二維限制:從圖片到交互式3D場(chǎng)景
盡管已有許多AI工具可以將照片轉(zhuǎn)換為3D模型,但 World Labs 強(qiáng)調(diào),他們的工具具備獨(dú)特的交互性與可修改性。用戶不僅能夠調(diào)整攝像機(jī)位置、視野和光影效果,還可以動(dòng)態(tài)更改對(duì)象顏色、創(chuàng)建聚光燈特效,甚至添加自動(dòng)運(yùn)行的動(dòng)態(tài)效果。這使生成的場(chǎng)景不再只是靜態(tài)的展示,而是可供實(shí)時(shí)探索與操控的數(shù)字空間。
根據(jù)World Labs介紹,與傳統(tǒng)的生成模型主要預(yù)測(cè)像素不同,World Labs的系統(tǒng)專注于預(yù)測(cè)3D場(chǎng)景。生成的場(chǎng)景不僅具有持久性,還支持實(shí)時(shí)移動(dòng)與動(dòng)態(tài)視角切換,避免了現(xiàn)有技術(shù)中常見(jiàn)的偽影與一致性問(wèn)題。例如,用戶可以自由調(diào)整視角查看場(chǎng)景的每一處細(xì)節(jié),即便重新聚焦,場(chǎng)景也能保持一致。
World Labs的愿景:重新定義數(shù)字內(nèi)容創(chuàng)作
“大多數(shù)生成式AI工具仍停留在二維圖像或視頻內(nèi)容的制作上,” World Labs團(tuán)隊(duì)在博客中表示,“三維生成內(nèi)容能夠提供更高的操控性和一致性,這將徹底改變電影、游戲和數(shù)字模擬器的制作方式。”
該技術(shù)已在部分創(chuàng)作者的工作流程中投入試用。內(nèi)容創(chuàng)作者埃里克·索洛里奧(Eric Solorio)表示,這一工具為他的創(chuàng)作流程提供了強(qiáng)大支持,使角色布置和精確的鏡頭調(diào)度更加高效便捷。此外,演示視頻顯示,用戶可以通過(guò)瀏覽器實(shí)時(shí)渲染這些3D場(chǎng)景,利用WASD鍵移動(dòng)并拖動(dòng)鼠標(biāo)實(shí)現(xiàn)交互,并通過(guò)滑塊調(diào)整景深(DoF)或模擬推拉變焦(dolly zoom)效果,增加場(chǎng)景的層次感和沉浸感。
技術(shù)局限與未來(lái)展望
盡管技術(shù)令人驚艷,但World Labs坦言,當(dāng)前版本仍存在一些限制。例如,用戶的移動(dòng)范圍受限于較小的區(qū)域,場(chǎng)景邊界之外暫時(shí)無(wú)法探索,有時(shí)還會(huì)出現(xiàn)渲染錯(cuò)誤,物體之間可能以不自然的方式混合。
盡管如此,World Labs的潛力已引起業(yè)內(nèi)廣泛關(guān)注。根據(jù) TechCrunch 報(bào)道,World Labs已籌集了2.3億美元投資,投資者名單包括AI領(lǐng)域知名人士 Geoffrey Hinton、Jeff Dean 和谷歌前CEO Eric Schmidt。目前公司估值超過(guò)10億美元,并計(jì)劃在2025年推出首款正式產(chǎn)品。
技術(shù)背景:李飛飛與World Labs團(tuán)隊(duì)
World Labs成立于2024年1月,由李飛飛與三位在AI領(lǐng)域經(jīng)驗(yàn)豐富的聯(lián)合創(chuàng)始人——賈斯汀·約翰遜(密歇根大學(xué)助理教授)、克里斯托夫·拉斯納(Christoph Lassner)以及本·米爾登霍爾(Ben Mildenhall)共同創(chuàng)立。公司總部設(shè)在舊金山,目前擁有20名員工。
李飛飛在創(chuàng)立之初便明確指出,空間智能的核心在于將感知與行動(dòng)關(guān)聯(lián)起來(lái)。她表示:“如果想讓AI超越當(dāng)前能力,我們需要的不只是能看、會(huì)說(shuō)的AI,而是能感知環(huán)境并行動(dòng)的AI。”
這種愿景與當(dāng)前的“元宇宙”概念形成鮮明對(duì)比。李飛飛認(rèn)為,元宇宙因缺乏內(nèi)容而熱度迅速消退,而World Labs的技術(shù)則專注于創(chuàng)造真正的互動(dòng)式內(nèi)容,有望填補(bǔ)這一空白。
技術(shù)應(yīng)用場(chǎng)景與市場(chǎng)潛力
World Labs認(rèn)為,他們的3D生成技術(shù)不僅能提升創(chuàng)作者的生產(chǎn)力,還將廣泛應(yīng)用于游戲、影視制作和教育培訓(xùn)等領(lǐng)域,為數(shù)字內(nèi)容創(chuàng)作提供全新工具。例如,動(dòng)態(tài)3D場(chǎng)景的持久性和交互性將顯著提高影視制作中的場(chǎng)景搭建效率;在教育領(lǐng)域,這項(xiàng)技術(shù)也可以用于虛擬實(shí)驗(yàn)室和模擬教學(xué),提供沉浸式學(xué)習(xí)體驗(yàn)。
紐約大學(xué)助理教授謝賽寧評(píng)價(jià)道:“想象是生成式的,而控制則屬于3D。” World Labs的創(chuàng)新正在重新定義生成式AI的邊界,為用戶提供更加直觀的操控和沉浸式探索的可能性。