世界模型是一種生成式 AI 模型,能理解現實世界的動態,包括物理特性與空間屬性。這類模型會使用包括文字、圖像、影片與動作在內的輸入資料來生成影片。這些模型可透過學習從感測資料中表示與預測動態,例如運動、力量與空間關係,來理解現實世界環境的物理特性。
基礎模型是以大量未標記資料集訓練的 AI 神經網路,能根據輸入資料生成新的資料。由於其廣泛的泛化能力,它們能大幅加速各類生成式 AI 應用的開發。開發人員可以在較小的、特定任務的資料集上微調這些預訓練模型,以打造自訂的領域專用模型。
開發人員能利用基礎模型的強大能力,為工業與機器人應用(如工廠機器人、倉儲自動化、自駕車在高速公路或惡劣地形上的運作)生成優質的訓練資料。物理 AI 系統需要大規模、在視覺、空間與物理上準確的資料,才能透過寫實模擬進行學習。世界基礎模型能高效且大規模地生成這些資料。
世界基礎模型可以有不同類型:
當世界模型與 3D 模擬器結合使用時,可作為虛擬環境,用來安全地簡化與擴展自主機器的訓練流程。透過生成、策劃與編碼影片資料,開發人員能更有效地訓練自主機器感知、理解與互動於動態環境中。
WFMs 在自駕車 (AV) 開發流程的每一階段,皆可帶來重大益處。透過預先標註與編碼的影片資料,開發人員能更準確地訓練 AV 系統辨識車輛、行人與其他物體的行為。此外,這些模型還能產生多樣化的訓練情境,如不同的交通流量、路面狀況、天氣與光線條件,藉此補足訓練資料的不足並擴大測試涵蓋範圍。WFMs 也能根據文字與影像輸入生成預測性影片模擬,加快虛擬訓練與測試流程。
WFMs 可生成高度擬真的合成資料與可預測的世界狀態,有助於機器人建立空間理解能力。藉由整合實體模擬器的虛擬模擬環境,這些模型能讓機器人安全且高效地進行任務演練,透過快速反覆的測試與訓練加快學習進程。透過多樣化資料與經驗的學習,WFMs 也讓機器人在面對新情境時具備更高的適應能力。
經過改良的世界模型更進一步提升規劃能力,能模擬物體互動、預測人類行為,並引導機器人精準達成任務目標。這些模型也能透過執行多次模擬與學習回饋,強化決策能力。透過虛擬模擬,開發人員可大幅降低實地測試所需的時間、成本與風險。
打造用於物理 AI 系統(如自駕車)的世界模型,是一項高資源且耗時的工程。首先,需要在世界各地不同地形與環境中實際行駛以蒐集資料,這涉及數 PB 的資料量與數百萬小時的模擬影片。接著,這些資料需經過嚴格的過濾與準備工作,往往需仰賴大量人工投入。最後,訓練如此龐大的模型,需要大量 GPU 運算資源和高額成本。
WFMs 的核心目標,是捕捉世界的結構與運作邏輯,進而賦予模型更強大的推理與規劃能力。這些神經網路模型透過龐大的高品質現實資料訓練而成,具備視覺、空間與物理理解,能作為專為物理 AI 系統設計的合成資料生成器。
WFMs 讓開發人員能將生成式 AI 的能力從平面的軟體世界推展到真實世界,同時降低對實地測試的依賴。雖然 AI 的應用過去多侷限於數位領域,但世界模型正開啟將 AI 帶入現實場域的全新可能。
透過理解物體的運動方式與互動原則,世界模型能產出更加真實且物理上準確的視覺內容。這類模型能按需求生成逼真的 3D 世界,應用於遊戲、互動體驗等多種場景。在某些情況下,這些高準確度模型產出的結果可作為合成資料,用於訓練感知型 AI。
目前的 AI 影片生成技術在處理複雜場景時仍有困難,且對因果關係的理解有限。然而,當世界模型搭配 3D 模擬平台與軟體使用時,正展現出在視覺情境中對因果關係有更深層理解的潛力,例如模擬畫家在畫布上揮灑筆觸的過程。
WFMs 協助物理 AI 系統學習、適應並做出更佳決策,方式是模擬現實行動並預測其結果。它們讓系統能「想像」不同情境、測試各種行動,並從虛擬回饋中學習——就如同自駕車在模擬器中練習如何應對突發障礙或惡劣天氣。透過預測可能的結果,自主機器便能更聰明地規劃行動,無需大量實地測試,從而節省時間並降低風險。
當世界模型與大型語言模型 (LLMs) 結合時,可協助 AI 理解自然語言指令並更有效地互動。例如,送貨機器人能理解「找到最快路線」這類語音指令,並模擬不同路徑以判斷最佳選擇。
這種預測型智慧技術讓物理 AI 模型更高效、具適應力且更安全,協助機器人、自駕車與工業機具在複雜的現實環境中更智慧地運作。
策略學習是透過探索不同策略,來找出最佳行動的過程。策略模型能協助系統(如機器人),根據目前的狀態與整體環境狀況決定最佳行動。它能將系統的狀態(如位置)與行動(如移動)建立連結,以實現目標或提升效能。策略模型可以透過微調其他模型來取得。在強化學習中,策略模型是常見工具,透過互動與回饋不斷學習與最佳化。
使用具推理能力的 WFM 來篩選並評估合成資料,可快速提升資料的品質與相關性。
世界模型能探索多種策略,並對最有效的結果給予獎勵。透過加入獎勵模組來執行模擬與建構資源使用的成本模型,可提升實際任務中的效能與效率。
世界模型需要大量的現實世界資料,特別是影片與圖像,來學習 3D 環境中的動態行為。擁有數十億參數的神經網路會分析這些資料,建立並持續更新一個「隱藏狀態」或內部環境表示。這讓機器人能理解並預測環境變化,例如從影片中感知動態與深度、預測隱藏物體,以及為可能發生的事件做好反應準備。透過深度學習不斷優化的隱藏狀態,使世界模型能適應新的情境。
以下是建置世界模型的一些關鍵要素:
資料策劃是預訓練與持續訓練世界模型的重要步驟,尤其是在處理大規模多模態資料時。這個過程包含圖像與影片資料的篩選、標註、分類與去重,確保在訓練或微調高精度模型時使用高品質資料。
在影片處理中,資料策劃首先將影片分段並進行轉碼,然後進行品質篩選,以保留高品質片段。最先進的視覺語言模型用來標註影片中的關鍵物體與動作,而影片嵌入則協助語意去重,移除重複資料。
接著,資料會加以整理與清理,準備進入訓練階段。在整個流程中,高效的資料調度可確保 GPU 間的大規模資料流通順暢,提升整體處理效率與傳輸量。
分詞將高維度的視覺資料轉換為稱為「詞元」的小單位,便於機器學習處理。分詞器會將影像與影片中的像素冗餘轉化為緊湊且具有語意的詞元,從而提升大型生成模型的訓練效率,也讓模型在有限資源下能進行推論。主要分為兩種方法:
這些方法有助於加速模型的學習效率並提升效能。
基礎模型是以龐大未標記資料集訓練而成的 AI 神經網路,能執行各種生成任務。開發人員可以從零開始訓練模型架構,或使用額外資料,來微調預先訓練的基礎模型來處理下游任務。
世界基礎模型 (WFMs) 作為通用模型,可訓練於大量視覺資料,以模擬物理環境。透過微調架構,這些模型可進一步專業化,用於機器人、自主系統及其他物理 AI 領域的精準應用。針對模型微調有多種方法:
為了簡化入門流程與加速開發,全方位的訓練架構提供了資料準備、模型訓練、最佳化、效能評估與部署等所需的函式庫、SDK 與工具。
推理模型通常是透過微調預先訓練的大型語言模型或大型視覺語言模型來訓練。這些模型也可加以強化學習來進行分析與推理,進而做出判斷。
強化學習 (RL) 是一種機器學習方法,AI 代理程式會與環境互動,並根據行動獲得獎勵或懲罰。透過不斷嘗試與調整,代理程式會最佳化決策,達到最佳結果。
強化學習可讓 WFM 具備適應、規劃與判斷能力,對於需要進行複雜任務推理的機器人、自主系統與 AI 助理來說,是不可或缺的核心技術。
歡迎在此深入瞭解強化學習的資訊。