What if…將屋企變成 3D 搬入ChatGPT?

AI 大型語言模型(Large Language Model,LLM)如 ChatGPT 的發展一日千里,不論是運算、寫文、製圖等等統統做到;但 AI 如何與我們身處的現實世界連結呢?一群美國和中國大陸的研究人員提出,將真實世界以 3D 形式輸入 AI,訓練出一系列全新的 3D 大型語言模型,並暫名為 3D-LLM。

研究團隊指,3D-LLM 可以利用點雲(Point Cloud)還原真實世界的 3D 面貌,並執行多項 3D 任務,例如導航、定位、問答、描述、執行指令等等。例如,3D-LLM 可以協助在屋內找出梳化;也可以透過語句指令,協助用家開啟指定房間中的燈。團隊首先從不同角度的 2D 圖像中抽取 3D 特徵,然後利用現有的 2D 圖像語言模型去訓練 3D-LLM,再透過自行設計的 3D 本地化機制收集空間資訊。

導航:AI 怎樣逐步在屋裡不同房間找到梳化。
定位和回答問題

團隊認為,現有的大型語言模型未能深入理解與 3D 世界相關的抽象概念,例如空間、物件功能、物理現象、物件佈局等等,而 3D-LLM 可收集 300 萬組 3D 數據,執行更多 3D 任務,在 ScanQA 3D 問答測試表現中亦比其他 3D 模型優勝。然而,團隊指出目前為止所有 3D 模型需要先轉成 2D 圖像,才可交由 3D-LLM 抽取 3D 特徵,令工序增加。

來源:研究網站研究論文

Scroll to Top