&

英偉達(dá)開源世界基礎(chǔ)模型人形機(jī)器人加速邁向“ChatGPT時(shí)刻”

原創(chuàng)

2025-01-08 15:50 星期三

科創(chuàng)板日?qǐng)?bào) 張真

①近日，英偉達(dá)發(fā)布物理AI大模型Cosmos，能夠預(yù)測(cè)倉(cāng)庫(kù)、路況等環(huán)境以訓(xùn)練機(jī)器人；
②據(jù)英偉達(dá)披露名單，Cosmos首批用戶包括1X、Agility、Figure AI、小鵬汽車等廠商；
③券商認(rèn)為，在人形機(jī)器人訓(xùn)練數(shù)據(jù)的收集方式中，合成數(shù)據(jù)將大大促進(jìn)機(jī)器人發(fā)展。

《科創(chuàng)板日?qǐng)?bào)》1月8日訊 被谷歌、OpenAI、微軟等全球頂尖科技大廠紛紛看好的具身智能，正加速迎來(lái)它的ChatGPT時(shí)刻。

近日，英偉達(dá)掌門人黃仁勛在CES演講上正式推出物理AI大模型Cosmos。據(jù)介紹，這款模型使開發(fā)者能夠根據(jù)文本、圖像和視頻等輸入組合以及機(jī)器人傳感器或運(yùn)動(dòng)數(shù)據(jù)生成基于物理學(xué)的視頻，實(shí)現(xiàn)對(duì)現(xiàn)實(shí)環(huán)境（如倉(cāng)庫(kù)、工廠、交通路況等）的預(yù)測(cè)，從而完成對(duì)機(jī)器人和自動(dòng)駕駛汽車的訓(xùn)練。

所謂物理AI大模型，即是世界基礎(chǔ)模型，其能夠理解世界語(yǔ)言、物理特性、空間位置等要素，并合成相關(guān)物理數(shù)據(jù)。是加速智能汽車、具身智能等AI終端普及的關(guān)鍵所在。相較于ChatGPT等大語(yǔ)言模型的飛躍式進(jìn)程，世界模型仍處于較為早期的階段。其普遍面臨開發(fā)成本高、無(wú)法持續(xù)遵守物理規(guī)則等問(wèn)題。

值得一提的是，此次英偉達(dá)發(fā)布的Cosmos將以開源的形式發(fā)布。根據(jù)其披露的名單，首批用戶包括1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot,、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鵬汽車等十余個(gè)國(guó)內(nèi)外機(jī)器人和汽車廠商。

事實(shí)上，英偉達(dá)采用逼真物理環(huán)境對(duì)機(jī)器人進(jìn)行訓(xùn)練的嘗試可以追溯至2024年6月，當(dāng)時(shí)其運(yùn)用仿真框架RoboCasa，提供了超過(guò)150個(gè)物體類別的數(shù)千個(gè)3D模型和數(shù)十種可交互的家具和家電。在相關(guān)實(shí)驗(yàn)中，證明了合成物理數(shù)據(jù)在機(jī)器人訓(xùn)練中的有效性。

黃仁勛表示，“世界基礎(chǔ)模型是推動(dòng)機(jī)器人和自動(dòng)駕駛汽車開發(fā)的基礎(chǔ)，但并非所有開發(fā)者都擁有自主訓(xùn)練模型所需的專業(yè)知識(shí)和資源。我們創(chuàng)建Cosmos是為了普及物理AI，讓每一位開發(fā)者都能接觸到通用機(jī)器人技術(shù)?！?/p>

截至目前，已有數(shù)個(gè)公司推出世界基礎(chǔ)模型。2024年12月5日，谷歌發(fā)布大型基礎(chǔ)世界模型Genie2，可生成較為逼真的3D世界；同年9月，1XTechnologies發(fā)布人形機(jī)器人世界模型，可以模擬出機(jī)器人在不同動(dòng)作下的未來(lái)場(chǎng)景。

此外，視頻生成模型也被視作通往世界基礎(chǔ)模型的路徑之一。在視頻生成領(lǐng)域，Sora、Runway等均表達(dá)了希望進(jìn)軍世界模型的想法。開源證券指出，視頻生成和世界模型均有諸多相似之處，均將復(fù)雜外部世界獲取的數(shù)據(jù)進(jìn)行編碼和壓縮、抽象成為低維度的向量，并采用Transformer或者其他模型在時(shí)空維度學(xué)習(xí)這些知識(shí)進(jìn)而實(shí)現(xiàn)預(yù)測(cè)。

華泰證券今日研報(bào)指出，受到文本大模型的啟發(fā)，人形機(jī)器人也開始構(gòu)建具身大模型，首當(dāng)其沖的便是解決數(shù)據(jù)問(wèn)題。自動(dòng)駕駛可簡(jiǎn)化為3D空間中的2D運(yùn)動(dòng)，而機(jī)器人是3D空間中的3D運(yùn)動(dòng)，還需包括力觸覺(jué)等信息，因此理論上機(jī)器人所需數(shù)據(jù)量高于自動(dòng)駕駛。目前，人形機(jī)器人訓(xùn)練數(shù)據(jù)的收集主要依賴三種方式：