谷歌RT-2模型幫助機器人在新情況下更輕鬆地執行動作
谷歌宣布推出一種名為 Robotics Transformer 2 (RT-2) 的新視覺語言動作 (VLA) 模型,並將其描述為“同類首創”。據谷歌稱,RT-2 能夠接受文本或圖像輸入並輸出機器人動作。
該公司表示,訓練機器人可能是一項“艱鉅的工作”,因為它們需要針對世界上的每個物體、環境、任務和情況對數十億個數據點進行訓練。然而,谷歌表示,RT-2 為更通用的機器人帶來了巨大的希望。
雖然該公司對 RT-2 能夠解鎖的功能感到興奮,但它表示,要在以人為中心的環境中啟用有用的機器人,還需要做很多工作。最後,根據 DeepMind 的說法,VLA 模型可能會產生通用物理機器人,它們可以推理、解決問題和解釋信息以執行現實世界的任務。
顧名思義,這並不是 Robotics Transformer VLA 模型的第一次迭代。DeepMind 表示,RT-2 建立在 RT-1 的基礎上,與之前的模型相比,它表現出了改進的泛化能力,並且在新的、未見過的任務上表現得更好。
RT-2 超越其前輩的另一項新技能是符號推理,這意味著它可以理解抽象概念並邏輯地操作它們。一個例子是,當機器人被要求將香蕉移動到 2 加 1 的總和並正確執行任務時,即使它沒有接受過抽像數學或符號操作的明確訓練。
雖然 RT-2 是機器人技術的一大進步,但宣稱終結者機器人已經到來是不公平的。該模型仍然需要人工輸入和監督,並且在現實世界的機器人操作中遇到重大的技術限制。
話雖如此,它有望帶來一些有趣的機器人,它們可以執行以前不可能或容易完成的任務。
發佈留言