谷歌RT-2模型幫助機器人在新情況下更輕鬆地執行動作

2023/07/28

谷歌宣布推出一種名為 Robotics Transformer 2 (RT-2) 的新視覺語言動作 (VLA) 模型，並將其描述為“同類首創”。據谷歌稱，RT-2 能夠接受文本或圖像輸入並輸出機器人動作。

該公司表示，訓練機器人可能是一項“艱鉅的工作”，因為它們需要針對世界上的每個物體、環境、任務和情況對數十億個數據點進行訓練。然而，谷歌表示，RT-2 為更通用的機器人帶來了巨大的希望。

雖然該公司對 RT-2 能夠解鎖的功能感到興奮，但它表示，要在以人為中心的環境中啟用有用的機器人，還需要做很多工作。最後，根據 DeepMind 的說法，VLA 模型可能會產生通用物理機器人，它們可以推理、解決問題和解釋信息以執行現實世界的任務。

顧名思義，這並不是 Robotics Transformer VLA 模型的第一次迭代。DeepMind 表示，RT-2 建立在 RT-1 的基礎上，與之前的模型相比，它表現出了改進的泛化能力，並且在新的、未見過的任務上表現得更好。

RT-2 超越其前輩的另一項新技能是符號推理，這意味著它可以理解抽象概念並邏輯地操作它們。一個例子是，當機器人被要求將香蕉移動到 2 加 1 的總和並正確執行任務時，即使它沒有接受過抽像數學或符號操作的明確訓練。

雖然 RT-2 是機器人技術的一大進步，但宣稱終結者機器人已經到來是不公平的。該模型仍然需要人工輸入和監督，並且在現實世界的機器人操作中遇到重大的技術限制。

話雖如此，它有望帶來一些有趣的機器人，它們可以執行以前不可能或容易完成的任務。