Vượt qua rào cản dữ liệu thực
Trước đây, việc huấn luyện robot để tương tác với thế giới thực phụ thuộc vào hàng trăm nghìn giờ thao tác thủ công do con người thực hiện. Ví dụ, dự án DROID thu thập 76.000 quỹ đạo điều khiển từ xa, tương đương 350 giờ công sức; trong khi Google DeepMind RT-1 cần tới 130.000 tập dữ liệu trong 17 tháng. Cách tiếp cận này khiến chi phí nghiên cứu tăng cao và chỉ khả thi với các phòng thí nghiệm công nghiệp lớn.
Ali Farhadi, CEO của Ai2, nhấn mạnh: “Sứ mệnh của chúng tôi là xây dựng AI thúc đẩy khoa học và mở rộng khả năng khám phá của nhân loại. Để đạt được điều đó, chúng ta cần những hệ thống có khả năng tổng quát hóa trong thế giới thực và công cụ mà cộng đồng nghiên cứu toàn cầu có thể cùng nhau phát triển.”
MolmoBot: Dữ liệu ảo thay thế thao tác thủ công
MolmoBot được huấn luyện trên MolmoBot-Data, bộ dữ liệu gồm 1,8 triệu quỹ đạo thao tác chuyên gia, được tạo ra bằng công cụ vật lý MuJoCo kết hợp kỹ thuật “domain randomisation” – thay đổi đối tượng, góc nhìn, ánh sáng và động lực học để tăng tính đa dạng. Nhờ đó, nhóm nghiên cứu không cần đến dữ liệu thực tế tốn kém.
Ranjay Krishna, Giám đốc nhóm PRIOR tại Ai2, cho biết: “Thay vì bổ sung thêm dữ liệu thực, chúng tôi mở rộng mạnh mẽ sự đa dạng của môi trường mô phỏng. Khi thế giới ảo đủ phong phú, khoảng cách giữa mô phỏng và thực tế sẽ thu hẹp.”
Hiệu quả vượt trội
Hệ thống sử dụng 100 GPU Nvidia A100, tạo ra khoảng 1.024 tập dữ liệu mỗi giờ GPU – tương đương hơn 130 giờ trải nghiệm robot chỉ trong một giờ thực tế. Đây là tốc độ nhanh gấp bốn lần so với thu thập dữ liệu ngoài đời, giúp rút ngắn chu kỳ triển khai và giảm chi phí.
MolmoBot được thử nghiệm trên hai nền tảng: robot di động RB-Y1 của Rainbow Robotics và cánh tay bàn FR3 của Franka. Kết quả cho thấy khả năng zero-shot transfer – thực hiện nhiệm vụ với đối tượng và môi trường chưa từng thấy mà không cần tinh chỉnh thêm. Trong bài kiểm tra “pick-and-place” trên bàn, MolmoBot đạt tỷ lệ thành công 79,2%, vượt xa mô hình π0.5 vốn được huấn luyện bằng dữ liệu thực (39,2%).
Mở rộng cho cộng đồng
Bộ công cụ MolmoBot được phát hành mở, bao gồm dữ liệu huấn luyện, quy trình tạo dữ liệu và kiến trúc mô hình. Điều này cho phép các tổ chức kiểm toán, tùy chỉnh và tích hợp mà không bị phụ thuộc vào nhà cung cấp độc quyền.
Ali Farhadi khẳng định: “Tiến bộ của AI không thể dựa vào dữ liệu đóng kín hay hệ thống biệt lập. Nó cần hạ tầng chung để các nhà nghiên cứu toàn cầu cùng xây dựng, thử nghiệm và cải tiến.”
Với MolmoBot, Ai2 đang mở ra một hướng đi mới: thay vì phụ thuộc vào dữ liệu thực tốn kém, AI vật lý có thể được huấn luyện từ thế giới mô phỏng đa dạng, nhanh chóng và tiết kiệm hơn. Đây có thể là bước ngoặt giúp robot trở thành công cụ khoa học phổ quát trong tương lai.
