Thí nghiệm với super Mario cho thấy AI gặp thách thức lớn

Đăng bởi: Linh Nguyễn • Ngày: 04/03/2025

Một nhóm nghiên cứu tại Đại học California San Diego đang thử nghiệm khả năng của các mô hình AI khi chơi trò Super Mario Bros. Cụ thể, phòng thí nghiệm Hao AI đã triển khai các mô hình AI vào game này và nhận thấy Claude 3.7 của Anthropic tỏ ra xuất sắc hơn cả, vượt xa các đối thủ như Claude 3.5, Gemini 1.5 Pro của Google và GPT-4o của OpenAI.

Trò chơi này không hoàn toàn giống với bản gốc phát hành năm 1985 mà được chạy trên một trình giả lập và tích hợp với một framework mang tên GamingAgent. Thông qua GamingAgent, AI được đưa ra những hướng dẫn cơ bản để điều khiển Mario, ví dụ như “nếu có kẻ thù hoặc chướng ngại vật gần, hãy lùi hoặc nhảy để né tránh”, kèm theo hình ảnh trong game. AI sẽ tạo ra các đầu vào bằng mã Python để điều khiển Mario thi đấu.

Thậm chí, nghiên cứu chỉ ra rằng trò chơi này làm cho mỗi mô hình phải học cách lập kế hoạch những hành động phức tạp và phát triển chiến lược chơi. Đặc biệt, các mô hình suy luận như o1 của OpenAI lại có hiệu suất kém hơn so với các mô hình không suy luận, mặc dù chúng thường mạnh hơn trên nhiều bài kiểm tra khác.

Lý do chính khiến mô hình suy luận gặp khó khăn là do chúng cần thời gian để quyết định hành động, điều này không phù hợp với các trò chơi thời gian thực như Super Mario Bros, nơi mà thời gian là yếu tố then chốt. Chỉ một giây có thể làm nên sự khác biệt giữa việc nhảy an toàn qua một kẻ thù và kế đến là một cú rơi thảm hại.

Kể từ lâu, các trò chơi đã được dùng như thước đo khả năng AI. Tuy nhiên, một số chuyên gia đã bắt đầu đặt câu hỏi về sự hợp lý trong việc sử dụng kỹ năng chơi game của AI như một cách để đánh giá sự tiến bộ công nghệ. Các trò chơi thường trừu tượng và đơn giản hơn so với thế giới thực, đồng thời cung cấp một lượng dữ liệu vô hạn để huấn luyện AI.

Nhiều thử nghiệm gần đây với các trò chơi nổi bật chỉ ra một vấn đề lớn trong việc đánh giá khả năng AI. Andrej Karpathy, một nhà nghiên cứu tại OpenAI, cho biết: “Tôi không thực sự biết mình nên chú ý vào những chỉ số nào.” Theo ông, đánh giá khả năng của các mô hình AI hiện tại rất cần sự phân tích rõ ràng hơn trước khi có thể khẳng định được điều gì về khả năng của chúng. Dù vậy, ít nhất chúng ta vẫn có thể theo dõi AI chơi Super Mario như một màn biểu diễn thú vị.