Trong bối cảnh các bài kiểm tra AI truyền thống thường chỉ dừng lại ở khả năng ghi nhớ máy móc hoặc các chủ đề không thực sự phù hợp với người dùng, nhiều người đam mê AI đã lựa chọn trò chơi làm phương tiện kiểm tra khả năng giải quyết vấn đề của các mô hình AI. Paul Calcraft, một lập trình viên tự do về AI, đã phát triển một ứng dụng cho phép hai mô hình AI chơi trò chơi giống như Pictionary với nhau. Một mô hình vẽ nguệch ngoạc, trong khi mô hình kia cố gắng đoán xem hình vẽ đó thể hiện điều gì.
“Ý tưởng này nghe có vẻ thú vị và có tiềm năng khám phá năng lực của mô hình từ một góc độ khác,” Calcraft chia sẻ với TechCrunch trong một cuộc phỏng vấn. Anh đã hoàn thành phát triển ứng dụng này sau một buổi chiều thứ Bảy mưa. Cảm hứng của Calcraft đến từ một dự án tương tự của lập trình viên người Anh Simon Willison, người từng cho mô hình AI vẽ một hình ảnh động về một chú bồ nông đang đi xe đạp.
Calcraft nhận định rằng các trò chơi như Pictionary hay Minecraft nằm trong danh mục các bài kiểm tra “không thể giả mạo”, những bài kiểm tra không bị đánh bại bởi việc học vẹt hoặc các mẫu đơn giản đã được lập trình từ trước. Mặt khác, Adonis Singh, một thiếu niên 16 tuổi, đã phát triển một công cụ mang tên mc-bench, thử thách mô hình AI với việc điều khiển nhân vật trong Minecraft để xây dựng các công trình, tương tự như Dự án Malmo của Microsoft.
Sử dụng trò chơi để kiểm tra chất lượng AI không phải là điều mới mẻ. Ý tưởng này đã tồn tại từ nhiều thập kỷ trước, khi nhà toán học Claude Shannon lập luận rằng các trò chơi như cờ vua là một thách thức đáng giá cho phần mềm thông minh. Nhưng điều khác biệt bây giờ là người ta đang nối các mô hình ngôn ngữ lớn với các trò chơi để kiểm tra khả năng logic của chúng.
Việc đo lường hiệu quả và sự ổn định của các mô hình ngôn ngữ lớn, như GPT-4o, Claude, hay Gemini thông qua trò chơi được xem như một cách tiếp cận mới mẻ và đầy hứa hẹn. Theo nhà nghiên cứu AI Matthew Guzdial tại Đại học Alberta, trò chơi cung cấp một cách trực quan và dễ hiểu hơn để so sánh cách một mô hình thực hiện và hoạt động.
Guzdial đã chỉ ra rằng trò chơi có thể được xem như những cách thức khác nhau để thực hiện quyết định với AI, và tạo thêm phong phú cho các loại tình huống đơn giản hóa từ thực tế.
Trong khi đó, Calcraft cho rằng trò chơi Pictionary có thể đánh giá khả năng của mô hình AI trong việc hiểu các khái niệm như hình dạng, màu sắc và các giới từ. “Tuy không phải là một bài kiểm tra lý luận hoàn hảo, nhưng chiến thắng trò chơi đòi hỏi chiến lược và khả năng hiểu các gợi ý — đó là thử thách không hề dễ dàng với các mô hình AI,” anh nói.
Có vẻ như việc sử dụng trò chơi để đo lường AI có thể chỉ là bước khởi đầu nhỏ trong hành trình phát triển AI với khả năng hiểu biết không gian và tích hợp đa chiều. Dù vậy, vẫn cần thận trọng khi coi đây là công cụ đo lường chính thức trong bối cảnh AI tiếp tục tiến hóa không ngừng.