OpenAI có thể sắp ra mắt công cụ AI điều khiển máy tính

Đăng bởi: Ngày: 23/01/2025

OpenAI có thể đang trong quá trình hoàn thiện một công cụ AI mới có khả năng điều khiển máy tính của bạn và thực hiện các hành động thay mặt bạn. Tibor Blaho, một kỹ sư phần mềm nổi tiếng với khả năng dự đoán chính xác các sản phẩm AI sắp ra mắt, gần đây đã công bố bằng chứng về công cụ ‘Operator’ mà OpenAI đã đồn thổi từ lâu. Trước đây, các tạp chí như Bloomberg cũng đã đưa tin về ‘Operator’, được cho là hệ thống ‘agentic’ có khả năng tự động đảm nhận các tác vụ như viết mã và đặt vé du lịch. Theo thông tin từ The Information, OpenAI đang nhắm đến tháng Một như thời điểm ra mắt cho công cụ này. Các đoạn mã bị rò rỉ mà Blaho phát hiện vào cuối tuần qua càng củng cố thêm thông tin này.

Theo Blaho, ứng dụng ChatGPT dành cho macOS của OpenAI đã có những tùy chọn ẩn để định nghĩa các phím tắt cho ‘Toggle Operator’ và ‘Force Quit Operator’. Đồng thời, OpenAI cũng đã thêm các thông tin tham chiếu đến ‘Operator’ trên trang web của họ – mặc dù những thông tin này vẫn chưa được công khai. Theo Blaho, trang web của OpenAI còn chứa bảng so sánh hiệu suất của ‘Operator’ với các hệ thống AI khác đang được sử dụng trên máy tính, nhưng các bảng này dường như vẫn đang trong giai đoạn thử nghiệm. Nếu các số liệu trong bảng này chính xác, có thể thấy rằng ‘Operator’ không hoàn toàn đáng tin cậy, tùy thuộc vào từng nhiệm vụ cụ thể.

Trong một bài kiểm tra trên OSWorld, một nền tảng benchmark giả lập môi trường máy tính thực tế, mô hình ‘OpenAI Computer Use Agent (CUA)’ – có thể là mô hình AI nguồn cung cấp cho ‘Operator’ – chỉ đạt đúng 38.1%, đứng trên mô hình điều khiển máy tính của Anthropic nhưng vẫn kém xa 72.4% hiệu suất mà con người có thể đạt được. Mô hình OpenAI CUA đã vượt qua điểm số của con người trong bài kiểm tra WebVoyager, đánh giá khả năng của AI trong việc duyệt web và tương tác với các trang mạng. Tuy nhiên, mô hình này không đạt điểm số tương đương với con người trong bài báo WebArena, theo các số liệu bị rò rỉ.

‘Operator’ dường như cũng gặp khó khăn với những nhiệm vụ mà con người có thể thực hiện dễ dàng. Trong một bài kiểm tra yêu cầu ‘Operator’ đăng ký sử dụng dịch vụ đám mây và khởi động một máy ảo, tỷ lệ thành công chỉ đạt 60%. Khi được giao nhiệm vụ tạo ví tiền điện tử Bitcoin, tỷ lệ thành công thậm chí chỉ đạt 10%. Chúng tôi đã liên hệ với OpenAI để xin ý kiến và sẽ cập nhật thông tin này nếu nhận được hồi âm.

Sự xuất hiện gần gũi của OpenAI trong lĩnh vực AI agent diễn ra trong bối cảnh các đối thủ cạnh tranh như Anthropic, Google và nhiều công ty khác đang dành sự chú ý cho thị trường mới mẻ này. Mặc dù các tác vụ AI agent vẫn còn nhiều rủi ro và chưa ổn định, nhưng các ông lớn công nghệ đã bắt đầu coi đây là lĩnh vực tiềm năng nhất trong dịch vụ AI. Theo một công ty phân tích, thị trường cho AI agent có thể đạt 47.1 tỷ USD vào năm 2030.

Các agent hiện đang ở giai đoạn khá nguyên thủy. Tuy nhiên, một số chuyên gia đã bày tỏ lo ngại về độ an toàn của chúng, nếu công nghệ này phát triển nhanh chóng. Một trong những biểu đồ bị rò rỉ cho thấy ‘Operator’ thực hiện tốt trong các bài đánh giá an toàn được lựa chọn, bao gồm những bài thử nghiệm cố gắng khiến hệ thống thực hiện các hoạt động “không hợp pháp” và tìm kiếm “dữ liệu nhạy cảm”. Theo thông tin từ rò rỉ, việc thử nghiệm an toàn là một trong những lý do khiến ‘Operator’ mất nhiều thời gian để phát triển. Trong một bài đăng gần đây trên mạng xã hội X, Wojciech Zaremba, đồng sáng lập OpenAI, đã chỉ trích Anthropic vì đã phát hành một agent mà ông cho là thiếu các biện pháp an toàn cần thiết.

“Chỉ cần tưởng tượng đến những phản ứng tiêu cực nếu OpenAI thực hiện phát hành tương tự,” Zaremba viết.

Điều đáng lưu ý là OpenAI đã bị chỉ trích bởi các nhà nghiên cứu AI, bao gồm cả những nhân viên cũ, vì cho rằng họ đã hạ thấp công việc liên quan đến an toàn để tập trung vào việc đưa sản phẩm ra thị trường một cách nhanh chóng. Với tất cả những thông tin và số liệu trên, có thể thấy được sự kỳ vọng từ cộng đồng công nghệ dành cho việc phát hành ‘Operator’ của OpenAI trong thời gian tới và những tác động mà nó có thể mang lại cho tương lai gần của lĩnh vực AI agent.