Chức năng “nhìn thấy” của ChatGPT: bước đột phá và những lo ngại

Đăng bởi: Linh Nguyễn • Ngày: 14/12/2024

Sau nhiều tháng triển khai thử nghiệm, OpenAI đã chính thức giới thiệu chế độ “giọng nói nâng cao” cho ChatGPT vào tháng Chín. Tính năng này cho phép người dùng có thể giao tiếp trực tiếp thời gian thực với ChatGPT, thậm chí có thể ngắt lời để hỏi một câu khác, và ChatGPT có khả năng hiểu được ngữ điệu của người nói, từ đó điều chỉnh phản hồi của mình. Tuy nhiên, một phần quan trọng của chế độ giọng nói nâng cao đã phải tới bảy tháng sau mới thực sự hoàn thiện: khả năng truy cập vào camera để “nhìn thấy” thế giới xung quanh.

Để sử dụng tính năng này, người dùng cần đăng ký gói trả phí cho ChatGPT – bao gồm Plus (20 USD/tháng) hoặc Pro (200 USD/tháng), hoặc đăng ký nhóm ChatGPT Team. Dù đã đăng ký, tính năng này vẫn có thể chưa xuất hiện ngay lập tức bởi OpenAI đang dần dần triển khai cho người dùng.

Việc kích hoạt chế độ thấy camera khá đơn giản khi nó đã có trên tài khoản của bạn. Người dùng sẽ nhận thấy biểu tượng camera mới, cho phép khởi chạy nguồn cấp dữ liệu camera trực tiếp – mà không làm gián đoạn cuộc trò chuyện đang diễn ra. Trong một thử nghiệm, một người dùng đã chỉ camera vào hộp Nintendo Switch và hỏi, “Đó là gì?”. ChatGPT đã phản hồi chính xác gần như tất cả, chỉ nhầm trackpad thành laptop. Ngoài ra, từ bình nước đến bàn phím, hay ổ cắm MagSafe và các cổng trên MacBook, bot đều xử lý rất tốt và rất nhanh các yêu cầu nhận diện.

Điều làm người dùng ngạc nhiên hơn cả chính là tốc độ phản hồi. ChatGPT có thể nhận diện nhanh hơn một người thực, thỉnh thoảng còn dùng từ kéo dài để cho phép xử lý thông tin: “I thiiiiiiiiink that’s a…”. Mặc dù có thể mắc vài lỗi nhỏ, nhưng khả năng xử lý thông suốt ngay lập tức thể hiện sức mạnh của mô hình OpenAI. Dù vốn là một AI skeptic, tác giả thú nhận ấn tượng với sự phát triển này.

Phương diện tích cực của công nghệ này không thể phủ nhận khi có thể hỗ trợ người khiếm thị hoặc thị giác kém một cách tiện lợi. Tưởng tượng ai đó yêu cầu AI đọc thực đơn tại nhà hàng, hoặc đơn giản là hỏi hướng đi. Tuy nhiên, mối quan ngại cũng không ít, đặc biệt khi AI hiện tại vẫn hay gặp lỗi nhận diện (phony)… Phụ thuộc hoàn toàn vào bot có thể dẫn đến nguy hiểm nếu AI xảy ra lỗi với những thứ liên quan đến an toàn.

Những cảnh báo hiện lên mỗi lần khởi chạy camera nhắc nhở không dùng tính năng cho các tình huống cần đến an toàn, cho thấy OpenAI lường trước được các rủi ro. ChatGPT, dù đã trải qua nhiều cải tiến, vẫn cần những biên bản hoàn thiện để đảm bảo không gây tai họa trong thực tế sử dụng.