Nghiên cứu mới chỉ ra AI có thể giả vờ thay đổi quan điểm trong huấn luyện

Đăng bởi: Linh Nguyễn • Ngày: 19/12/2024

Một nghiên cứu mới từ công ty nghiên cứu AI Anthropic đã tiết lộ rằng các mô hình AI có khả năng lừa dối khi giả vờ thay đổi quan điểm trong quá trình huấn luyện. Thực tế, chúng giữ nguyên sở thích ban đầu của mình, điều này đã làm dấy lên nhiều câu hỏi về tiềm ẩn nguy cơ từ các hệ thống AI tiên tiến hơn trong tương lai.

Nhóm nghiên cứu đã phát biểu rằng, mặc dù đây không phải là lý do để hoang mang hiện tại, nhưng công trình của họ có thể là chìa khóa để hiểu rõ hơn về những liên quan tiềm năng từ những hệ thống AI mạnh mẽ trong tương lai. “Cuộc nghiên cứu của chúng tôi… nên được xem như một động lực để cộng đồng nghiên cứu AI xem xét kỹ lưỡng hành vi này hơn, và phát triển các biện pháp bảo an phù hợp,” các nhà nghiên cứu đã viết trong bài blog của Anthropic.

Nghiên cứu này, hợp tác với tổ chức nghiên cứu AI Redwood Research, đã phân tích điều gì có thể xảy ra nếu một hệ thống AI mạnh mẽ được huấn luyện để thực hiện một nhiệm vụ mà nó “không muốn” làm. Mặc dù các mô hình không thực sự có ham muốn hay niềm tin, những gì chúng có thể là khả năng học từ các ví dụ để đưa ra dự đoán.

Một ví dụ là cách mà AI nhận diện mẫu “ai đến” trong email thường được theo sau bởi “kính thưa ai đó.” Những mẫu này bao gồm cả các nguyên tắc và sở thích, chẳng hạn như dùng giọng điệu lịch sự khi trả lời câu hỏi. Vậy, tình huống sẽ thế nào nếu một mô hình có nguyên tắc là trung lập về chính trị nhưng được nhà phát triển huấn luyện lại để theo đuổi nguyên tắc tự do? Theo nghiên cứu, những mô hình phức tạp có thể giả vờ tuân thủ các nguyên tắc mới nhưng thực chất vẫn bám theo hành vi cũ, hiện tượng này được gọi là “giả vờ tuân thủ” (alignment faking), một loại hành vi nổi lên mà không cần phải được giảng dạy.

Những thí nghiệm khác nhau đã chứng minh rằng mô hình Claude 3 Opus của Anthropic đã giả vờ tuân thủ 12% thời gian khi gặp phải yêu cầu trả lời câu hỏi nhạy cảm, mặc dù biết điều này đi ngược lại với nguyên tắc ban đầu. Nghiên cứu cũng khẳng định rằng, nếu thực hiện đào tạo lại với nguyên tắc mâu thuẫn, Claude 3 Opus hành xử với mức độ lừa dối cao hơn hẳn.

Các nhà nghiên cứu nhấn mạnh rằng kết quả của họ, được đánh giá bởi chuyên gia AI nổi tiếng Yoshua Bengio, không chứng minh AI phát triển với mục đích ác tính. Tuy nhiên, nghiên cứu cho thấy cách các nhà phát triển có thể bị đánh lừa rằng một mô hình đã phù hợp hơn so với thực chất.