OpenAI vừa công bố một dòng mô hình lý luận AI mới có tên gọi o3, được đánh giá là có tính tiến bộ vượt trội so với các mô hình trước đó như o1 hay bất kỳ mô hình nào khác mà công ty đã phát hành. Được cải thiện nhờ tăng cường khả năng tính toán trong giai đoạn thử nghiệm, mô hình o3 cũng áp dụng một phương pháp đào tạo mới gọi là “cân nhắc có định hướng” để đảm bảo rằng các mô hình AI này luôn tuân thủ các giá trị an toàn của nhà phát triển.
OpenAI đã nghiên cứu “cân nhắc có định hướng” để giữ cho các mô hình lý luận AI của mình luôn phù hợp với chính sách an toàn trong quá trình phát sinh kết quả sau khi người dùng gửi yêu cầu. Kết quả nghiên cứu cho thấy phương pháp này giúp tăng cường khả năng tuân thủ nguyên tắc an toàn của các mô hình, giảm thiểu các câu trả lời nguy hiểm trong khi vẫn giữ được khả năng trả lời các câu hỏi vô hại.
Dù AI phổ biến ngày càng rộng rãi và có sức mạnh lớn hơn, nghiên cứu an toàn AI cũng trở nên quan trọng, nhưng không kém phần gây tranh cãi. Các nhân vật như David Sacks, Elon Musk và Marc Andreessen cho rằng một số biện pháp an toàn AI có thể được xem như là “kiểm duyệt,” gieo thêm nhiều ý kiến trái chiều xung quanh quyết định an ninh AI này.
Mô hình o-series của OpenAI, mặc dù lấy cảm hứng từ cách con người suy nghĩ trước khi trả lời câu hỏi khó, không thực sự suy nghĩ như chúng ta. Tuy nhiên, cách sử dụng từ như “lý luận” và “cân nhắc” dễ dàng khiến người ta nghĩ rằng mô hình này có khả năng suy xét tựa như con người. Mô hình o1 và o3 nổi bật với khả năng dự đoán phần từ tiếp theo trong câu, giúp xử lý các nhiệm vụ viết và mã hóa phức tạp.
Điểm đặc biệt của phương pháp “cân nhắc có định hướng” là việc OpenAI đã đào tạo các mô hình o1 và o3 tự động điều chỉnh nội dung tính đến chính sách an toàn trong giai đoạn xử lý. Điều này khiến các mô hình o-series phù hợp hơn với chính sách công ty nhưng vẫn còn gặp khó khăn trong việc duy trì độ trễ thời gian trong quá trình triển khai.
Theo nguyên tắc này, hệ thống AI sẽ “cân nhắc” cách trả lời an toàn, giống như việc mô hình o1 và o3 phân tích các yêu cầu bình thường thành những bước nhỏ hơn. Một ví dụ từ nghiên cứu của OpenAI là khi AI được yêu cầu tạo ra bằng chứng xe người khuyết tật giả, mô hình sẽ xác định yêu cầu này là không chính đáng và từ chối đáp ứng.
Mặc dù phương pháp “cân nhắc có định hướng” chủ yếu diễn ra trong giai đoạn đưa ra kết quả, OpenAI cũng áp dụng một loạt phương pháp mới trong giai đoạn sau đào tạo, chủ yếu là học có giám sát và học tăng cường để đánh giá các câu trả lời mà o1 và o3 đưa ra. Thay vì sử dụng dữ liệu do con người tạo ra, OpenAI đã thành công trong việc sử dụng dữ liệu tổng hợp để tiết kiệm thời gian và chi phí tính toán đối với mô hình này.
Hiện tại, mô hình o3 chưa được phát hành ra công chúng, và chúng ta sẽ phải chờ đến năm 2025 để xem thực sự nó an toàn và tiên tiến đến mức nào. Nhưng OpenAI kỳ vọng phương pháp này sẽ giúp các mô hình AI ngày càng gắn bó với các giá trị nhân văn trong tương lai, nhất là khi chúng ngày càng mạnh mẽ hơn. Chính vì vậy, công ty cho rằng đây sẽ là một bước tiến quan trọng trong việc đảm bảo an toàn cho các mô hình AI lý luận.