OpenAI điều chỉnh biện pháp an toàn đối phó với AI đối thủ có rủi ro cao

Đăng bởi: Linh Nguyễn • Ngày: 16/04/2025

OpenAI đã cập nhật Khung Đánh giá Sẵn sàng, một hệ thống nội bộ mà họ sử dụng để đánh giá độ an toàn của các mô hình AI và xác định các biện pháp bảo vệ cần thiết trong quá trình phát triển và triển khai. Trong bản cập nhật này, OpenAI tuyên bố rằng họ có thể “điều chỉnh” các yêu cầu an toàn của mình nếu một phòng thí nghiệm AI cạnh tranh phát hành một hệ thống “rủi ro cao” mà không có biện pháp bảo vệ tương tự.

Thay đổi này phản ánh áp lực cạnh tranh ngày càng tăng đối với các nhà phát triển AI thương mại trong việc triển khai các mô hình nhanh chóng. OpenAI đã từng bị cáo buộc giảm tiêu chuẩn an toàn để có thể phát hành nhanh hơn và không kịp cung cấp các báo cáo chi tiết về thử nghiệm an toàn của mình. Đội ngũ nhân viên từng làm việc tại OpenAI đã làm đơn kháng cáo trong vụ kiện của Elon Musk chống lại công ty, cho rằng OpenAI sẽ bị khuyến khích giảm bớt sự chú ý đến an toàn nếu kết thúc quy trình tái cấu trúc công ty.

OpenAI khẳng định rằng họ sẽ không điều chỉnh chính sách này một cách nhẹ nhàng và sẽ duy trì các biện pháp bảo vệ ở “mức độ bảo vệ cao hơn”. Họ cho biết, “Nếu một nhà phát triển AI tiên phong khác phát hành một hệ thống rủi ro cao mà không có các biện pháp bảo vệ tương tự, chúng tôi có thể điều chỉnh các yêu cầu của mình. Tuy nhiên, trước hết, chúng tôi sẽ xác nhận một cách nghiêm ngặt rằng bối cảnh rủi ro thực sự đã thay đổi, công khai thừa nhận rằng chúng tôi đang thực hiện điều chỉnh, đánh giá rằng điều chỉnh không làm gia tăng đáng kể tổng thể rủi ro gây thiệt hại nghiêm trọng, và vẫn giữ các biện pháp bảo vệ ở mức độ bảo vệ cao hơn.”

Khung Đánh giá Sẵn sàng đã được OpenAI làm rõ rằng hãng đang dựa nhiều vào các đánh giá tự động hơn để thúc đẩy quá trình phát triển sản phẩm. Họ cho biết, trong khi chưa từ bỏ hoàn toàn các thử nghiệm do con người thực hiện, họ đã xây dựng “một bộ công cụ đánh giá tự động ngày càng mở rộng” nhằm “đáp ứng với [một] tốc độ phát hành nhanh hơn”.

Tuy nhiên, một số báo cáo lại trái ngược với điều này. Theo báo Financial Times, OpenAI đã cung cấp cho các kiểm tra viên chưa đầy một tuần để kiểm tra an toàn cho một mô hình lớn sắp ra mắt – thời gian thực hiện bị rút ngắn hơn so với các đợt phát hành trước đó. Các nguồn tin của tờ báo cũng đã cáo buộc rằng nhiều thử nghiệm an toàn của OpenAI hiện đang được tiến hành trên các phiên bản cũ của mô hình thay vì các phiên bản được phát hành ra công chúng.

Mặc dù bị nghi ngờ về việc giảm thiểu cam kết an toàn, OpenAI đã phủ nhận rằng họ đang làm như vậy. Các thay đổi khác trong khung của OpenAI liên quan đến cách công ty phân loại các mô hình theo rủi ro, bao gồm các mô hình có thể che giấu khả năng của chúng, lẩn tránh các biện pháp bảo vệ, ngăn chặn việc tắt và thậm chí tự nhân bản. OpenAI cho biết họ sẽ giờ đây tập trung vào việc liệu các mô hình đáp ứng một trong hai ngưỡng “có khả năng cao” hoặc “có khả năng quan trọng”.

Định nghĩa của OpenAI về “có khả năng cao” là một mô hình có thể “tăng cường các con đường hiện có dẫn đến thiệt hại nghiêm trọng”. Còn “có khả năng quan trọng” là những mô hình “giới thiệu các con đường mới chưa từng có dẫn đến thiệt hại nghiêm trọng”, theo xác định của công ty.

Các hệ thống có khả năng cao phải có các biện pháp bảo vệ đủ để giảm thiểu rủi ro gây thiệt hại nghiêm trọng trước khi chúng được triển khai. Các hệ thống đạt năng lực quan trọng cũng yêu cầu các biện pháp bảo vệ đủ nhằm giảm thiểu rủi ro liên quan trong quá trình phát triển.

Những cập nhật này là những lần đầu tiên OpenAI thực hiện đối với Khung Đánh giá Sẵn sàng kể từ năm 2023.