Các nhà nghiên cứu an ninh mạng vừa tiết lộ một kỹ thuật jailbreak mới có khả năng phá vỡ hàng rào an toàn của các mô hình ngôn ngữ lớn (LLM), tạo ra các phản hồi có thể gây hại hay ác ý. Chiến lược tấn công đa lần, còn gọi là “many-shot,” đã được đặt tên mã là “Bad Likert Judge” bởi nhóm nghiên cứu từ Palo Alto Networks Unit 42, gồm Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao và Danny Tsechansky.
Kỹ thuật này yêu cầu LLM mục tiêu đóng vai trò là người đánh giá, sử dụng thang đo Likert để cho điểm độ gây hại của một phản hồi nhất định. Sau đó, LLM sẽ được yêu cầu tạo ra các phản hồi chứa các ví dụ phù hợp với các thang đo này. Ví dụ có thang đo Likert cao nhất có thể chứa nội dung gây hại.
Trong những năm gần đây, sự bùng nổ của trí tuệ nhân tạo cũng dẫn đến một loại khai thác bảo mật mới, gọi là prompt injection, được thiết kế để khiến một mô hình học máy bỏ qua hành vi dự định bằng cách truyền các hướng dẫn được chế tạo đặc biệt. Một loại prompt injection cụ thể là tấn công nhiều lần, lợi dụng cửa sổ ngữ cảnh dài và sự chú ý của LLM để tạo ra một loạt các gợi ý, dần dần đẩy LLM tạo ra phản hồi ác ý mà không kích hoạt hệ thống bảo vệ bên trong của nó. Một số ví dụ về kỹ thuật này bao gồm “Crescendo” và “Deceptive Delight.”
Phương pháp tiếp cận mới nhất do Unit 42 trình diễn bao gồm việc sử dụng LLM như một giám khảo đánh giá độ gây hại của phản hồi, rồi sau đó yêu cầu mô hình cung cấp các phản hồi khác nhau tương ứng với các điểm số khác nhau. Thử nghiệm được thực hiện trên một loạt các mô hình tạo văn bản tiên tiến nhất từ Amazon Web Services, Google, Meta, Microsoft, OpenAI và NVIDIA cho thấy kỹ thuật này có thể tăng tỷ lệ thành công của tấn công lên hơn 60% so với các gợi ý tấn công thông thường trên trung bình.
Những danh mục này bao gồm thù hận, quấy rối, tự hại, nội dung tình dục, vũ khí không phân biệt, hoạt động phi pháp, tạo phần mềm độc hại và rò rỉ hệ thống gợi ý. “Bằng cách lợi dụng sự hiểu biết của LLM về nội dung gây hại và khả năng đánh giá phản hồi, kỹ thuật này có thể đáng kể gia tăng khả năng vượt qua hàng rào an toàn của mô hình,” các nhà nghiên cứu cho biết.
Kết quả cho thấy các bộ lọc nội dung có thể giảm tỷ lệ tấn công thành công trung bình 89,2 điểm phần trăm đạt được trên tất cả các mô hình đã thử nghiệm, cho thấy tầm quan trọng của việc triển khai bộ lọc nội dung toàn diện như là một thực hành tốt khi triển khai LLM trong các ứng dụng thực tế. Phát triển này diễn ra vài ngày sau khi một báo cáo từ The Guardian tiết lộ công cụ tìm kiếm ChatGPT của OpenAI có thể bị lừa tạo ra tóm tắt hoàn toàn gây hiểu lầm bằng cách yêu cầu nó tóm tắt các trang web chứa nội dung ẩn.
“Những kỹ thuật này có thể bị sử dụng cho những mục đích ác ý, chẳng hạn như khiến ChatGPT đưa ra đánh giá tích cực về sản phẩm dù có các đánh giá tiêu cực trên cùng trang,” tờ báo Anh cho biết. “Đơn giản là sự xuất hiện của văn bản ẩn bởi bên thứ ba mà không có hướng dẫn cũng có thể được sử dụng để đảm bảo đánh giá tích cực, với một thử nghiệm bao gồm các đánh giá giả cực kỳ tích cực đã ảnh hưởng đến bản tóm tắt được ChatGPT trả về.”