Phương pháp “Bad Likert Judge” mới có thể phá vỡ bảo mật AI

Linh Nguyễn — Sat, 04 Jan 2025 11:20:27 +0000

Các nhà nghiên cứu an ninh mạng vừa tiết lộ một kỹ thuật jailbreak mới có khả năng phá vỡ hàng rào an toàn của các mô hình ngôn ngữ lớn (LLM), tạo ra các phản hồi có thể gây hại hay ác ý. Chiến lược tấn công đa lần, còn gọi là “many-shot,” đã được đặt tên mã là “Bad Likert Judge” bởi nhóm nghiên cứu từ Palo Alto Networks Unit 42, gồm Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao và Danny Tsechansky.

Kỹ thuật này yêu cầu LLM mục tiêu đóng vai trò là người đánh giá, sử dụng thang đo Likert để cho điểm độ gây hại của một phản hồi nhất định. Sau đó, LLM sẽ được yêu cầu tạo ra các phản hồi chứa các ví dụ phù hợp với các thang đo này. Ví dụ có thang đo Likert cao nhất có thể chứa nội dung gây hại.

Trong những năm gần đây, sự bùng nổ của trí tuệ nhân tạo cũng dẫn đến một loại khai thác bảo mật mới, gọi là prompt injection, được thiết kế để khiến một mô hình học máy bỏ qua hành vi dự định bằng cách truyền các hướng dẫn được chế tạo đặc biệt. Một loại prompt injection cụ thể là tấn công nhiều lần, lợi dụng cửa sổ ngữ cảnh dài và sự chú ý của LLM để tạo ra một loạt các gợi ý, dần dần đẩy LLM tạo ra phản hồi ác ý mà không kích hoạt hệ thống bảo vệ bên trong của nó. Một số ví dụ về kỹ thuật này bao gồm “Crescendo” và “Deceptive Delight.”

Phương pháp tiếp cận mới nhất do Unit 42 trình diễn bao gồm việc sử dụng LLM như một giám khảo đánh giá độ gây hại của phản hồi, rồi sau đó yêu cầu mô hình cung cấp các phản hồi khác nhau tương ứng với các điểm số khác nhau. Thử nghiệm được thực hiện trên một loạt các mô hình tạo văn bản tiên tiến nhất từ Amazon Web Services, Google, Meta, Microsoft, OpenAI và NVIDIA cho thấy kỹ thuật này có thể tăng tỷ lệ thành công của tấn công lên hơn 60% so với các gợi ý tấn công thông thường trên trung bình.

Những danh mục này bao gồm thù hận, quấy rối, tự hại, nội dung tình dục, vũ khí không phân biệt, hoạt động phi pháp, tạo phần mềm độc hại và rò rỉ hệ thống gợi ý. “Bằng cách lợi dụng sự hiểu biết của LLM về nội dung gây hại và khả năng đánh giá phản hồi, kỹ thuật này có thể đáng kể gia tăng khả năng vượt qua hàng rào an toàn của mô hình,” các nhà nghiên cứu cho biết.

Kết quả cho thấy các bộ lọc nội dung có thể giảm tỷ lệ tấn công thành công trung bình 89,2 điểm phần trăm đạt được trên tất cả các mô hình đã thử nghiệm, cho thấy tầm quan trọng của việc triển khai bộ lọc nội dung toàn diện như là một thực hành tốt khi triển khai LLM trong các ứng dụng thực tế. Phát triển này diễn ra vài ngày sau khi một báo cáo từ The Guardian tiết lộ công cụ tìm kiếm ChatGPT của OpenAI có thể bị lừa tạo ra tóm tắt hoàn toàn gây hiểu lầm bằng cách yêu cầu nó tóm tắt các trang web chứa nội dung ẩn.

“Những kỹ thuật này có thể bị sử dụng cho những mục đích ác ý, chẳng hạn như khiến ChatGPT đưa ra đánh giá tích cực về sản phẩm dù có các đánh giá tiêu cực trên cùng trang,” tờ báo Anh cho biết. “Đơn giản là sự xuất hiện của văn bản ẩn bởi bên thứ ba mà không có hướng dẫn cũng có thể được sử dụng để đảm bảo đánh giá tích cực, với một thử nghiệm bao gồm các đánh giá giả cực kỳ tích cực đã ảnh hưởng đến bản tóm tắt được ChatGPT trả về.”

The post Phương pháp “Bad Likert Judge” mới có thể phá vỡ bảo mật AI appeared first on Nhật Phúc.

Chợ ứng dụng Sileo thay thế Cydia đã ra mắt bản beta

Linh Nguyễn — Wed, 26 Dec 2018 06:32:56 +0000

Sau nhiều tháng, cuối cùng thì coolstar (tác giả công cụ Electra jailbreak giúp jailbreak iOS 11) đã giới thiệu bản beta của Sileo – một chợ ứng dụng giống Cydia.

Cộng đồng jailbreak bao gồm coolstar và nhiều thành viên đã quyết định xây một “chợ” mới có tên là Sileo – nhằm thay thế hoàn toàn Cydia sắp tới. Dự án bắt đầu từ tháng 7/2018 và đến nay đã có phiên bản beta đầu tiên. Dự kiến Sileo sẽ chỉ hỗ trợ từ iOS 11 trở đi với các thiết bị 64-bit. Nếu bạn vẫn còn giữ iOS 10 trở xuống thì Cydia có vẻ là đủ đối với bạn. Theo chia sẻ của coolstar thì chợ jailbreak Sileo này sẽ không thay đổi gì nhiều so với Cydia, gần như các packages được xây dựng cho Cydia đều có thể được sử dụng tiếp cho Sileo. Đồng thời khả năng thanh toán, quản lý thanh toán, quản lý licensed đối với các tweak có phí của Sileo sẽ tốt hơn rất nhiều so với Cydia.

Hiện tại nếu bạn đang dùng máy iOS 11 jailbreak bằng Electra, bạn có thể vào Cydia và tiến hành cập nhật các packages, trong đó sẽ có Sileo beta. Sau khi cập nhật xong bạn sẽ nhận được Sileo ở màn hình chính, sau đó có thể dùng thử.

Mình có viết bài trải nghiệm Sileo chi tiết tại trang Trải Nghiệm Số. Mời bạn tham khảo tại đây.

The post Chợ ứng dụng Sileo thay thế Cydia đã ra mắt bản beta appeared first on Nhật Phúc.

Jailbreak – Nhật Phúc

Phương pháp “Bad Likert Judge” mới có thể phá vỡ bảo mật AI

Chợ ứng dụng Sileo thay thế Cydia đã ra mắt bản beta

Sau nhiều tháng, cuối cùng thì coolstar (tác giả công cụ Electra jailbreak giúp jailbreak iOS 11) đã giới thiệu bản beta của Sileo – một chợ ứng dụng giống Cydia.