Ai Crawler phá hủy hạ tầng nguồn mở, buộc nhiều dự án đóng cửa

Đăng bởi: Linh Nguyễn • Ngày: 26/03/2025

Nổi bật trong lĩnh vực phát triển phần mềm, Xe Iaso từng là một tên tuổi đáng kính trong cộng đồng nguồn mở. Tuy nhiên, gần đây, họ đã phải đối mặt với một cuộc khủng hoảng chưa từng có, xuất phát từ việc các AI crawler của Amazon đã khiến dịch vụ Git của họ rơi vào tình trạng bất ổn và thường xuyên bị ngừng hoạt động. Mặc dù đã thực hiện nhiều biện pháp bảo vệ tiêu chuẩn như điều chỉnh robots.txt và chặn các agent của crawler, nhưng Iaso vẫn không thể ngăn chặn. AI crawler đã sử dụng nhiều chiến thuật tinh vi như giả mạo agent và đổi địa chỉ IP để tránh bị phát hiện.

Trước tình hình cấp bách, Iaso đã buộc phải đưa ra một giải pháp cực đoan hơn: di chuyển máy chủ của họ sau một VPN và phát triển “Anubis”, một hệ thống thách thức proof-of-work yêu cầu các trình duyệt phải giải các câu đố toán học trước khi truy cập vào trang web. Iaso chia sẻ trong một bài viết rằng: “Việc ngăn chặn các AI crawler là vô ích vì chúng giả mạo, thay đổi agent người dùng, và sử dụng địa chỉ IP hộ gia đình làm proxy”.

Câu chuyện của Iaso phản ánh một cuộc khủng hoảng đang lan rộng trong cộng đồng mã nguồn mở. Các báo cáo gần đây từ LibreNews cho biết một số dự án nguồn mở đã phải gánh chịu tới 97% lưu lượng truy cập đến từ bot của các công ty AI, dẫn đến việc chi phí băng thông tăng đáng kể và gây ra sự không ổn định trong dịch vụ. Kevin Fenzi, một thành viên trong nhóm quản trị của dự án Fedora, đã thông báo rằng họ đã phải chặn toàn bộ lưu lượng từ Brazil sau khi không thể giảm thiểu lượng bot này. GNOME GitLab cũng triển khai hệ thống “Anubis” của Iaso, yêu cầu trình duyệt giải các câu đố toán học trước khi truy cập nội dung, với chỉ khoảng 3.2% yêu cầu vượt qua được bài kiểm tra này.

Hệ thống “Anubis” là một biện pháp khả thi nhưng cũng mang lại những khó khăn cho người dùng hợp pháp, đặc biệt khi nhiều người truy cập cùng lúc. Điều này đã gây ra thời gian chờ đợi lâu cho người dùng, có thể lên đến hai phút cho bài kiểm tra proof-of-work. Đây không phải là tình huống mới, trong tháng 12 vừa qua, Dennis Schubert, người duy trì hạ tầng cho mạng xã hội Diaspora, đã mô tả tình hình là “một cuộc tấn công DDoS trên toàn bộ internet” khi phát hiện rằng 70% yêu cầu web đến từ các công ty AI.

Dù AI crawler đã làm giảm đáng kể lượng truy cập của các dự án, nhưng cơ chế bảo vệ hiện tại vẫn tạo ra thách thức cho các dự án mã nguồn mở. Martin Owens từ dự án Inkscape cho biết vấn đề không chỉ đến từ các cuộc tấn công DDoS mà từ các công ty đang bỏ qua các biện pháp bảo vệ.” Điểm mấu chốt là các dự án mã nguồn mở thường thiếu nguồn lực so với các công ty thương mại, trong khi phải đối mặt với nguy cơ tài chính và kỹ thuật.

Tình hình này không chỉ gây ra gánh nặng lớn cho các nhà phát triển mà còn tạo ra rủi ro nghiêm trọng cho sự phát triển của các dự án mã nguồn mở. Sự tích tụ lưu lượng từ AI crawler không chỉ làmỏng đi hạ tầng mà còn tạo ra những báo cáo lỗi giả mạo khiến các nhà phát triển lãng phí thời gian quý giá.

Cuộc chiến hiện tại là giữa các công ty AI lớn và các dự án mã nguồn mở nỗ lực bảo vệ hạ tầng của mình. Một loạt các công ty AI đình đám như Amazon và OpenAI đã không phản hồi khi được yêu cầu bình luận về hoạt động crawler của họ, cho thấy sự thiếu hợp tác từ phía họ.

Với cuộc khủng hoảng hạ tầng nguồn mở ngày càng gia tăng, cuộc chiến giữa bots tìm kiếm dữ liệu và những nỗ lực phòng ngừa sẽ tiếp diễn và có thể làm sâu sắc thêm tình trạng khủng hoảng cho hệ sinh thái kỹ thuật số hiện đại mà chúng ta đang phụ thuộc vào.