DDoS – Nhật Phúc

Ai Crawler phá hủy hạ tầng nguồn mở, buộc nhiều dự án đóng cửa

Linh Nguyễn — Wed, 26 Mar 2025 04:04:17 +0000

Nổi bật trong lĩnh vực phát triển phần mềm, Xe Iaso từng là một tên tuổi đáng kính trong cộng đồng nguồn mở. Tuy nhiên, gần đây, họ đã phải đối mặt với một cuộc khủng hoảng chưa từng có, xuất phát từ việc các AI crawler của Amazon đã khiến dịch vụ Git của họ rơi vào tình trạng bất ổn và thường xuyên bị ngừng hoạt động. Mặc dù đã thực hiện nhiều biện pháp bảo vệ tiêu chuẩn như điều chỉnh robots.txt và chặn các agent của crawler, nhưng Iaso vẫn không thể ngăn chặn. AI crawler đã sử dụng nhiều chiến thuật tinh vi như giả mạo agent và đổi địa chỉ IP để tránh bị phát hiện.

Trước tình hình cấp bách, Iaso đã buộc phải đưa ra một giải pháp cực đoan hơn: di chuyển máy chủ của họ sau một VPN và phát triển “Anubis”, một hệ thống thách thức proof-of-work yêu cầu các trình duyệt phải giải các câu đố toán học trước khi truy cập vào trang web. Iaso chia sẻ trong một bài viết rằng: “Việc ngăn chặn các AI crawler là vô ích vì chúng giả mạo, thay đổi agent người dùng, và sử dụng địa chỉ IP hộ gia đình làm proxy”.

Câu chuyện của Iaso phản ánh một cuộc khủng hoảng đang lan rộng trong cộng đồng mã nguồn mở. Các báo cáo gần đây từ LibreNews cho biết một số dự án nguồn mở đã phải gánh chịu tới 97% lưu lượng truy cập đến từ bot của các công ty AI, dẫn đến việc chi phí băng thông tăng đáng kể và gây ra sự không ổn định trong dịch vụ. Kevin Fenzi, một thành viên trong nhóm quản trị của dự án Fedora, đã thông báo rằng họ đã phải chặn toàn bộ lưu lượng từ Brazil sau khi không thể giảm thiểu lượng bot này. GNOME GitLab cũng triển khai hệ thống “Anubis” của Iaso, yêu cầu trình duyệt giải các câu đố toán học trước khi truy cập nội dung, với chỉ khoảng 3.2% yêu cầu vượt qua được bài kiểm tra này.

Hệ thống “Anubis” là một biện pháp khả thi nhưng cũng mang lại những khó khăn cho người dùng hợp pháp, đặc biệt khi nhiều người truy cập cùng lúc. Điều này đã gây ra thời gian chờ đợi lâu cho người dùng, có thể lên đến hai phút cho bài kiểm tra proof-of-work. Đây không phải là tình huống mới, trong tháng 12 vừa qua, Dennis Schubert, người duy trì hạ tầng cho mạng xã hội Diaspora, đã mô tả tình hình là “một cuộc tấn công DDoS trên toàn bộ internet” khi phát hiện rằng 70% yêu cầu web đến từ các công ty AI.

Dù AI crawler đã làm giảm đáng kể lượng truy cập của các dự án, nhưng cơ chế bảo vệ hiện tại vẫn tạo ra thách thức cho các dự án mã nguồn mở. Martin Owens từ dự án Inkscape cho biết vấn đề không chỉ đến từ các cuộc tấn công DDoS mà từ các công ty đang bỏ qua các biện pháp bảo vệ.” Điểm mấu chốt là các dự án mã nguồn mở thường thiếu nguồn lực so với các công ty thương mại, trong khi phải đối mặt với nguy cơ tài chính và kỹ thuật.

Tình hình này không chỉ gây ra gánh nặng lớn cho các nhà phát triển mà còn tạo ra rủi ro nghiêm trọng cho sự phát triển của các dự án mã nguồn mở. Sự tích tụ lưu lượng từ AI crawler không chỉ làmỏng đi hạ tầng mà còn tạo ra những báo cáo lỗi giả mạo khiến các nhà phát triển lãng phí thời gian quý giá.

Cuộc chiến hiện tại là giữa các công ty AI lớn và các dự án mã nguồn mở nỗ lực bảo vệ hạ tầng của mình. Một loạt các công ty AI đình đám như Amazon và OpenAI đã không phản hồi khi được yêu cầu bình luận về hoạt động crawler của họ, cho thấy sự thiếu hợp tác từ phía họ.

Với cuộc khủng hoảng hạ tầng nguồn mở ngày càng gia tăng, cuộc chiến giữa bots tìm kiếm dữ liệu và những nỗ lực phòng ngừa sẽ tiếp diễn và có thể làm sâu sắc thêm tình trạng khủng hoảng cho hệ sinh thái kỹ thuật số hiện đại mà chúng ta đang phụ thuộc vào.

The post Ai Crawler phá hủy hạ tầng nguồn mở, buộc nhiều dự án đóng cửa appeared first on Nhật Phúc.

Cách mà bot của OpenAI đã làm sập trang web của công ty bảy người giống như một cuộc tấn công DDOS

Linh Nguyễn — Mon, 13 Jan 2025 14:02:54 +0000

Vào thứ Bảy vừa qua, Giám đốc điều hành của Triplegangers, Oleksandr Tomchuk, đã nhận được thông báo rằng trang web thương mại điện tử của công ty ông đã bị ngừng hoạt động. Nguyên nhân đầu tiên mà ông nghĩ tới là một cuộc tấn công từ chối dịch vụ phân tán (DDoS). Tuy nhiên, thật bất ngờ khi phát hiện ra rằng, thủ phạm khiến trang web của ông gặp sự cố không phải là một cuộc tấn công ác ý mà là một bot từ OpenAI đang cố gắng thu thập dữ liệu từ trang của ông một cách không ngừng nghỉ. “Chúng tôi có hơn 65.000 sản phẩm, mỗi sản phẩm đều có trang riêng,” Tomchuk cho biết. “Mỗi trang đều có ít nhất ba bức ảnh.”

Bot của OpenAI đã gửi hàng chục nghìn yêu cầu tới máy chủ nhằm tải toàn bộ thông tin và hình ảnh trên trang web của Triplegangers, đưa ra hàng trăm ngàn bức ảnh cùng với các mô tả chi tiết của chúng. Ông cho biết: “OpenAI đã sử dụng 600 địa chỉ IP để thu thập dữ liệu, và chúng tôi vẫn đang phân tích nhật ký từ tuần trước, có thể còn nhiều hơn thế.” Hệ thống của ông đã bị ảnh hưởng nặng nề, gần như tương tự như một cuộc tấn công DDoS. Trang web của Triplegangers không chỉ là một cửa hàng trực tuyến mà còn là một nguồn dữ liệu lớn nhất của công ty này – một công ty chỉ có bảy nhân viên đã dành hơn một thập kỷ để xây dựng một cơ sở dữ liệu về “những người số hóa nhân loại” trên internet.

Công ty này cung cấp các tệp hình ảnh 3D, từ những bộ phận cơ thể như tay, tóc, da đến các mẫu người hoàn chỉnh, dành cho các nghệ sĩ 3D, nhà sản xuất game và bất kỳ ai cần tái tạo đặc điểm con người một cách chính xác trong môi trường số hóa. Đội ngũ của Tomchuk, làm việc tại Ukraine nhưng cũng được cấp phép hoạt động tại Mỹ từ Tampa, Florida, đã có một trang điều khoản dịch vụ cấm bots thu thập hình ảnh mà không có sự cho phép. Tuy nhiên, chỉ điều đó vẫn chưa đủ để bảo vệ tài sản trực tuyến của họ. Các trang web bắt buộc phải sử dụng tập tin robot.txt được cấu hình đúng cách, với các thẻ chỉ định bot của OpenAI, được gọi là GPTBot, không được thu thập dữ liệu từ trang của họ. OpenAI cũng có một vài bot khác như ChatGPT-User và OAI-SearchBot.

Tập tin robot.txt, còn được gọi là Giao thức loại trừ robot, được tạo ra để hướng dẫn các công cụ tìm kiếm không nên thu thập dữ liệu từ đâu khi chỉ mục hóa trang web. OpenAI tuyên bố trên trang thông tin của nó rằng sẽ tôn trọng các tập tin này nếu được cấu hình với các thẻ yêu cầu không thu thập dữ liệu. Tuy nhiên, nó cũng cảnh báo rằng bot của họ có thể mất tới 24 giờ để nhận diện một tập tin robot.txt đã được cập nhật. Như Tomchuk đã trải nghiệm, nếu một trang web không sử dụng tập tin robot.txt một cách chính xác, OpenAI và các công ty khác sẽ hiểu rằng họ có thể thoải mái thu thập dữ liệu mà không gặp trở ngại. Это не выставочная система. Hơn nữa, không chỉ Triplegangers đã gặp sự cố mà còn ở cả những giờ hành chính của Mỹ, Tomchuk còn phải chuẩn bị cho một hóa đơn AWS tăng cao do tất cả các hoạt động CPU và tải dữ liệu đến từ bot.

Tập tin robot.txt cũng không phải là một giải pháp hữu hiệu. Các công ty AI tự nguyện tuân thủ nó. Một công ty khởi nghiệp AI khác, Perplexity, đã chịu chỉ trích nặng nề vào mùa hè trước khi có một cuộc điều tra của Wired, khi có bằng chứng cho thấy Perplexity không tôn trọng tiêu chuẩn này. Đến thứ Tư, sau nhiều ngày bot của OpenAI trở lại, Triplegangers đã có một tập tin robot.txt được cấu hình hợp lý và đã thiết lập tài khoản Cloudflare để chặn bot GPTBot và một số bot khác như Barkrowler (bot SEO) và Bytespider (bot của TikTok). Tomchuk cũng lạc quan rằng ông đã chặn thành công bot từ các công ty AI khác. Sáng thứ Năm, trang web không bị sập như trước. Tuy nhiên, Tomchuk vẫn không có cách nào hợp lý để xác định chính xác các dữ liệu mà OpenAI đã thu thập thành công hoặc để yêu cầu loại bỏ chúng. Ông đã không tìm thấy cách nào để liên hệ với OpenAI và yêu cầu hỗ trợ. OpenAI cũng không phản hồi khi TechCrunch yêu cầu bình luận về vấn đề này. Hơn nữa, OpenAI vẫn chưa cung cấp công cụ đã hứa để cho phép người dùng từ chối, như TechCrunch đã đưa tin trước đó.

Đây là một vấn đề đặc biệt phức tạp đối với Triplegangers. “Chúng tôi hoạt động trong một lĩnh vực mà quyền sở hữu trí tuệ là cực kỳ quan trọng, vì chúng tôi quét hình ảnh của những người thực,” ông nói. Với những luật lệ như GDPR của châu Âu, “họ không thể chỉ đơn giản lấy hình ảnh của bất kỳ ai trên internet và sử dụng nó.”

Trang web của Triplegangers cũng là một mục tiêu hấp dẫn cho các bot AI. Các công ty khởi nghiệp với giá trị hàng tỉ đô la, như Scale AI, đã được tạo ra bằng cách mà con người ra khỏi sức lực của họ để gán nhãn hình ảnh nhằm đào tạo AI. Trang web của Triplegangers chứa các bức ảnh được gán nhãn chi tiết: chủng tộc, độ tuổi, hình xăm so với sẹo, tất cả các kiểu dáng cơ thể, và nhiều hơn nữa. Mỉa mai thay, chính lòng tham của bot OpenAI đã khiến Triplegangers nhận ra mức độ dễ tổn thương của mình. Nếu bot không thu thập dữ liệu quá mạnh mẽ, có thể Tomchuk sẽ không bao giờ biết được. “Thật đáng sợ bởi vì dường như có một khe hở mà những công ty này đang sử dụng để thu thập dữ liệu bằng cách nói rằng ‘bạn có thể từ chối nếu bạn cập nhật robot.txt của chúng tôi với các thẻ của họ,’ nhưng điều đó lại đổ trách nhiệm lên vai các chủ doanh nghiệp hiểu cách chặn họ. Ông muốn các doanh nghiệp trực tuyến nhỏ khác biết rằng cách duy nhất để phát hiện xem liệu một bot AI có đang lấy đi tài sản có bản quyền của trang web hay không là tích cực theo dõi. Ông không đơn độc trong mối lo ngại này. Các chủ sở hữu trang web khác cũng đã báo cáo với Business Insider rằng bot của OpenAI đã làm sập trang web của họ và khiến hóa đơn AWS tăng vọt. Vấn đề này đã gia tăng thêm kích thước vào năm 2024. Một nghiên cứu mới từ công ty quảng cáo số DoubleVerify cho thấy rằng các bot và trình thu thập dữ liệu AI đã gây ra sự gia tăng 86% trong “lưu lượng không hợp lệ chung” trong năm 2024 — tức là lưu lượng không đến từ một người dùng thực sự. Dù vậy, “hầu hết các trang web đều không nhận ra rằng họ đã bị bot thu thập dữ liệu,” Tomchuk cảnh báo. “Giờ đây chúng tôi phải theo dõi hoạt động nhật ký hàng ngày để phát hiện các bot này.” Khi nghĩ lại, toàn bộ mô hình hoạt động giống như một vụ săn lùng mafia: Các bot AI sẽ lấy những gì chúng muốn nếu bạn không có sự bảo vệ. “Họ nên yêu cầu sự cho phép, chứ không chỉ thu thập dữ liệu,” Tomchuk nói.

The post Cách mà bot của OpenAI đã làm sập trang web của công ty bảy người giống như một cuộc tấn công DDOS appeared first on Nhật Phúc.