Cách mà bot của OpenAI đã làm sập trang web của công ty bảy người giống như một cuộc tấn công DDOS

Đăng bởi: Linh Nguyễn • Ngày: 13/01/2025

Vào thứ Bảy vừa qua, Giám đốc điều hành của Triplegangers, Oleksandr Tomchuk, đã nhận được thông báo rằng trang web thương mại điện tử của công ty ông đã bị ngừng hoạt động. Nguyên nhân đầu tiên mà ông nghĩ tới là một cuộc tấn công từ chối dịch vụ phân tán (DDoS). Tuy nhiên, thật bất ngờ khi phát hiện ra rằng, thủ phạm khiến trang web của ông gặp sự cố không phải là một cuộc tấn công ác ý mà là một bot từ OpenAI đang cố gắng thu thập dữ liệu từ trang của ông một cách không ngừng nghỉ. “Chúng tôi có hơn 65.000 sản phẩm, mỗi sản phẩm đều có trang riêng,” Tomchuk cho biết. “Mỗi trang đều có ít nhất ba bức ảnh.”

Bot của OpenAI đã gửi hàng chục nghìn yêu cầu tới máy chủ nhằm tải toàn bộ thông tin và hình ảnh trên trang web của Triplegangers, đưa ra hàng trăm ngàn bức ảnh cùng với các mô tả chi tiết của chúng. Ông cho biết: “OpenAI đã sử dụng 600 địa chỉ IP để thu thập dữ liệu, và chúng tôi vẫn đang phân tích nhật ký từ tuần trước, có thể còn nhiều hơn thế.” Hệ thống của ông đã bị ảnh hưởng nặng nề, gần như tương tự như một cuộc tấn công DDoS. Trang web của Triplegangers không chỉ là một cửa hàng trực tuyến mà còn là một nguồn dữ liệu lớn nhất của công ty này – một công ty chỉ có bảy nhân viên đã dành hơn một thập kỷ để xây dựng một cơ sở dữ liệu về “những người số hóa nhân loại” trên internet.

Công ty này cung cấp các tệp hình ảnh 3D, từ những bộ phận cơ thể như tay, tóc, da đến các mẫu người hoàn chỉnh, dành cho các nghệ sĩ 3D, nhà sản xuất game và bất kỳ ai cần tái tạo đặc điểm con người một cách chính xác trong môi trường số hóa. Đội ngũ của Tomchuk, làm việc tại Ukraine nhưng cũng được cấp phép hoạt động tại Mỹ từ Tampa, Florida, đã có một trang điều khoản dịch vụ cấm bots thu thập hình ảnh mà không có sự cho phép. Tuy nhiên, chỉ điều đó vẫn chưa đủ để bảo vệ tài sản trực tuyến của họ. Các trang web bắt buộc phải sử dụng tập tin robot.txt được cấu hình đúng cách, với các thẻ chỉ định bot của OpenAI, được gọi là GPTBot, không được thu thập dữ liệu từ trang của họ. OpenAI cũng có một vài bot khác như ChatGPT-User và OAI-SearchBot.

Tập tin robot.txt, còn được gọi là Giao thức loại trừ robot, được tạo ra để hướng dẫn các công cụ tìm kiếm không nên thu thập dữ liệu từ đâu khi chỉ mục hóa trang web. OpenAI tuyên bố trên trang thông tin của nó rằng sẽ tôn trọng các tập tin này nếu được cấu hình với các thẻ yêu cầu không thu thập dữ liệu. Tuy nhiên, nó cũng cảnh báo rằng bot của họ có thể mất tới 24 giờ để nhận diện một tập tin robot.txt đã được cập nhật. Như Tomchuk đã trải nghiệm, nếu một trang web không sử dụng tập tin robot.txt một cách chính xác, OpenAI và các công ty khác sẽ hiểu rằng họ có thể thoải mái thu thập dữ liệu mà không gặp trở ngại. Это не выставочная система. Hơn nữa, không chỉ Triplegangers đã gặp sự cố mà còn ở cả những giờ hành chính của Mỹ, Tomchuk còn phải chuẩn bị cho một hóa đơn AWS tăng cao do tất cả các hoạt động CPU và tải dữ liệu đến từ bot.

Tập tin robot.txt cũng không phải là một giải pháp hữu hiệu. Các công ty AI tự nguyện tuân thủ nó. Một công ty khởi nghiệp AI khác, Perplexity, đã chịu chỉ trích nặng nề vào mùa hè trước khi có một cuộc điều tra của Wired, khi có bằng chứng cho thấy Perplexity không tôn trọng tiêu chuẩn này. Đến thứ Tư, sau nhiều ngày bot của OpenAI trở lại, Triplegangers đã có một tập tin robot.txt được cấu hình hợp lý và đã thiết lập tài khoản Cloudflare để chặn bot GPTBot và một số bot khác như Barkrowler (bot SEO) và Bytespider (bot của TikTok). Tomchuk cũng lạc quan rằng ông đã chặn thành công bot từ các công ty AI khác. Sáng thứ Năm, trang web không bị sập như trước. Tuy nhiên, Tomchuk vẫn không có cách nào hợp lý để xác định chính xác các dữ liệu mà OpenAI đã thu thập thành công hoặc để yêu cầu loại bỏ chúng. Ông đã không tìm thấy cách nào để liên hệ với OpenAI và yêu cầu hỗ trợ. OpenAI cũng không phản hồi khi TechCrunch yêu cầu bình luận về vấn đề này. Hơn nữa, OpenAI vẫn chưa cung cấp công cụ đã hứa để cho phép người dùng từ chối, như TechCrunch đã đưa tin trước đó.

Đây là một vấn đề đặc biệt phức tạp đối với Triplegangers. “Chúng tôi hoạt động trong một lĩnh vực mà quyền sở hữu trí tuệ là cực kỳ quan trọng, vì chúng tôi quét hình ảnh của những người thực,” ông nói. Với những luật lệ như GDPR của châu Âu, “họ không thể chỉ đơn giản lấy hình ảnh của bất kỳ ai trên internet và sử dụng nó.”

Trang web của Triplegangers cũng là một mục tiêu hấp dẫn cho các bot AI. Các công ty khởi nghiệp với giá trị hàng tỉ đô la, như Scale AI, đã được tạo ra bằng cách mà con người ra khỏi sức lực của họ để gán nhãn hình ảnh nhằm đào tạo AI. Trang web của Triplegangers chứa các bức ảnh được gán nhãn chi tiết: chủng tộc, độ tuổi, hình xăm so với sẹo, tất cả các kiểu dáng cơ thể, và nhiều hơn nữa. Mỉa mai thay, chính lòng tham của bot OpenAI đã khiến Triplegangers nhận ra mức độ dễ tổn thương của mình. Nếu bot không thu thập dữ liệu quá mạnh mẽ, có thể Tomchuk sẽ không bao giờ biết được. “Thật đáng sợ bởi vì dường như có một khe hở mà những công ty này đang sử dụng để thu thập dữ liệu bằng cách nói rằng ‘bạn có thể từ chối nếu bạn cập nhật robot.txt của chúng tôi với các thẻ của họ,’ nhưng điều đó lại đổ trách nhiệm lên vai các chủ doanh nghiệp hiểu cách chặn họ. Ông muốn các doanh nghiệp trực tuyến nhỏ khác biết rằng cách duy nhất để phát hiện xem liệu một bot AI có đang lấy đi tài sản có bản quyền của trang web hay không là tích cực theo dõi. Ông không đơn độc trong mối lo ngại này. Các chủ sở hữu trang web khác cũng đã báo cáo với Business Insider rằng bot của OpenAI đã làm sập trang web của họ và khiến hóa đơn AWS tăng vọt. Vấn đề này đã gia tăng thêm kích thước vào năm 2024. Một nghiên cứu mới từ công ty quảng cáo số DoubleVerify cho thấy rằng các bot và trình thu thập dữ liệu AI đã gây ra sự gia tăng 86% trong “lưu lượng không hợp lệ chung” trong năm 2024 — tức là lưu lượng không đến từ một người dùng thực sự. Dù vậy, “hầu hết các trang web đều không nhận ra rằng họ đã bị bot thu thập dữ liệu,” Tomchuk cảnh báo. “Giờ đây chúng tôi phải theo dõi hoạt động nhật ký hàng ngày để phát hiện các bot này.” Khi nghĩ lại, toàn bộ mô hình hoạt động giống như một vụ săn lùng mafia: Các bot AI sẽ lấy những gì chúng muốn nếu bạn không có sự bảo vệ. “Họ nên yêu cầu sự cho phép, chứ không chỉ thu thập dữ liệu,” Tomchuk nói.