Meta bị kiện vì sử dụng nội dung bị đánh cắp để đào tạo AI

Đăng bởi: Linh Nguyễn • Ngày: 15/01/2025

Gần đây, Meta lại một lần nữa rơi vào vòng xoáy tranh cãi liên quan đến trí tuệ nhân tạo (AI), với thông tin cho rằng công ty này đã sử dụng nội dung bị đánh cắp từ trang torrent để đào tạo mô hình ngôn ngữ lớn Llama, nền tảng cho Meta AI. Đây là một trong những vụ kiện bản quyền đầu tiên chống lại một công ty công nghệ vì vấn đề đào tạo AI. Theo thông tin từ Wired, Meta đã phải đối mặt với một vụ kiện vào năm 2023, cáo buộc rằng họ đã đào tạo Llama – mô hình ngôn ngữ của công ty – bằng nội dung vi phạm bản quyền.

Vụ kiện được biết đến với tên gọi “Kadrey et al. v. Meta Platforms”, do các tiểu thuyết gia Richard Kadrey và Christopher Golden đệ trình, cho rằng Meta đã sử dụng nội dung có bản quyền mà không có sự cho phép. Đến thời điểm hiện tại, Meta đã cung cấp tài liệu có thông tin bị xóa cho tòa án, nhưng thẩm phán Vince Chhabria tại Tòa án quận Liên bang Hoa Kỳ cho quận phía Bắc California đã yêu cầu các tài liệu gốc phải được công khai, và điều này đã được thực hiện. Các tài liệu tiết lộ những cuộc trò chuyện giữa các nhân viên Meta liên quan đến Meta AI và Llama. Trong một cuộc trò chuyện, một kỹ sư đã nói rằng “tải tài liệu từ một laptop corporate [của Meta] không cho cảm giác đúng lắm”, điều này củng cố rằng công ty đã sử dụng nội dung vi phạm bản quyền để đào tạo AI của mình.

Một cuộc trò chuyện khác cho thấy “MZ” (Mark Zuckerberg) đã cho phép việc sử dụng tài liệu bị đánh cắp. Bằng chứng cho thấy Meta đã sử dụng nội dung từ LibGen, một thư viện đồ sộ của các cuốn sách, tạp chí và bài báo học thuật bị cướp. LibGen được thành lập tại Nga vào năm 2008 và đã phải đối mặt với nhiều vụ kiện bản quyền trong suốt thời gian qua, mặc dù không ai biết ai là người thực sự điều hành “trung tâm cướp bóc” này. Ngoài ra, Meta cũng bị cho là đã sử dụng nội dung từ các “thư viện bóng tối” khác để đào tạo AI. Công ty biện hộ rằng họ đã sử dụng những tài liệu công khai theo nguyên tắc “sử dụng hợp lý”, cho phép việc sử dụng nội dung có bản quyền mà không cần sự cho phép trong một số trường hợp nhất định, điều này được phân tích theo từng trường hợp cụ thể. Meta cũng tuyên bố rằng họ chỉ “sử dụng văn bản để mô hình hóa ngôn ngữ một cách thống kê và tạo ra biểu hiện nguyên gốc.” Đây không phải là lần đầu tiên các công ty lớn bị cáo buộc đào tạo các mô hình AI bằng nội dung có bản quyền.

Vào năm ngoái, một cuộc điều tra đã tiết lộ rằng mô hình OpenELM do Apple tạo ra đã bao gồm phụ đề từ hơn 170.000 video trên YouTube. Mặc dù ban đầu điều này khiến người ta tin rằng Apple đã sử dụng nội dung có bản quyền để đào tạo AI của mình, nhưng công ty đã giải thích rằng OpenELM là một mô hình mã nguồn mở được tạo ra cho mục đích nghiên cứu và rằng cơ sở dữ liệu của nó không được sử dụng để cung cấp năng lực cho trí tuệ nhân tạo của Apple. Theo Apple, các tính năng AI có sẵn trên iOS và macOS được đào tạo “trên dữ liệu có giấy phép, bao gồm dữ liệu được chọn để nâng cao các tính năng cụ thể, cũng như dữ liệu công khai được thu thập bởi trình thu thập thông tin web của chúng tôi.” Đáng chú ý là nhiều nhà xuất bản lớn như The New York Times và The Atlantic đã quyết định không chia sẻ nội dung của họ cho việc đào tạo trí tuệ nhân tạo của Apple.