Nếu bạn lo lắng liệu ChatGPT có thể sao chép nội dung không, thì không có câu trả lời rõ ràng. Nếu bạn cần một câu trả lời ngắn gọn và thận trọng, thì câu trả lời là có. Nếu bạn cần một câu trả lời phức tạp hơn, thì câu trả lời là… nó phức tạp.
ChatGPT đã được chứng minh là có sao chép nội dung. Trong AI, chúng ta gọi đây là tình trạng “overfitting”. Một đoạn từ vụ kiện cho thấy ChatGPT đã trả lời bằng cách sao chép gần như toàn bộ một bài báo.
Overfitting trong AI, đặc biệt là liên quan đến Các Mô Hình Ngôn Ngữ Lớn (LLMs) như ChatGPT, xảy ra khi một mô hình được huấn luyện quá sát với chi tiết của dữ liệu huấn luyện. Hãy nghĩ về nó như một học sinh học thuộc lòng sự kiện cho kỳ thi thay vì hiểu các khái niệm; các học sinh này có thể làm tốt trong bài kiểm tra cụ thể đó nhưng sẽ gặp khó khăn khi áp dụng kiến thức vào các câu hỏi khác nhau. Tương tự, một LLM overfitting học các mẫu của dữ liệu huấn luyện quá tốt đến mức trở nên giỏi trong việc dự đoán hoặc tạo ra phản hồi cho dữ liệu tương tự nhưng thực hiện kém trên dữ liệu mới, chưa từng thấy. Điều này xảy ra bởi vì mô hình đã cơ bản học thuộc lòng dữ liệu huấn luyện, bao gồm cả những điều kỳ lạ và ngoại lệ, thay vì học cấu trúc cơ bản và kiến thức có thể tổng quát hóa.
ChatGPT đã được chứng minh có một số xu hướng overfitting, đó là lý do tại sao OpenAI hiện đang bị The Times kiện. Trong một vụ kiện được đệ trình tại Tòa án Quận Liên bang ở Manhattan, The Times đã chứng minh cách GPT-4 có thể được yêu cầu sao chép nguyên văn toàn bộ bài báo, rõ ràng cho thấy những bài báo này nằm trong dữ liệu huấn luyện của nó mà không được phép. Trong trường hợp này, nếu bạn viết một bài luận và sử dụng câu trả lời được cung cấp bởi ChatGPT trong bài luận của mình, bạn sẽ đang sao chép một tài liệu đã tồn tại trên internet mà không nhận ra.
Do đó, câu trả lời cho việc liệu ChatGPT có sao chép nội dung hay không là khó. Không phải là ChatGPT cố ý sao chép, nhưng trong một số trường hợp nghiêm trọng như vậy, nó sẽ khiến một sinh viên hoặc người khác bị đánh giá là đạo văn. OpenAI hiện đã nhận thức được những xu hướng này và đã thực hiện các bước để ngăn chặn điều này xảy ra, nhưng điều đó không có nghĩa là nó sẽ không làm lại. Nếu bạn là người dựa vào ChatGPT không sao chép nội dung, thì không có gì thực sự đảm bảo cho bạn. Ở một giai đoạn nào đó, rất có thể nó sẽ trực tiếp sao chép văn bản từ một nơi nào đó, như nếu nó có thể sao chép toàn bộ bài báo từ The New York Times, nó cũng có thể sao chép từ bất kỳ đâu khác.
Đáng giá, ChatGPT có thể không phải là LLM duy nhất gặp phải overfitting, chỉ là trường hợp đầu tiên và nổi tiếng nhất. Rất có thể chúng ta sẽ thấy các vấn đề tương tự xuất hiện với Copilot và Gemini ở một thời điểm nào đó.