DeepSeek, một công ty khởi nghiệp AI của Trung Quốc, gần đây đang thu hút sự chú ý lớn trong lĩnh vực trí tuệ nhân tạo với sự ra mắt của một mô hình AI cực kỳ tiết kiệm chi phí, được gọi là R1. Mô hình này nhanh chóng gây bão khi khiến nhiều nhà đầu tư lo ngại về phương pháp huấn luyện của nó. Chỉ với khoảng 6 triệu USD, DeepSeek tuyên bố đã tạo ra một mô hình có thể vượt qua nhiều tiêu chuẩn benchmark AI đủ loại, từ toán học, khoa học cho đến lập trình, đạt kết quả tương đương với các mô hình của OpenAI, nhưng với chi phí chỉ bằng 3%. Những thông tin này khiến nhiều người nghi ngờ về tính minh bạch cũng như quy trình phát triển của nó.
Trong một báo cáo, có thông tin cho rằng công ty này không chỉ tiết kiệm chi phí khi huấn luyện mà còn áp dụng những phương pháp gây tranh cãi, như việc sử dụng dữ liệu có bản quyền của OpenAI và Microsoft để xây dựng mô hình của mình. Cụ thể, OpenAI cáo buộc rằng DeepSeek đã sử dụng nội dung từ các mô hình của họ để huấn luyện R1, ví dụ như là qua quy trình “distillation” – một cách thức lấy đầu ra từ mô hình AI đã tồn tại để áp dụng cho việc huấn luyện một mô hình mới mà không cần chi phí cao.
Mới đây, một nghiên cứu của Copyleaks cho thấy kết quả đáng ngờ: nội dung do AI của DeepSeek tạo ra có độ tương đồng lên đến 74.2% với ChatGPT của OpenAI. Điều này được mô tả như một chỉ báo về sự tương đồng rõ rệt về phong cách viết giữa hai mô hình. Các nhà nghiên cứu tại Copyleaks đã áp dụng các kỹ thuật sàng lọc và phân loại để xác nhận rằng các văn bản do DeepSeek tạo ra có những đặc điểm rất giống với những gì do OpenAI produce, đồng thời sử dụng phương pháp bỏ phiếu đồng thuận để khẳng định kết quả.
Shai Nisan, trưởng bộ phận khoa học dữ liệu tại Copyleaks, đã nhấn mạnh rằng mặc dù sự tương đồng này không xác định DeepSeek là một bản sao hoàn hảo của OpenAI, nhưng nó gợi ý về việc DeepSeek có thể đã không công khai rõ ràng về quy trình phát triển mô hình của mình. Những điều này đặt ra những câu hỏi lớn về mức độ minh bạch và tuân thủ các quy định về bản quyền trong lĩnh vực phát triển AI.
Nếu DeepSeek bị chứng minh có hành vi vi phạm bản quyền, các vấn đề pháp lý sẽ là điều không thể tránh khỏi. Theo thông tin từ Copyleaks, có khả năng công ty này sẽ phải đối mặt với nhiều vấn đề về quyền sở hữu trí tuệ, từ đền bù thiệt hại đến tác động tiêu cực đến thương hiệu của họ trên thị trường AI đang cạnh tranh cao. Điều này có thể sẽ dẫn đến việc thay đổi trong cách thức các công ty AI phải công bố thông tin liên quan đến dữ liệu và đầu ra mà họ sử dụng để huấn luyện mô hình.
OpenAI cũng không phải là công ty duy nhất đang gặp khó khăn với những vấn đề bản quyền, khi mà trong quá khứ, nhiều công ty đã bị kiện bởi những cáo buộc tương tự. Điều này cho thấy một thực tế rằng với sự bùng nổ của các công nghệ AI, vấn đề bản quyền ngày càng trở nên phức tạp, với những tranh cãi có thể nổ ra bất cứ lúc nào. Một mô hình AI có thể là một công cụ mạnh mẽ, nhưng nếu không có sự minh bạch và tôn trọng quyền sở hữu trí tuệ, nó có thể trở thành một gánh nặng nặng nề cho các doanh nghiệp.