DeepSeek V3: Mô hình AI mới đỉnh cao từ Trung Quốc, thử thách lớn cho thị trường mở

Đăng bởi: Linh Nguyễn • Ngày: 29/12/2024

Một phòng thí nghiệm ở Trung Quốc vừa công bố một trong những mô hình trí tuệ nhân tạo “mở” mạnh mẽ nhất từ trước tới nay mang tên DeepSeek V3. Được phát triển bởi công ty AI DeepSeek, mô hình này ra mắt hôm thứ tư với giấy phép cho phép các nhà phát triển tải về và điều chỉnh để sử dụng trong nhiều ứng dụng, bao gồm cả thương mại.

DeepSeek V3 có khả năng xử lý nhiều loại công việc dựa trên văn bản như lập trình, dịch thuật, và viết tiểu luận hay email từ những gợi ý mô tả. Kết quả thử nghiệm nội bộ của DeepSeek cho thấy mô hình này vượt trội so với các mô hình có sẵn, kể cả những mô hình “đóng” chỉ có thể truy cập qua API. Đặc biệt, trong các cuộc thi lập trình tại Codeforces, DeepSeek đã thể hiện tốt hơn các mô hình như Llama 3.1 405B của Meta, GPT-4o của OpenAI, và Qwen 2.5 72B của Alibaba.

DeepSeek V3 còn thắng lợi lớn tại Aider Polyglot, một bài kiểm tra đánh giá khả năng viết mã mới tích hợp vào mã hiện có. Theo hãng, mô hình này được huấn luyện trên 14,8 nghìn tỷ token, tương đương khoảng 750.000 từ cho mỗi triệu token. Không chỉ tập dữ liệu lớn mà DeepSeek V3 cũng cực kỳ đồ sộ với 671 tỷ tham số, hoặc 685 tỷ trên nền tảng AI của Hugging Face.

Số lượng tham số thường (nhưng không phải lúc nào cũng) liên quan đến độ chính xác; mô hình có nhiều tham số thường vượt trội hơn những mô hình có ít. Tuy nhiên, các mô hình lớn cần phần cứng mạnh mẽ để hoạt động. Phiên bản chưa tối ưu hóa của DeepSeek V3 cần một hệ thống GPU cao cấp để trả lời câu hỏi với tốc độ chấp nhận được.

Dù không phải là mô hình thực tế nhất, nhưng DeepSeek V3 là một thành tựu đáng kể. Công ty đã huấn luyện mô hình này chỉ với 5,5 triệu đô la trong hai tháng, một chi phí cực thấp so với phát triển các mô hình như GPT-4 của OpenAI.

Điểm trừ duy nhất của mô hình là quan điểm chính trị có phần lệch lạc. Khi được hỏi về sự kiện Thiên An Môn, DeepSeek V3 từ chối trả lời. Là một công ty Trung Quốc, DeepSeek chịu sự giám sát của cơ quan quản lý internet Trung Quốc để đảm bảo phản hồi của mô hình phản ánh “giá trị cốt lõi của Xã hội Chủ nghĩa”.

DeepSeek được tài trợ bởi quỹ phòng hộ định lượng High-Flyer Capital Management của Trung Quốc, vốn tập trung vào việc sử dụng AI để cải thiện các quyết định giao dịch. Họ xây dựng các cụm máy chủ riêng cho việc huấn luyện mô hình với hàng chục nghìn GPU Nvidia A100, qua đó khẳng định tham vọng đạt được AI siêu trí tuệ qua tổ chức DeepSeek.