Một phòng thí nghiệm trí tuệ nhân tạo tại Trung Quốc vừa công bố mô hình AI đầu tiên có khả năng lập luận để thách thức đối thủ mạnh mẽ là o1 của OpenAI. Vào thứ Tư, DeepSeek, một công ty nghiên cứu AI được hỗ trợ bởi các nhà giao dịch định lượng, đã ra mắt bản xem trước của DeepSeek-R1, mô hình mà công ty tuyên bố có thể cạnh tranh với mô hình o1.
Điểm nổi bật của các mô hình lập luận này là khả năng tự kiểm tra tính chính xác thông qua việc cẩn trọng hơn trong xử lý câu hỏi hay truy vấn. Điều này giúp chúng tránh được những lỗi ngớ ngẩn thường gặp phải. Giống như o1, DeepSeek-R1 thực hiện các thao tác lập luận thông qua nhiệm vụ, dự đoán trước và thực hiện một loạt hành động để đi đến câu trả lời. Tùy theo độ phức tạp của câu hỏi, DeepSeek-R1 có thể cần hàng chục giây để “suy nghĩ” trước khi có kết quả.
DeepSeek tuyên bố rằng DeepSeek-R1-Lite-Preview đạt hiệu suất ngang bằng với mô hình o1-preview của OpenAI trên hai nền tảng đo lường phổ biến AIME và MATH. AIME dùng các mô hình AI khác để đánh giá chất lượng, trong khi MATH là bộ sưu tập các bài toán từ vựng. Tuy nhiên, mô hình này không hoàn hảo. Một số bình luận viên trên nền tảng X nhận xét rằng DeepSeek-R1 vẫn gặp khó khăn với trò chơi tic-tac-toe và các vấn đề logic khác.
Bên cạnh đó, DeepSeek-R1 dễ bị “jailbreak”, nghĩa là bị khuyến khích hành xử không an toàn. Một người dùng X đã khiến mô hình cung cấp công thức chi tiết về methamphetamine. Ngoài ra, DeepSeek-R1 có xu hướng tránh trả lời những câu hỏi quá nhạy cảm về mặt chính trị như liên quan đến lãnh đạo Trung Quốc Tập Cận Bình, sự kiện Thiên An Môn, hay các vấn đề địa chính trị liên quan đến Trung Quốc xâm chiếm Đài Loan.
Những hành vi này có thể do áp lực từ chính phủ Trung Quốc đối với các dự án AI trong nước. Các mô hình tại Trung Quốc phải trải qua kiểm tra của cơ quan quản lý Internet để đảm bảo rằng các phản hồi “là hiện thân của các giá trị lõi của xã hội chủ nghĩa”. Chính phủ Trung Quốc thậm chí còn đề xuất danh sách đen các nguồn không thể sử dụng để huấn luyện mô hình.
Sự quan tâm ngày càng tăng đối với các mô hình lập luận diễn ra trong bối cảnh các “luật mở rộng” – ý tưởng rằng việc cung cấp nhiều dữ liệu hơn và sức mạnh tính toán sẽ liên tục cải thiện khả năng của mô hình – đang bị thách thức. Các báo cáo cho thấy rằng các mô hình từ các phòng thí nghiệm lớn như OpenAI, Google và Anthropic không còn cải thiện đáng kể như trước.
Điều này dẫn đến cuộc chạy đua tìm kiếm các hướng tiếp cận, kiến trúc và kỹ thuật phát triển AI mới. Một trong những phương pháp này là “test-time compute”, nền tảng hỗ trợ cho các mô hình như o1 và DeepSeek-R1, về cơ bản giúp các mô hình có thêm thời gian xử lý để hoàn thành công việc. “Chúng ta đang chứng kiến sự xuất hiện của một luật mở rộng mới”, CEO của Microsoft, Satya Nadella, phát biểu trong buổi keynote tại hội nghị Microsoft Ignite.
DeepSeek, công ty tuyên bố sẽ mở mã nguồn DeepSeek-R1 và phát hành API, là một doanh nghiệp đáng chú ý. Được hậu thuẫn bởi High-Flyer Capital Management, một quỹ đầu tư định lượng của Trung Quốc sử dụng AI để đưa ra quyết định giao dịch, DeepSeek từng khiến các đối thủ như ByteDance, Baidu và Alibaba phải cắt giảm giá mô hình hoặc cung cấp miễn phí.
High-Flyer xây dựng các cụm máy chủ riêng cho việc huấn luyện mô hình, với cụm máy chủ mới nhất có 10.000 GPU Nvidia A100 và tiêu tốn 1 tỷ nhân dân tệ (~138 triệu USD). Được thành lập bởi Liang Wenfeng, một cựu sinh viên khoa học máy tính, High-Flyer nhắm đến mục tiêu đạt được AI “siêu thông minh” thông qua tổ chức DeepSeek của mình.