Gần đây, các nhà nghiên cứu tại Stanford và Đại học Washington đã công bố một nghiên cứu đầy ấn tượng cho thấy mô hình lý luận AI mới mang tên s1 có thể được phát triển với chi phí dưới 50 đô la nhờ vào việc sử dụng dịch vụ điện toán đám mây. S1 được thiết kế để hoạt động tương tự như các mô hình hàng đầu của OpenAI, như o1, cũng như mô hình R1 của DeepSeek, trên các kiểm tra đánh giá khả năng toán học và lập trình.
Mô hình này đã được phát hành công khai trên GitHub, kèm theo dữ liệu và mã nguồn được sử dụng để đào tạo, mở ra cơ hội cho bất kỳ ai muốn nghiên cứu hoặc sử dụng công nghệ này. Theo nhóm nghiên cứu, s1 được phát triển từ một mô hình cơ bản có sẵn trên thị trường và được tinh chỉnh thông qua quá trình chiết xuất khả năng lý luận từ các mô hình AI khác, điển hình là một trong các mô hình lý luận của Google mang tên Gemini 2.0 Flash Thinking Experimental.
Điều này không chỉ tạo ra một cuộc thi mới trong lĩnh vực AI mà còn làm dấy lên những câu hỏi về khả năng thương mại hóa các mô hình AI. Việc một nhóm nghiên cứu nhỏ có thể tái tạo thành công mô hình trị giá hàng triệu đô la chỉ với số tiền khá khiêm tốn đặt ra thách thức lớn cho các phòng thí nghiệm AI lớn như OpenAI hoặc DeepSeek, đặc biệt khi mô hình s1 cho thấy khả năng hoạt động tương đương với những mô hình đắt tiền hơn.
S1 đã đạt được hiệu suất mạnh mẽ trên các tiêu chuẩn AI chỉ với 30 phút huấn luyện bằng 16 GPU Nvidia H100, trong khi chỉ cần một bộ dữ liệu gồm 1.000 câu hỏi đã được lựa chọn cẩn thận kết hợp với các câu trả lời và quy trình tư duy. Niklas Muennighoff, một trong những nhà nghiên cứu của dự án, cho biết chi phí ước tính cho dịch vụ điện toán cần thiết để huấn luyện s1 chỉ vào khoảng 20 đô la hiện nay.
Thêm vào đó, nhóm nghiên cứu đã áp dụng một chiêu khá thông minh để đảm bảo s1 kiểm tra lại công việc của mình và kéo dài thời gian “suy nghĩ” trước khi đưa ra câu trả lời bằng cách chỉ cần thêm từ “đợi” vào quy trình lý luận. Động thái này đã giúp mô hình đưa ra những câu trả lời chính xác hơn.
Tuy nhiên, những điều này không làm các phòng thí nghiệm lớn hài lòng. OpenAI đã cáo buộc DeepSeek khai thác không đúng cách dữ liệu từ API của họ nhằm mục đích chiết xuất mô hình. Độc giả có thể thấy điểm dễ dàng mà các mô hình lớn đang gặp phải, đó là việc một mô hình nhỏ có thể tái tạo khả năng của một mô hình lớn hơn mà không cần phải đầu tư hàng triệu đô la chỉ là một thách thức lớn hơn cho cả ngành công nghiệp.
Theo các dự báo, Meta, Google và Microsoft sẽ đầu tư hàng trăm tỷ đô la vào cơ sở hạ tầng AI trong năm 2025, một phần trong số đó sẽ được dùng để đào tạo những mô hình AI thế hệ tiếp theo. Thậm chí, Meta và các hãng cũng đang hướng đến việc cải tiến những mô hình hiện có, không chỉ nhằm khắc phục những thiếu sót mà còn tạo ra những đột phá mới chứ không chỉ đơn thuần là tái tạo những gì đã có.
S1 đã mở ra một hướng đi mới cho việc phát triển mô hình AI lý luận với chi phí giữ thấp, đồng thời tiếp tục là một dấu hỏi lớn về tính bền vững và chiến lược tương lai của các gã khổng lồ trong ngành công nghệ. Liệu rằng mô hình s1 sẽ trở thành một trong những xu hướng phổ biến trong việc phát triển AI trong tương lai hay chỉ đơn thuần là một bài học cho các hãng lớn để xem lại cách thức phát triển của họ? Chúng ta hãy cùng chờ xem diễn biến tiếp theo của cuộc cách mạng AI đầy ấn tượng này!