Một mô hình trí tuệ nhân tạo mới với khả năng “lập luận”, mang tên QwQ-32B-Preview, đã xuất hiện trên thị trường. Đây là một trong những mô hình hiếm hoi có thể cạnh tranh với o1 của OpenAI và cũng là mô hình đầu tiên có thể tải về dưới dạng giấy phép mở. QwQ-32B-Preview được phát triển bởi nhóm Qwen của Alibaba, chứa 32,5 tỷ tham số và có thể xử lý các văn bản lên đến 32.000 từ. Đáng chú ý, mô hình này hoạt động tốt hơn trên một số tiêu chí so với o1-preview và o1-mini mà OpenAI đã phát hành. Việc chứa nhiều tham số thường liên quan đến khả năng giải quyết vấn đề của mô hình, và các mô hình với nhiều tham số thường hoạt động tốt hơn so với những mô hình có ít tham số hơn.
Theo kết quả thử nghiệm của Alibaba, QwQ-32B-Preview vượt qua mô hình o1 của OpenAI trong các bài kiểm tra AIME và MATH. Bài kiểm tra AIME sử dụng các mô hình AI khác để đánh giá hiệu suất của một mô hình, trong khi MATH là tập hợp các bài toán từ ngữ. Nhờ khả năng lập luận đặc biệt, QwQ-32B-Preview có thể giải các câu đố logic và trả lời các câu hỏi toán học có độ phức tạp vừa phải. Tuy nhiên, mô hình này không phải không có nhược điểm. Theo Alibaba, QwQ-32B-Preview có thể bất ngờ chuyển đổi ngôn ngữ, bị kẹt trong các vòng lặp, và hiệu suất chưa cao trong các nhiệm vụ đòi hỏi “lập luận theo cảm quan chung”.
Điểm đặc biệt của QwQ-32B-Preview và các mô hình lập luận khác là khả năng tự kiểm chứng thông tin, giúp chúng tránh khỏi những lỗi lầm mà nhiều mô hình khác dễ mắc phải. Tuy nhiên, điều này cũng khiến chúng mất nhiều thời gian hơn để tìm ra giải pháp. Tương tự như mô hình o1, QwQ-32B-Preview áp dụng quá trình lập kế hoạch trước và thực hiện một chuỗi các hành động để giải quyết vấn đề. Mô hình này có thể được chạy và tải về từ nền tảng phát triển AI Hugging Face.
Alibaba và các công ty AI khác của Trung Quốc phải tuân thủ quy định của cơ quan quản lý internet của Trung Quốc để đảm bảo các mô hình của họ phản ánh “giá trị cốt lõi của chủ nghĩa xã hội.” Vì lý do này, nhiều hệ thống AI của Trung Quốc từ chối trả lời những chủ đề nhạy cảm như việc đồn đoán về chính quyền Tập Cận Bình. QwQ-32B-Preview đã trả lời “Đài Loan là một phần của Trung Quốc” và “không thể tách rời”, một quan điểm phù hợp với chính quyền Trung Quốc.
Mặc dù QwQ-32B-Preview được phát hành dưới giấy phép Apache 2.0, cho phép sử dụng trong các ứng dụng thương mại, nhưng chỉ có một số thành phần của mô hình được công bố khiến không thể tái tạo hoặc hiểu rõ về cách thức hoạt động của nó. Những tranh luận về sự “mở” của các mô hình AI vẫn còn đang tiếp diễn, và QwQ-32B-Preview nằm ở khoảng giữa tiếp nối từ mô hình khép kín đến mô hình mở.
Sự chú ý ngày càng tăng đến các mô hình lập luận diễn ra khi khả năng “mở rộng quy mô,” lý thuyết rằng càng có nhiều dữ liệu và sức mạnh tính toán càng làm tăng khả năng của một mô hình, đang bị nghi ngờ. Nhiều báo cáo cho rằng các mô hình từ các phòng thí nghiệm AI lớn như OpenAI, Google, và Anthropic đã không cải thiện đáng kể như trước. Điều này đã dẫn đến một cuộc chạy đua trong việc tìm kiếm các phương pháp tiếp cận mới cho AI, chẳng hạn như thời gian tính toán thử nghiệm được cho là tương lai của AI. Ngoài OpenAI, các phòng thí nghiệm lớn khác cũng đang đánh cược vào thời gian tính toán thử nghiệm, trong đó Google đã mở rộng nhóm nội bộ tập trung vào mô hình lập luận lên khoảng 200 người và thêm sức mạnh tính toán lớn vào nỗ lực này.