Claude 3.7 Sonnet ra mắt với khả năng tư duy mở rộng chuyên sâu

Vào thứ Hai, Anthropic đã công bố Claude 3.7 Sonnet, một mô hình ngôn ngữ AI mới với khả năng tư duy mô phỏng (SR) mang tên “tư duy mở rộng”, cho phép hệ thống giải quyết các vấn đề một cách tuần tự. Công ty cũng tiết lộ Claude Code, một trình agent AI hoạt động từ dòng lệnh, hiện đang có sẵn dưới hình thức thử nghiệm nghiên cứu có giới hạn.

Claude 3.7 được gọi là mô hình “lý luận hybrid” đầu tiên trên thị trường, cho phép người dùng lựa chọn giữa phản hồi nhanh hoặc quy trình tư duy chi tiết, tương tự như các mô hình o1 và o3 của OpenAI, Gemini 2.0 Flash Thinking của Google và R1 của DeepSeek. Khi sử dụng API của Claude 3.7, các nhà phát triển có thể chỉ định chính xác số token mà mô hình nên sử dụng để suy nghĩ, tới giới hạn đầu ra 128.000 token.

Mô hình mới này có sẵn cho tất cả các gói đăng ký Claude, mặc dù tính năng chế độ tư duy mở rộng chỉ khả dụng trên các gói trả phí. Giá API không thay đổi, duy trì ở mức 3 USD cho triệu token đầu vào và 15 USD cho triệu token đầu ra, với tài nguyên tư duy bao gồm trong giá đầu ra do chúng là một phần của ngữ cảnh mà mô hình xem xét.

Một thông tin thú vị khác là, trong bối cảnh Claude 3.5 Sonnet đã được biết đến với sự từ chối không cần thiết trong một số tình huống, Anthropic cho biết họ đã giảm tới 45% những từ chối này trong 3.7 Sonnet. Điều này có nghĩa là 3.7 Sonnet có khả năng hoàn thành nhiệm vụ mà không phải tỏ ra e dè về các giới hạn đạo đức, mà thường xuất hiện trong những tình huống vô hại khi bị hiểu sai bởi mạng nơ-ron điều khiển bên trong Claude.

Trong các bài kiểm tra hiệu suất, mô hình mới dường như tự đứng vững, và thậm chí còn xuất sắc trong ít nhất một lĩnh vực cụ thể: lập trình. Theo Anthropic, 3.7 Sonnet đã đạt được các điểm số hàng đầu trong các bài kiểm tra SWE-bench Verified, đánh giá cách mà các mô hình AI xử lý các vấn đề phần mềm trong thế giới thực, cũng như đối với TAU-bench, mô hình thử nghiệm AI về các nhiệm vụ phức tạp với tương tác của người và công cụ.

Hướng tới các nhà phát triển phần mềm, Anthropic đã mở rộng tích hợp GitHub cho tất cả các gói Claude, cho phép các nhà phát triển kết nối các kho mã trực tiếp với Claude để sửa lỗi, phát triển tính năng và công việc tài liệu.

Trên thực tế, trong quá trình tạo các ứng dụng theo sở thích với Claude 3.5 Sonnet trong sáu tháng qua, công cụ này đã chứng tỏ hữu ích trong việc nhanh chóng tạo mẫu các dự án, nhưng chúng tôi thường gặp phải giới hạn sử dụng. Hiện tại, Anthropic chưa công bố một gói đăng ký nào vượt ra ngoài “Claude Pro” (20 USD/tháng) nhằm mở rộng giới hạn này, mặc dù nhiều khả năng các lập trình viên sẽ cần một gói tương tự như gói “ChatGPT Pro” với các tùy chọn sử dụng được mở rộng đáng kể với 200 USD mỗi tháng.

Nói về các bản nâng cấp, tên gọi cần được đề cập. Claude 3.5 Sonnet ra mắt vào tháng 6 năm 2024, nhưng đã nhận được cập nhật vào tháng 10 với tên gọi gần giống nhau mà một số người dùng phê bình là gây nhầm lẫn. Rõ ràng, Anthropic đã nhận được thông điệp về nhu cầu làm rõ trong cách đặt tên và ghi chú trong bản phát hành Claude 3.7 với dòng chữ “Bài học rút ra về đặt tên”.

Claude 3.7, với tư duy mở rộng, cố gắng giải quyết các vấn đề phức tạp hơn bằng cách cung cấp nhiều token hơn thông qua một quy trình lý luận mô phỏng. Để thử nghiệm, chúng tôi đã đưa cho nó một số nhiệm vụ đơn giản. Claude đã cung cấp một số câu chuyện hài hước nguyên gốc mặc dù hiệu suất chưa hoàn hảo. Đặc biệt, Claude 3.7 Sonnet với tư duy mở rộng đã đưa chúng tôi đến một câu trả lời rõ ràng và giải thích.

Claude Code là công cụ agentic đầu tiên của Anthropic cho phép người dùng tìm kiếm trong các kho mã, chỉnh sửa tệp, viết và thực hiện các bài kiểm tra, cam kết và đẩy mã đến các kho GitHub. Được thiết kế để hỗ trợ các nhà phát triển trong việc gỡ lỗi và tái cấu trúc, Anthropic cho biết trong các thử nghiệm nội bộ, Claude Code đã hoàn thành các nhiệm vụ trong một phiên mà thường yêu cầu trên 45 phút làm việc bằng tay.

Claude Code hiện chỉ có sẵn dưới dạng “thử nghiệm nghiên cứu có giới hạn”, với điều kiện rằng Anthropic có kế hoạch cải tiến công cụ dựa trên phản hồi từ người dùng trong thời gian tới. Trong khi đó, Claude 3.7 Sonnet đã được cung cấp thông qua trang web Claude, ứng dụng Claude, API của Anthropic, Amazon Bedrock và Google Cloud’s Vertex AI.

Claude 3.7 Sonnet ra mắt với khả năng tư duy mở rộng nhằm giải quyết vấn đề phức tạp

Written by Linh Nguyễn