Hôm nay, Google chính thức ra mắt mô hình PaliGemma 2, đánh dấu một bước tiến quan trọng trong việc kết hợp khả năng xử lý hình ảnh và ngôn ngữ. Mẫu PaliGemma ban đầu được công bố vào tháng Năm năm nay tại sự kiện I/O 2024, nhưng phiên bản mới nhất này hứa hẹn vượt xa những gì mà tiền nhiệm của nó đã thể hiện.
PaliGemma 2 được thiết kế không chỉ để thực hiện các nhiệm vụ đơn giản như tạo chú thích cho ảnh và video ngắn, mà còn để xử lý các văn bản trong hình ảnh, phát hiện và phân đoạn đối tượng, và thậm chí là trả lời câu hỏi bằng hình ảnh. Phiên bản mới này nổi bật với khả năng “long captioning”, tạo ra những chú thích chi tiết và có ngữ cảnh phù hợp cho hình ảnh. Nó không chỉ đơn thuần xác định các đối tượng mà còn mô tả hành động, cảm xúc và cả câu chuyện tổng thể của cảnh.
Với các kích thước mô hình đa dạng, từ 3 tỷ đến 28 tỷ thông số, và độ phân giải hình ảnh từ 224px lên đến 896px, PaliGemma 2 có thể xử lý nhiều tình huống phức tạp. Một trong những cải tiến đáng chú ý là khả năng nhận dạng ký tự quang học chính xác và hiểu cấu trúc, nội dung của bảng biểu trong tài liệu. Google tuyên bố PaliGemma 2 dẫn đầu về hiệu suất trong nhận diện công thức hóa học, tổng phổ nhạc, lý luận không gian và tạo báo cáo X-quang cho ngực.
PaliGemma 2 còn được thiết kế như một sự thay thế dễ dàng cho những ai đã sử dụng mô hình đầu tiên. Những người phát triển được hưởng lợi từ việc tăng hiệu suất ngay lập tức trên hầu hết các tác vụ mà không cần thay đổi mã nguồn lớn. Một lợi ích khác được nhấn mạnh là mô hình này rất dễ tùy chỉnh cho các nhiệm vụ cụ thể của mình.
Các mô hình và mã huấn luyện sẵn cho PaliGemma 2 hiện đã có sẵn trên các nền tảng như Kaggle, Hugging Face và Ollama, tạo điều kiện thuận lợi hơn cho các nhà phát triển trong việc tích hợp và khai thác sức mạnh của nó.