Menu

Nhật Phúc

Chia sẻ công nghệ

in

MiniGPT-4 là gì?

Cộng đồng AI đã xôn xao về Mô hình ngôn ngữ lớn mới nhất của OpenAI, GPT-4, đã cách mạng hóa lĩnh vực hiểu ngôn ngữ tự nhiên bằng cách thực hiện các tác vụ ngôn ngữ hình ảnh phức tạp. Để khám phá những lý do đằng sau hiệu suất vượt trội của GPT-4, một nhóm gồm Ph.D. các sinh viên từ Đại học Khoa học và Công nghệ King Abdullah, Ả Rập Xê Út, đã phát triển MiniGPT-4, một mô hình mã nguồn mở thực hiện các tác vụ ngôn ngữ hình ảnh phức tạp giống như GPT-4.

MiniGPT-4 sử dụng LLM tiên tiến có tên Vicuna làm bộ giải mã ngôn ngữ, được xây dựng dựa trên LLaMA và đạt được 90% chất lượng của ChatGPT theo đánh giá của GPT-4. Ngoài ra, MiniGPT-4 sử dụng thành phần hình ảnh được đào tạo trước của BLIP-2 và đã thêm một lớp trình chiếu duy nhất để căn chỉnh các tính năng hình ảnh được mã hóa với mô hình ngôn ngữ Vicuna.

Bất chấp tên gọi của nó, MiniGPT-4 đã cho thấy kết quả tuyệt vời trong việc xác định các vấn đề từ đầu vào hình ảnh, chẳng hạn như cung cấp giải pháp dựa trên đầu vào hình ảnh được cung cấp của cây bị bệnh bởi người dùng với lời nhắc hỏi về vấn đề của cây đó. Nó thậm chí còn thể hiện khả năng tạo ra các công thức nấu ăn chi tiết bằng cách quan sát các bức ảnh đồ ăn ngon, viết quảng cáo sản phẩm và nghĩ ra các bài hát rap lấy cảm hứng từ hình ảnh.

Một trong những khía cạnh hứa hẹn nhất của MiniGPT-4 là hiệu quả tính toán cao của nó, chỉ cần khoảng 5 triệu cặp văn bản hình ảnh được căn chỉnh để đào tạo một lớp chiếu. Hơn nữa, MiniGPT-4 chỉ cần được đào tạo trong khoảng 10 giờ trên 4 GPU A100, khiến nó trở thành một mô hình AI hiệu quả cao và dễ tiếp cận.

Code, mô hình được đào tạo trước và tập dữ liệu được thu thập đều có sẵn, làm cho MiniGPT-4 trở thành một bổ sung có giá trị cho cộng đồng AI nguồn mở. Tuy nhiên, nhóm đã đề cập rằng việc đào tạo MiniGPT-4 bằng cách sử dụng các cặp văn bản-hình ảnh thô từ bộ dữ liệu công khai có thể dẫn đến các cụm từ lặp lại hoặc các câu bị phân mảnh. Để khắc phục hạn chế này, MiniGPT-4 cần được đào tạo bằng bộ dữ liệu chất lượng cao, được căn chỉnh tốt.

Written by Linh Nguyễn

Mình đang thực hiện trang Trải Nghiệm Số tại địa chỉ trainghiemso.vn, ngoài ra còn là BTV Công Nghệ tại báo VietNamNet. Trang blog này mình tổng hợp lại các bài viết do mình thực hiện, cũng như viết lảm nhảm cho vui.

Leave a Reply

Exit mobile version