Google Gemini là gì? Có tính năng gì?

Sau lần xem trước đầu tiên ba tháng trước, Google đã sẵn sàng ra mắt Gemini 2.5 Pro và cung cấp mô hình lý luận cho người tiêu dùng và nhà phát triển.

Gemini 2.5 Pro đã bước vào giai đoạn thử nghiệm vào cuối tháng Ba (03-25). Bốn ngày sau khi ra mắt cho người đăng ký trả phí và nhà phát triển, Google đã bất ngờ cung cấp miễn phí cho người dùng. Nó đã nhận được một bản nâng cấp lớn về mã hóa vào tháng Năm (05-06) ngay trước I/O, và một cập nhật cuối cùng vào đầu tháng Sáu (06-05).

Với phiên bản ổn định hôm nay, không có thay đổi nào so với phiên bản xem trước 06-05.

L-R: Mới nhất, 06-05, 05-06, 03-25 điểm chuẩn

Với lần ra mắt này, 2.5 Pro sẽ mất nhãn “xem trước” trong bộ chọn mô hình của ứng dụng Gemini. Nó theo sau 2.5 Flash đã vào GA trong ứng dụng tại I/O tháng trước. Google chỉ ra rằng Pro dành cho các truy vấn về “Lý luận, toán học & mã hóa”, trong khi Flash dành cho “Hỗ trợ toàn diện nhanh chóng”.

Google thông báo hôm nay rằng người dùng ứng dụng Gemini miễn phí sẽ tiếp tục có “truy cập hạn chế” đến 2.5 Pro, với người đăng ký AI Pro nhận được 100 truy vấn mỗi ngày, hoặc “truy cập mở rộng”. Google AI Ultra cung cấp “truy cập cao nhất”.

2.5 Flash cũng hiện nay có sẵn và ổn định cho các nhà phát triển. Nó là bản xem trước mô hình 05-20 từ I/O với giá cập nhật:

$0.30 / 1 triệu token đầu vào (tăng từ $0.15 đầu vào)
$2.50 / 1 triệu token đầu ra (giảm từ $3.50 đầu ra)
Đã loại bỏ sự khác biệt giá giữa suy nghĩ và không suy nghĩ
Giữ nguyên một mức giá duy nhất bất kể kích thước token đầu vào

Thêm vào đó, các nhà phát triển hiện có thể xem trước

Cập nhật ngày 19/06/2025: Bổ sung nội dung từ ‘Ứng dụng Gemini triển khai tải lên và phân tích video.’

Bên cạnh ngăn điều hướng mới và 2.5 Pro ổn định, ứng dụng Gemini đang triển khai tính năng tải lên và phân tích video.

Ngoài tài liệu và hình ảnh, Google sẽ cho phép thêm các tệp video của riêng mình vào một yêu cầu. (Điều này bổ sung cho khả năng đặt câu hỏi về một cái gì đó trên YouTube bằng cách dán liên kết.) Gemini sẽ phân tích nó và cho phép đặt câu hỏi về đoạn video đó.

Trong ví dụ đầu tiên (trái và giữa) dưới đây, yêu cầu thời gian hiển thị trên Nest Hub. Video xuất hiện phía trên với giao diện phát lại đầy đủ để xem lại.

Trong cuộc trò chuyện thứ hai (phải), yêu cầu mô tả và nhận được: “Đây trông như một cảnh yên bình từ một khu rừng vào mùa thu. Một con đường hẹp, phủ đầy lá rụng với các sắc thái cam, nâu và vàng, uốn lượn qua các cây. Các cây là sự pha trộn đẹp giữa đỏ rực, cam, và vàng ánh, cho thấy đỉnh điểm của mùa lá rụng. Ánh sáng mặt trời xuyên qua các nhánh cây, tạo ra ánh sáng lốm đốm và bóng trên con đường và làm nổi bật màu sắc rực rỡ của lá. Có một bầu không khí yên bình và tĩnh lặng, hoàn hảo cho một cuộc đi dạo giữa vẻ đẹp của thiên nhiên. Tiếng lá rụng bị dẫm lên càng làm tăng thêm trải nghiệm rừng mùa thu.”

Để tải lên một tệp, mở menu dấu cộng và chọn Thư viện hoặc Tệp. Nếu khả năng này hoạt động cho tài khoản của mình, có thể chọn video. Nếu không, tệp sẽ bị làm mờ và không thể tải lên.

Tải lên video Gemini chưa được triển khai rộng rãi. Khả năng truy cập thay đổi trên các tài khoản/thiết bị kiểm tra hôm nay, nhưng tính năng này dường như hoạt động cho cả tài khoản miễn phí và trả phí trên Android (ứng dụng Google 16.23 beta) và iOS, cũng như 2.5 Flash và 2.5 Pro. Tính năng này chưa hoạt động trên web, với thông báo “Loại tệp không được hỗ trợ” trong thanh yêu cầu.

Google chưa cập nhật camera tích hợp của Gemini để quay video.

Google ra mắt Gemini 2.5 Pro, ứng dụng miễn phí tiếp tục được sử dụng
Ứng dụng Gemini chuyển sang ngăn điều hướng luôn có sẵn trên Android
Các tính năng nào của ứng dụng Gemini là miễn phí và trả phí? [Tháng 6 năm 2025]

Google đã bước vào “kỷ nguyên Gemini” hơn một năm nay. Trong khi các lần đổi tên gây nhầm lẫn đã giảm tốc, mọi thứ khác vẫn tiếp tục cải thiện với tốc độ nhanh chóng. Google Gemini là tên mà Google đặt cho thế hệ mô hình AI đa phương thức hiện tại, nhưng theo phong cách đặc trưng của Google, nó cũng áp dụng cho hầu như tất cả những gì liên quan đến AI.Điều này có thể gây nhầm lẫn vì theo cách tôi hiểu, Google có:

Google Gemini, một gia đình các mô hình AI đa phương thức. Đây là công nghệ Google sử dụng trong các ứng dụng của mình và để cung cấp tính năng AI trên các thiết bị của mình, và các nhà phát triển cũng có thể tích hợp vào ứng dụng của họ.
Google Gemini, một chatbot chạy trên gia đình mô hình Gemini. (Đây chính là chatbot trước đây được gọi là Bard.)
Google Gemini, một sự thay thế cho Google Assistant đang được triển khai trên điện thoại thông minh Android, đồng hồ Android Wear, Android Auto và Google TV.

Gemini for Google Workspace, các tính năng AI được tích hợp trên Gmail, Google Docs và các ứng dụng Workspace khác dành cho người dùng trả phí.

Và một số Geminis khác mà tôi chắc chắn đã bỏ lỡ.

Tất cả những Geminis mới này đều dựa trên họ mô hình AI đa phương thức cốt lõi, vì vậy hãy bắt đầu từ đó.

Google Gemini là gì?

Google Gemini là một dòng mô hình AI, tương tự như GPT của OpenAI. Đây là các mô hình đa phương tiện, nghĩa là chúng có thể hiểu và tạo ra văn bản giống như một mô hình ngôn ngữ lớn (LLM) thông thường, nhưng cũng có khả năng hiểu, xử lý và kết hợp các loại thông tin khác như hình ảnh, âm thanh, video và mã nguồn.

Ví dụ, bạn có thể đưa cho Gemini một yêu cầu như “điều gì đang diễn ra trong bức ảnh này?” và đính kèm một hình ảnh. Gemini sẽ mô tả hình ảnh đó và trả lời các yêu cầu phức tạp hơn. Tương tự, nếu bạn cung cấp một lượng lớn dữ liệu, Gemini có thể tạo ra một biểu đồ hoặc giúp bạn giải thích biểu đồ, đọc biển báo, hoặc dịch thực đơn.

Vì hiện nay chúng ta đang ở trong thời kỳ cạnh tranh khốc liệt về AI của các tập đoàn, hầu hết các công ty đều giữ kín các chi tiết về cách hoạt động và sự khác biệt của các mô hình của họ. Tuy nhiên, Google đã xác nhận rằng các mô hình Gemini sử dụng kiến trúc transformer và dựa vào các chiến lược như tiền huấn luyện và tinh chỉnh, giống như các mô hình AI lớn khác. Các mô hình Gemini lớn hơn cũng đã chuyển sang cách tiếp cận hỗn hợp chuyên gia, cho phép chúng hoạt động hiệu quả hơn với số lượng tham số lớn.

Các mô hình Gemini mới nhất đã đạt được tất cả các tiêu chuẩn tiên tiến nhất. Trong khi các dòng mô hình khác đã bắt kịp, Google đã tiên phong với cửa sổ ngữ cảnh dài trong Gemini. Điều này có nghĩa là một yêu cầu có thể bao gồm nhiều thông tin hơn để định hình tốt hơn các phản hồi của mô hình.

Hiện tại, mỗi mô hình trong gia đình Google Gemini đều có cửa sổ ngữ cảnh ít nhất một triệu token. Điều này đủ để xử lý nhiều tài liệu dài, cơ sở dữ liệu lớn và các nguồn tài liệu nặng văn bản khác. Nếu bạn cần phân tích một hợp đồng phức tạp, bạn có thể tải toàn bộ tài liệu lên Google Gemini và đặt câu hỏi về nó—bất kể nó dài bao nhiêu. Điều này cũng hữu ích khi bạn xây dựng một pipeline retrieval augmented generation (RAG), mặc dù chi phí API có thể rất cao nếu bạn sử dụng toàn bộ cửa sổ ngữ cảnh trong sản xuất.

Tương tự, Google đã thêm khả năng suy luận vào các mô hình Gemini mới nhất, Gemini 2.5 Pro và Gemini 2.5 Flash—mặc dù họ gọi nó là “thinking“. Điều này làm cho chúng có khả năng xử lý các vấn đề logic khó khăn, hiểu chính xác thông tin khoa học và tạo mã.

Google Gemini có nhiều kích thước khác nhau

Các mô hình Google Gemini được thiết kế để chạy trên hầu hết mọi thiết bị, đó là lý do tại sao Google đang tích hợp chúng ở khắp mọi nơi. Google tuyên bố rằng các phiên bản khác nhau của nó có khả năng chạy hiệu quả trên mọi thứ từ trung tâm dữ liệu đến điện thoại thông minh.

Mỗi mô hình Gemini khác nhau ở số lượng tham số và do đó, khả năng đáp ứng các truy vấn phức tạp hơn cũng như lượng sức mạnh xử lý cần thiết để chạy. Đáng tiếc là các số liệu như số lượng tham số mà bất kỳ mô hình nào có thường được giữ bí mật—trừ khi có lý do để công ty tự hào.

Hiện tại, Google có các mô hình Gemini sau—mặc dù điều này đang thay đổi nhanh chóng.

Gemini 2.5 Pro

Gemini 2.5 Pro là mô hình tiên tiến nhất của Google cho đến nay. Nó có cửa sổ ngữ cảnh 1 triệu token và có khả năng suy luận. Nó đặc biệt giỏi trong việc mã hóa và đáp ứng các yêu cầu phức tạp. Hiện tại, nó có sẵn dưới dạng bản xem trước thông qua API và chatbot Gemini.

Gemini 2.5 Flash

Gemini 2.5 Flash được thiết kế để là một mô hình suy luận nhanh và tiết kiệm chi phí. Nó có cửa sổ ngữ cảnh 1 triệu token. Nó linh hoạt và được sử dụng trong nhiều ứng dụng khác nhau, từ tóm tắt văn bản đến chatbot và trích xuất dữ liệu. Hiện tại, nó có sẵn dưới dạng bản xem trước thông qua API và chatbot Gemini.

Gemini 2.0 Flash

Gemini 2.0 Flash vẫn là mô hình Gemini được sử dụng rộng rãi nhất. Nó cung cấp năng lượng cho chatbot Gemini, Gemini cho Google Workspace và nhiều tính năng khác. Mặc dù nó không còn là tiên tiến nhất, nhưng vẫn là một mô hình mạnh mẽ cho nhu cầu hàng ngày. Nó sẽ được thay thế bởi Gemini 2.5 Flash ngay khi ra khỏi bản xem trước.

Các mô hình Gemini cũ hơn

Ngoài các mô hình tiên tiến Gemini 2.5, còn có một số mô hình Gemini khác đáng chú ý:

Gemini 1.0 Ultra. Gemini Ultra là mô hình lớn nhất và mạnh mẽ nhất của Gemini. Nó chưa bao giờ được phát hành rộng rãi, mặc dù có tin đồn rằng nó sẽ được nâng cấp.
Gemini 1.5 Pro và 1.5 Flash. Có hai mô hình Gemini được sử dụng rộng rãi. Hiện tại, chúng vẫn có sẵn thông qua API của Gemini, vì vậy một số ứng dụng xây dựng trên Gemini dựa vào chúng.
Gemini 1.0 Nano. Một mô hình nhỏ được thiết kế cho các hoạt động trên thiết bị, dường như đã bị Flash thay thế nhưng có thể sẽ được đưa trở lại vào một thời điểm nào đó.

Google Gemini so với các LLM khác như thế nào?

Chúng ta đã đạt đến điểm mà việc so sánh trực tiếp các mô hình AI ngày càng trở nên không còn quan trọng. 18 phòng thí nghiệm nghiên cứu hiện đã sản xuất các mô hình tương đương GPT-4. Các mô hình tốt nhất từ OpenAI, Anthropic, Meta, Google và một số công ty khác đều vô cùng mạnh mẽ—và cách bạn tinh chỉnh và sử dụng chúng hiện có ý nghĩa hơn nhiều so với việc bạn chọn mô hình nào.

Tương tự, sự cân nhắc giữa tốc độ và sức mạnh đang trở nên ngày càng quan trọng. Gemini 2.5 Pro là một trong những mô hình AI mạnh mẽ nhất được phát triển, nhưng nó tốn kém từ 8 đến 25 lần so với Gemini 2.5 Flash cho mỗi triệu token, tùy thuộc vào việc bạn cần suy luận và mức độ sử dụng cửa sổ ngữ cảnh.

Biểu đồ so sánh Google Gemini với các mô hình AI khác

Nguồn hình ảnhNhư đã đề cập, trên các bảng xếp hạng khác nhau, Gemini 2.5 Pro hiện đang đứng thứ hai chỉ sau OpenAI’s o4-mini (cao), trong khi Gemini 2.5 Flash vững vàng trong top 10 và vượt qua các mô hình như Claude 3.7 Sonnet và GPT-4.1. Những bảng xếp hạng này thay đổi nhanh chóng, nhưng tính đến tháng 5 năm 2025, các mô hình Gemini 2.5 là một trong những lựa chọn tốt nhất hiện có. Chúng có khả năng duy trì cạnh tranh với các mô hình tương đương tốt nhất trong ít nhất vài tháng tới.

Mặc dù khởi đầu chậm, Google đã lấy lại phong độ AI của mình.

Google sử dụng Google Gemini như thế nào?

Google đã tích hợp hoặc có kế hoạch tích hợp Google Gemini vào hầu hết mọi nơi. Quá trình triển khai đang mất thời gian vì Google có quá nhiều sản phẩm khác nhau cần được cập nhật—và một số trong số đó không dễ áp dụng AI. Nhưng hãy cùng xem qua các công cụ chính được hỗ trợ bởi Gemini:

Google Gemini (chatbot). Nơi rõ ràng nhất mà Google triển khai Gemini là với chatbot-trước-đây-là-Bard. Nó cũng được gọi là Gemini và là đối thủ trực tiếp của ChatGPT hơn là thay thế cho Tìm kiếm. Nó có chế độ nghiên cứu sâu, có thể tìm kiếm trên web và tích hợp với các ứng dụng khác. Bạn thậm chí có thể tùy chỉnh nó với một tính năng gọi là Gems. Nếu bạn đã ở sâu trong hệ sinh thái của Google, đây là một công cụ tuyệt vời.
Google Workspace. Khu vực khác mà Gemini hiện diện mạnh mẽ là các ứng dụng Workspace của Google như Gmail, Docs và Sheets. Bạn cần đăng ký Business Standard ($14/người/tháng) để sử dụng đầy đủ sức mạnh của Gemini trên tất cả các ứng dụng khác nhau, nhưng nó có thể làm được rất nhiều.

Các nhà phát triển có thể truy cập bản xem trước của Google Gemini 2.5 Pro và 2.5 Flash cũng như sử dụng Gemini 2.0 Flash và các mô hình khác thông qua Gemini API trong Google AI Studio hoặc Google Cloud Vertex AI. Điều này cho phép họ đào tạo thêm Gemini trên dữ liệu của riêng mình để xây dựng các công cụ mạnh mẽ như cách mà mọi người đã làm với GPT.

Cách truy cập Google Gemini

Cách dễ nhất để khám phá Gemini là thông qua chatbot cùng tên. Nếu bạn đăng ký một gói Gemini, bạn cũng có thể sử dụng nó trên các ứng dụng khác nhau của Google. Các nhà phát triển cũng có thể thử nghiệm Google Gemini 2.5 Pro, 2.5 Flash và các mô hình khác thông qua Google AI Studio hoặc Vertex AI. Với sự tích hợp của Google Vertex AI và Google AI Studio, bạn có thể truy cập các mô hình Gemini mới nhất từ tất cả các ứng dụng bạn sử dụng trong công việc. Dưới đây là một vài ví dụ để bạn bắt đầu, hoặc bạn có thể tìm hiểu thêm về cách sử dụng Google Gemini để tối ưu hóa công việc của mình.

Cập nhật ngày 19/06/2025: Bổ sung nội dung từ ‘Google ra mắt Gemini 2.5 Pro’