Google đột phá với Genie 2: Công nghệ tạo thế giới 3D tương tác từ văn bản

Đăng bởi: Linh Nguyễn • Ngày: 05/12/2024

Chỉ trong vài năm ngắn ngủi, nghệ thuật AI đã tiến hóa từ mô phỏng hình ảnh 2D từ văn bản thành những video 3D được tạo ra tự động. Hôm nay, công nghệ đã tiến thêm một bước với Genie 2 của Google, cho phép tạo ra các thế giới game 3D có thể chơi được ngay từ một chuỗi văn bản đơn giản.

Genie 2 là bước phát triển tiếp theo của môi trường lập trình sáng tạo của Google, sử dụng trí tuệ nhân tạo để tạo ra những môi trường tương tác mới ngay tức thì. Genie 1, được phát hành vào tháng 2, chỉ có thể tạo ra các môi trường 2D, nhưng Genie 2, vừa được công bố, đã đưa điều đó vào không gian 3D.

Theo Google, Genie 2 là một “mô hình thế giới”, nó có khả năng mô phỏng các thế giới ảo với những hiệu ứng động, vật lý và tương tác đối tượng. Quy trình tạo ra một thế giới 3D gồm hai bước: Genie 2 cần một hình ảnh tham chiếu để phát triển một thế giới mới, nhưng hình ảnh đó có thể được tạo ra từ một chuỗi văn bản bình thường. Muốn có một thế giới viễn tưởng kiểu Western? Genie 2 có thể tạo ra. Một mô phỏng chèo thuyền? Cũng không thành vấn đề. Bạn chỉ cần bắt đầu với một tham chiếu hoặc đề xuất phù hợp.

Trong quá trình trình diễn của Google, Genie 2 được kết hợp với hình ảnh do công cụ Imagen 3 tạo ra, cùng với những bản vẽ ý tưởng được nghệ sĩ vẽ tay. Người chơi — có thể là AI hoặc con người — đều có thể tương tác với môi trường trong thế giới này. Trong buổi demo, Google đã sử dụng thiết lập WASD truyền thống, với các phím mũi tên làm lựa chọn thay thế.

Một thách thức lớn hiện nay là sự nhất quán của mô hình. Với lý do nào đó, mô hình thường mất sự mạch lạc sau một thời gian ngắn, thường là khoảng 20 giây. (Mô hình dài nhất mà Google đã tạo ra dài được một phút.)

Lí do một phần có thể do mô hình có khả năng tạo ra “những tình huống phản sự kiện”, hoặc những con đường và hành động khác nhau mà người chơi có thể lựa chọn từ một điểm xuất phát cố định — chẳng hạn như rẽ trái hay phải ở một ngã ba đường. Mô hình cần phải tính đến một “horizon dài”, điều gì sẽ xảy ra khi một người chơi quay đi, rồi nhìn lại cảnh cũ một lần nữa.

Google cho biết Genie 2 có thể thích hợp với các góc nhìn khác nhau, như góc nhìn isometric, góc nhìn thứ ba kiểu lái xe, hoặc góc nhìn thứ nhất. Các hiệu ứng nước và các tương tác phức tạp với môi trường đều được tính đến. Trong một buổi trình diễn, một người chơi có thể chém nổ một quả bóng bay. Các hiệu ứng khói, trọng lực và phản xạ đều được mô phỏng, nhưng Google không nói rõ đến độ phân giải hoặc số lượng các đa giác được tính toán trên mỗi khung hình.

Các thế giới của Genie 2 không chỉ dành cho con người. Những “người chơi” AI cũng có thể được mô hình hóa, hoặc như nhân vật không phải người chơi (NPC), hoặc như nhân vật chính. Google đã trình diễn cách mà AI có thể được yêu cầu đi qua một cánh cửa cụ thể bằng một đề xuất văn bản, và cách nó có thể nhận ra lệnh này, hiểu ý nghĩa trong môi trường đã tạo và sau đó thực hiện.

Tuy nhiên, Google chưa tiết lộ nhu cầu tài nguyên tính toán mà Genie 2 đòi hỏi, liệu công cụ này có được công khai hay không, hoặc thậm chí là có kế hoạch thương mại hóa nó hay không. Nhưng với việc AI đã dần thâm nhập vào các trò chơi qua các đối thoại được tạo ra bởi AI, có vẻ như các trò chơi mô phỏng bằng AI có thể trở thành hiện thực. Chỉ là chưa phải ngay lúc này.