Google vừa thả xích Gemini Omni với lời hứa hẹn kết hợp tư duy logic và tạo video mượt mà. Đẳng cấp mới của GenAI hay chỉ là bánh vẽ? Cùng anh em dev mổ xẻ.

Dạo này cõi mạng AI lại rần rần vụ Google thả xích con hàng mới tên là Gemini Omni. Nghe giang hồ đồn đại đây là vũ khí tối thượng kết hợp tư duy logic và khả năng tạo video ảo ma canada, định làm trùm sò mảng GenAI đây mà. Anh em cùng pha cốc cà phê, ngồi xuống để tôi bóc tách xem con hàng này có gì xịn xò hay lại chỉ là một cú demo lùa gà nhé.
Nói tóm cái váy lại, Gemini Omni hứa hẹn một tính năng thần thánh: nhập gì cũng được, xuất ra cái gì cũng xong, đặc biệt ưu tiên xử lý video. Nó không chỉ là dạng Text to Video AI thông thường, mà Google tuyên bố con này có khả năng kết hợp "khả năng suy luận" (reasoning) với "sáng tạo" (create).
Ngó qua phần comment trên Product Hunt, dân tình đang chia ra làm mấy luồng ý kiến khá thú vị:
1. Phe Hype bốc trời: Đạo hữu có nick saaswarrior khen nức nở, gọi nó là "Nano Banana của làng tạo video" (mặc dù tôi đ*o hiểu Nano Banana là cái thuật ngữ ma giáo gì, chắc ý là nhanh và mượt). Lão này hào hứng với việc chỉ cần 1 prompt, 1 bức phác thảo là ra ngay video xịn.
2. Phe soi bug chí mạng (The Real MVPs): Một pháp sư ẩn danh khác bay vào reply saaswarrior với một câu hỏi chí mạng: "Thế tính nhất quán về thời gian và nhận dạng nhân vật (temporal consistency) thì sao?". Lão quái này chỉ ra một thực tế phũ phàng: tạo video AI đẹp 3 giây thì dễ, nhưng để duy trì góc máy, phong cách, và khuôn mặt nhân vật không bị đột biến gen xuyên suốt nhiều cảnh là cực khó. Liệu Gemini Omni có "creative memory" (trí nhớ sáng tạo) để hiểu ngữ cảnh qua từng lần prompt, hay mỗi lần enter là não nó lại reset?
3. Phe thực dụng: Đa số anh em dev đều gật gù với quan điểm: Cái ăn tiền nhất của Omni không phải là tạo ra video từ hư vô, mà là khả năng chỉnh sửa và thấu hiểu thế giới vật lý. Việc kết hợp reasoning vào generation chính là điểm nghẽn mà mọi tool ai video hiện nay đang sấp mặt. Thường thì video AI hiện tại trông rất mướt ở giây đầu, đến giây thứ 5 là con mèo bắt đầu mọc thêm 2 cái đuôi và bóp méo không gian. Nếu Omni fix được cái này, giang cư mận sẵn sàng quỳ lạy.
Nói đi cũng phải nói lại, tương lai anh em dev (đặc biệt là dân làm tool AI) sẽ nhàn hơn rất nhiều nhưng cũng dễ ra chuồng gà ngồi nếu không biết xài API của mấy đại ca này. Nhìn xa thì việc dịch chuyển từ "tạo bừa" sang "có tư duy và chỉnh sửa được" là một bước đi rất đúng đắn của Google.
Nhưng mà khoan vội ảo tưởng sức mạnh. Demo marketing lúc nào chả lấp lánh như crush của các ông, đến khi đem vào prod chạy thật thì mới lòi ra 7749 cái bug, cắn RAM và sập server liên tọi.
Chốt hạ: Bài học cho anh em là cứ bình tĩnh. Chờ API nhả ra, lấy key về test xem nó xử lý context thế nào, có bị hallucination (ảo giác) nhiều không rồi hãy quyết định đập đi xây lại cái tech stack của công ty. Đừng vội Fomo kẻo lại toang!
Nguồn hóng hớt: Product Hunt - Gemini Omni