Lướt Product Hunt hóng drama, nhặt được con AI text-to-video tự xưng là 'bầy đạo diễn AI' cân hết từ kịch bản đến render. Thực hư độ ảo ma này thế nào?

Dạo này giang hồ AI nổi lên cái trò "text-to-video" nhiều như nấm sau mưa, nhưng phần lớn toàn bắt anh em đẻ ra mấy cái prompt dài như cái sớ Táo quân. Nào là góc máy, ánh sáng, thông số len... mệt mỏi vãi chưởng. Hôm nay lướt Product Hunt hóng gió, tôi vớ được một kèo khá "ảo ma" tên là Vivago Video Agent, nghe bảo dẹp luôn khâu viết prompt rườm rà.
Chuyện là 2 năm trước, team Vivago này từng lọt Top 3 Product of the Day. Nay các pháp sư comeback với phiên bản Video Agent nâng cấp bá đạo hơn.
Đại khái, các lão ấy tuyên bố: Dẹp mấy cái prompt lằng nhằng đi! Anh em chỉ cần quăng cho nó một câu ý tưởng bằng ngôn ngữ tự nhiên (kiểu: "một con mèo hút xì gà trên sao Hỏa"), phần còn lại cứ để máy lo.
Cách nó chạy cũng rất ma giáo:
Lướt comment thì thấy giang cư mận chia làm mấy phe rõ rệt, nhưng đa số là khen cái luồng (workflow) của bọn này.
Phe lười biếng (nhưng thích hiệu quả): Khen nức nở vụ mượt mà và tính nhất quán (coherence) của video. Anh em bảo trước rặn từng góc máy trầm cảm luôn, giờ có tool lo hộ cái khâu mường tượng khung hình, chỉ việc xem preview rồi gật đầu là khỏe ru.
Phe pháp sư tò mò kỹ thuật: Một cao nhân nhảy vào hỏi: "Không có prompt thì model nó hiểu kiểu quái gì mà mượt thế?". Lão dev của Vivago liền ra mặt chém gió ngay: Thay vì bắt cái model gánh còng lưng mớ text hỗn độn, họ đẻ ra một hệ thống Agent 3 lớp (Tools + Skills + Workflows) nhúng thẳng vào nhân con model HiDream-O1-Image. Tức là AI nó tự lập plan và tự gọi tool để xào nấu kịch bản chứ không phụ thuộc vào text prompt thuần túy.
Phe thích quay xe (thích sửa đổi): Dân tình thắc mắc: "Lỡ video gen ra bị ngu thì có sửa được không, hay lại phải đập đi xây lại từ đầu tốn 50 phút?". Trưởng lão Vivago chốt hạ: Bản 15s cho phép anh em combat cãi nhau với AI tới 10 hiệp để sửa. Riêng bản 3 phút (đang Beta) thì cho chat tự do không giới hạn, muốn nắn nót khung hình nào thì chửi thẳng vào mặt con AI để nó sửa. Khá khét!
Rõ ràng xu hướng làm ai video đang dịch chuyển mạnh. Thay vì ép user phải học cách xài tool (kiểu prompt engineering), xu hướng bây giờ là bắt tool phải học cách hiểu ý người dùng.
Việc tích hợp Agent vào workflow (như cách Vivago làm 'swarm of directors') là một case study cực ngon để anh em dev học hỏi. Đừng quăng hết mọi thứ cho một con LLM khổng lồ xử lý rồi ngồi khấn cho nó đừng hallucination (ảo giác). Hãy chia nhỏ task, dùng nhiều con Agent xử lý từng việc cụ thể (lên kịch bản, vẽ storyboard, render)... Đó mới là tư duy làm sản phẩm thực dụng.
Tóm cái váy lại, tool xịn thì xịn, nhưng anh em cày cuốc cũng đừng quên nâng cấp tư duy logic. Đừng để sau này con AI nó cướp bát cơm của cả đạo diễn lẫn dev nhé!
Nguồn: Product Hunt