Ideogram 4.0 vừa ra mắt với khả năng kiểm soát layout bằng file JSON, hỗ trợ ép màu Hex và đa ngôn ngữ. Liệu có xịn xò hay lại rớt đài khi thực chiến?

Chào anh em đồng đạo. Đang lướt Product Hunt định kiếm ít drama hít cho đỡ buồn ngủ thì đập ngay vào mắt là con Ideogram 4.0. Thề với anh em, cái trò text-to-image xưa nay toàn làm anh em vã mồ hôi hột. Gen ra cái ảnh thì đẹp đấy, nhưng chữ dán lên thì như giun dế cắn thuốc, lệch lên lệch xuống đúng không? Nay có vẻ giang hồ sắp sửa quay xe rồi.
Tóm tắt nhanh cho anh em lười đọc, Ideogram 4.0 là một model AI open-weight (nghĩa là anh em có thể vác về một con vps mà tự host rồi fine-tune thoải mái). Nó không phải kiểu sinh ảnh bừa phứa, mà focus cực mạnh vào thiết kế thực dụng: typography, logo, poster, và brand visual.
Cái "ảo ma" nhất của phiên bản này là nó giải quyết pain-point chí mạng bằng cách train thẳng model trên tọa độ bounding-box thông qua file JSON. Cụ thể:
#FF0000 vào prompt là nó ra đúng màu đỏ, không lôm côm.Đồ mới ra thì chắc chắn cộng đồng sẽ chia phe combat rồi. Lướt qua phần comment thì thấy có mấy luồng ý kiến đáng chú ý thế này:
Phe pháp sư tâng bốc: Rohan (người bế project này lên top) khen nức nở. Lão phân tích là trước giờ mấy con open-source sinh ảnh toàn phế vụ layout, thường xuyên "gãy" khi cần nhét copy vào đúng chỗ. Việc Ideogram 4.0 ép tọa độ từ khâu training đúng là vị cứu tinh cho mấy tay ML engineer.
Bí kíp từ người trong kẹt: Ada (nhân viên của Ideogram) trồi lên chỉ điểm một trick khá là ma giáo: Anh em cứ dùng prompt ngôn ngữ tự nhiên trước để model nó phọt ra một cái layout ưng ý, xong chộp luôn cái cục JSON đấy mà chọc ngoáy, tinh chỉnh lại tọa độ theo ý muốn. Khôn phết!
Phe hoài nghi, test nhân phẩm: Một thanh niên tên Tom đặt ngay câu hỏi chí mạng: "Nếu nhét một đống text vào, layout có bị trôi như mấy model độc quyền khác không?". Dev Ideogram cũng thật thà rep lại: "Không đến mức pixel-perfect 100% đâu bác, nhưng mà cũng xấp xỉ rồi". Tạm ghi nhận sự thành thật.
Phe cay cú bóc phốt: Có ông user vô ném đá vì lúc xem video teaser thì thấy có tính năng "editable text" (sửa chữ trực tiếp trên ảnh sau khi gen), nhưng lúc release thì lại... tịt ngòi. Lại một pha thả thính PR hơi lố chăng?
Tóm cái váy lại, thị trường AI đang chuyển từ việc "gen ra cái ảnh ngắm cho vui" sang "gen ra tài nguyên thiết kế xài được luôn". Anh em thợ code, đặc biệt là mấy lão đang cày cuốc làm tool design hoặc làm marketing automation, nên nghía qua vụ dùng JSON để control layout này.
Tư duy của Ideogram rất chuẩn bài lập trình viên: biến một cái hộp đen AI đầy rủi ro thành một thứ có cấu trúc, tọa độ rõ ràng. Tuy vẫn còn vài hạt sạn như chưa ra mắt hết tính năng PR, nhưng hướng đi này là quá mượt. Evolve or die, anh em tranh thủ update công nghệ đi trước khi bị bọn trẻ nó hất văng khỏi ghế nhé!
Nguồn tham khảo: Product Hunt - Ideogram 4.0