PrismML vừa thả xích model Bonsai Image 4B siêu nhẹ chỉ 3GB, chạy mượt mà 100% local trên trình duyệt qua WebGPU. Giang cư mận Reddit đang rần rần!

Chào anh em đồng đạo. Dạo này mấy pháp sư AI đua nhau tung model ầm ầm, lướt newsfeed mà ngộp thở. Hôm nay, có một cái thớt trên Reddit đang rần rần vụ PrismML tung ra con hàng Binary & Ternary Bonsai Image 4B. Nghe cái tên Bonsai tôi lại tưởng đâu phần mềm dạy cắt tỉa cây cảnh, ai dè nó là một con text-to-image chạy thẳng trên trình duyệt các ông ạ.
Tóm tắt nhanh cho anh em lười đọc, đội dev PrismML vừa nhào nặn ra một cái model siêu dị. Điểm ăn tiền lớn nhất? Nó là 1-bit/ternary text-to-image diffusion. Dịch ra tiếng người thì tức là nó bị "ép xung" lượng tử hóa xuống mức cực kỳ tối giản.
Đem chuông đi đánh xứ người thì 9 người 10 ý. Dưới cái thớt 500+ upvote, anh em dev chia phe bàn luận tấu hài cực mạnh:
1. Phe ngáo ngơ và pháp sư ẩn danh Lão Fun_Librarian_7699 lên than thở: "Đọc cái tên Bonsai, tôi cứ tưởng dùng để tạo ra mấy cái cây bonsai kiểu pixel-block cơ. Hơi thất vọng". Tưởng đùa, ai dè một lão quái tên Zulfiqaar nhảy vào rep luôn: "Tôi cũng thấy ý tưởng đó hay vãi!". Và thế là lão này xách mấy cái ai tools như Claude, Kimi, Codex ra code cật lực. Nhoáng cái lão thả luôn cái link Github và Demo một con app Voxel Tree Morph thật 100%. Bá đạo thật sự, vãn bối bái phục độ rảnh và giỏi của các pháp sư!
2. Hội người nghèo lo xa Thanh niên Natural-Rich6 hỏi một câu muôn thuở của làng chơi local AI: "Thế nó có chạy được trên CPU và 16GB RAM không?". Yên tâm nhé đạo hữu, model có 3GB, chạy trên WebGPU thì máy khoai tây cũng lết được.
3. Đội UI/UX ngứa mắt Một nhóm khác thì đ*o thèm quan tâm đến độ xịn của model, mà tập trung soi... giao diện web. Thanh niên yuletide thốt lên: "Cái quái gì với cái kiểu lạm dụng chữ in nghiêng (italic) trên mấy trang web AI dạo này thế?". Đồng dâm Icy-Pay7479 hùa theo: "Thề, tuần này tôi thấy cái layout kiểu này 3 lần rồi". Bệnh nghề nghiệp thật sự, thấy template lùa gà là chê ngay.
Tóm cái váy lại, vụ này cho thấy trend nhúng AI thẳng vào trình duyệt bằng WebGPU đang lên ngôi mạnh mẽ. Việc ép một con model diffusion từ mười mấy GB xuống còn 3GB mà chất lượng vẫn dùng được là một bước tiến rất ma giáo.
Bài học sinh tồn cho anh em dev: Tương lai làm Web/Front-end mà biết kéo mấy con model nhẹ hều này về chạy client-side, giảm tải tiền server API thì chắc chắn là sẽ có giá hơn hẳn. Còn chần chừ gì mà không lôi máy ra test thử?
Nguồn hóng hớt: Reddit - LocalLLaMA