Qwen 3.5 vừa thả xích loạt model nhỏ gọn. Anh em GPU 'khoai tây' sướng rơn vì hiệu năng ảo ma, trong khi mấy ông ôm card to đang hoang mang tột độ.

Sáng ra chưa kịp hớp ngụm cafe nào đã thấy giang hồ đồn đại Qwen 3.5 vừa thả xích một loạt model phiên bản "tí hon". Nghe đâu mấy con hàng này nhỏ mà có võ, định viết lại định nghĩa về hiệu năng trên máy yếu. Để tôi vào việc luôn cho nóng.
Team Qwen (của mấy pháp sư Trung Hoa Alibaba) vừa âm thầm "drop" một loạt các biến thể nhỏ của Qwen 3.5. Không kèn không trống, nhưng chấn động thì khỏi bàn.
Cụ thể là các size siêu nhỏ kiểu 0.8B, 1.5B, 3B và 9B. Mục tiêu là gì? Là để mấy ông dev nghèo chạy trên laptop ghẻ, hay thậm chí là nhét AI vào cái điện thoại cùi bắp. Cái thời mà phải cầm A100 mới chạy được model ngon có vẻ sắp hết rồi anh em ạ.
Lượn một vòng cái động r/LocalLLaMA, tôi thấy không khí như trẩy hội. Mấy ông dev đang sướng rơn người:
Team "Máy Khoai Tây" (Potato GPU) mở tiệc: Một ông thần tên cms2307 thốt lên: "Con 9B này kẹp giữa GPT-OSS 20B và 120B luôn. Đúng là Giáng sinh đến sớm cho mấy thằng card yếu như tao". Ngay lập tức, Lorian0x7 vào bơm đểu thêm: "Thật ra nó đấm vỡ mồm con 120B ở hầu hết các bài test, trừ khoản coding ra nhé". Nghe ảo ma Canada chưa?
Thợ rèn (Quantizers) vào việc: Ông stopbanni với đội ngũ Unsloth đã tay nhanh hơn não, lôi ngay con 0.8B ra quantize (nén) lại rồi. Tốc độ cứ gọi là bàn thờ.
Góc nhìn kỹ thuật: Thanh niên sonicnerd14 tỉnh táo hơn, quăng ngay cái "hotfix" bằng cơm: "Mấy ông nhớ chỉnh prompt tắt cái chế độ 'thinking' đi, set temperature tầm 0.45 thôi. Mấy con 3.5 này bị cái bệnh 'nghĩ nhiều' (overthink) rồi tự hủy, nói lan man chả ra đâu vào đâu. Cơ mà công nhận Vision (nhìn ảnh) của nó nét hơn hẳn".
Góc hoài niệm: Firepal64 thì ngồi cười khẩy: "Hài thật, cái thời GPT-2 ra mắt, 2 tỷ tham số (2B) là to vật vã. Giờ 2B người ta gọi là 'micro', dành cho điện thoại". Đúng là vật đổi sao dời.
Thực tế mà nói, vụ này là tin cực vui cho anh em Indie Hacker hoặc mấy ông muốn build tool tự động hóa chạy local 24/7.
Thứ nhất, chi phí vận hành giảm tụt quần. Không cần thuê server khủng, con NUC ở nhà cũng cân tốt. Thứ hai, quyền riêng tư. Chạy local thì bố ai biết ông đang hỏi nó cái gì, tha hồ mà "nghịch".
Tuy nhiên, đừng có hype quá đà. Model nhỏ vẫn là model nhỏ, nó có thể thông minh đột xuất nhưng cũng có thể ngu bất thình lình (hallucination). Nhất là cái vụ "overthink" mà dân mạng đang kêu ca, anh em code app nhớ handle vụ prompt cho kỹ, không nó lại trả lời đi vào lòng đất.
Tóm cái váy lại: Tải về mà test đi, RAM 8GB cũng chơi được thì tội gì không thử?
Reddit: Breaking - The small qwen3.5 models have been dropped