Qwen 3.5 bản nhỏ ra mắt: Cứu tinh cho anh em máy 'khoai tây'

Sáng ra chưa kịp hớp ngụm cafe nào đã thấy giang hồ đồn đại Qwen 3.5 vừa thả xích một loạt model phiên bản "tí hon". Nghe đâu mấy con hàng này nhỏ mà có võ, định viết lại định nghĩa về hiệu năng trên máy yếu. Để tôi vào việc luôn cho nóng.

Rốt cuộc là chuyện quái gì đang xảy ra?

Team Qwen (của mấy pháp sư Trung Hoa Alibaba) vừa âm thầm "drop" một loạt các biến thể nhỏ của Qwen 3.5. Không kèn không trống, nhưng chấn động thì khỏi bàn.

Cụ thể là các size siêu nhỏ kiểu 0.8B, 1.5B, 3B và 9B. Mục tiêu là gì? Là để mấy ông dev nghèo chạy trên laptop ghẻ, hay thậm chí là nhét AI vào cái điện thoại cùi bắp. Cái thời mà phải cầm A100 mới chạy được model ngon có vẻ sắp hết rồi anh em ạ.

Dân tình Reddit đang tế sống hay tung hô?

Lượn một vòng cái động r/LocalLLaMA, tôi thấy không khí như trẩy hội. Mấy ông dev đang sướng rơn người:

Team "Máy Khoai Tây" (Potato GPU) mở tiệc: Một ông thần tên cms2307 thốt lên: "Con 9B này kẹp giữa GPT-OSS 20B và 120B luôn. Đúng là Giáng sinh đến sớm cho mấy thằng card yếu như tao". Ngay lập tức, Lorian0x7 vào bơm đểu thêm: "Thật ra nó đấm vỡ mồm con 120B ở hầu hết các bài test, trừ khoản coding ra nhé". Nghe ảo ma Canada chưa?
Thợ rèn (Quantizers) vào việc: Ông stopbanni với đội ngũ Unsloth đã tay nhanh hơn não, lôi ngay con 0.8B ra quantize (nén) lại rồi. Tốc độ cứ gọi là bàn thờ.
Góc nhìn kỹ thuật: Thanh niên sonicnerd14 tỉnh táo hơn, quăng ngay cái "hotfix" bằng cơm: "Mấy ông nhớ chỉnh prompt tắt cái chế độ 'thinking' đi, set temperature tầm 0.45 thôi. Mấy con 3.5 này bị cái bệnh 'nghĩ nhiều' (overthink) rồi tự hủy, nói lan man chả ra đâu vào đâu. Cơ mà công nhận Vision (nhìn ảnh) của nó nét hơn hẳn".
Góc hoài niệm: Firepal64 thì ngồi cười khẩy: "Hài thật, cái thời GPT-2 ra mắt, 2 tỷ tham số (2B) là to vật vã. Giờ 2B người ta gọi là 'micro', dành cho điện thoại". Đúng là vật đổi sao dời.

Góc nhìn từ Coding4Food: Ngon, bổ, nhưng liệu có rẻ?

Thực tế mà nói, vụ này là tin cực vui cho anh em Indie Hacker hoặc mấy ông muốn build tool tự động hóa chạy local 24/7.

Thứ nhất, chi phí vận hành giảm tụt quần. Không cần thuê server khủng, con NUC ở nhà cũng cân tốt. Thứ hai, quyền riêng tư. Chạy local thì bố ai biết ông đang hỏi nó cái gì, tha hồ mà "nghịch".

Tuy nhiên, đừng có hype quá đà. Model nhỏ vẫn là model nhỏ, nó có thể thông minh đột xuất nhưng cũng có thể ngu bất thình lình (hallucination). Nhất là cái vụ "overthink" mà dân mạng đang kêu ca, anh em code app nhớ handle vụ prompt cho kỹ, không nó lại trả lời đi vào lòng đất.

Tóm cái váy lại: Tải về mà test đi, RAM 8GB cũng chơi được thì tội gì không thử?

Nguồn tham khảo

Reddit: Breaking - The small qwen3.5 models have been dropped

Rốt cuộc là chuyện quái gì đang xảy ra?

Team Qwen (của mấy pháp sư Trung Hoa Alibaba) vừa âm thầm "drop" một loạt các biến thể nhỏ của Qwen 3.5. Không kèn không trống, nhưng chấn động thì khỏi bàn.

Dân tình Reddit đang tế sống hay tung hô?

Lượn một vòng cái động r/LocalLLaMA, tôi thấy không khí như trẩy hội. Mấy ông dev đang sướng rơn người:

Team "Máy Khoai Tây" (Potato GPU) mở tiệc: Một ông thần tên cms2307 thốt lên: "Con 9B này kẹp giữa GPT-OSS 20B và 120B luôn. Đúng là Giáng sinh đến sớm cho mấy thằng card yếu như tao". Ngay lập tức, Lorian0x7 vào bơm đểu thêm: "Thật ra nó đấm vỡ mồm con 120B ở hầu hết các bài test, trừ khoản coding ra nhé". Nghe ảo ma Canada chưa?

Thợ rèn (Quantizers) vào việc: Ông stopbanni với đội ngũ Unsloth đã tay nhanh hơn não, lôi ngay con 0.8B ra quantize (nén) lại rồi. Tốc độ cứ gọi là bàn thờ.

Góc nhìn kỹ thuật: Thanh niên sonicnerd14 tỉnh táo hơn, quăng ngay cái "hotfix" bằng cơm: "Mấy ông nhớ chỉnh prompt tắt cái chế độ 'thinking' đi, set temperature tầm 0.45 thôi. Mấy con 3.5 này bị cái bệnh 'nghĩ nhiều' (overthink) rồi tự hủy, nói lan man chả ra đâu vào đâu. Cơ mà công nhận Vision (nhìn ảnh) của nó nét hơn hẳn".

Góc hoài niệm: Firepal64 thì ngồi cười khẩy: "Hài thật, cái thời GPT-2 ra mắt, 2 tỷ tham số (2B) là to vật vã. Giờ 2B người ta gọi là 'micro', dành cho điện thoại". Đúng là vật đổi sao dời.

Góc nhìn từ Coding4Food: Ngon, bổ, nhưng liệu có rẻ?

Thực tế mà nói, vụ này là tin cực vui cho anh em Indie Hacker hoặc mấy ông muốn build tool tự động hóa chạy local 24/7.

Tóm cái váy lại: Tải về mà test đi, RAM 8GB cũng chơi được thì tội gì không thử?

Drama Qwen 3.5: Khi lũ 'tiểu yêu' 9B đấm vỡ mồm mấy con hàng khủng long

Bình luận

Bài viết liên quan

Google thả xích Gemma 4 12B: Không thèm xài Encoder, kèo này thơm hay lại bánh vẽ?

Bóc trần sự thật AI: Khi giang cư mận phát hiện siêu trí tuệ chỉ là 'một đống weights'

Bóc phốt 'thợ gõ API': Stanford tung khóa CS336 dạy code LLM từ cõi hư vô

Needle: Khi pháp sư ép Tool Calling của Gemini vào con AI bé bằng hột é

Talkie 13B: Khi pháp sư rảnh háng lôi AI về thập niên 1930

Đánh giá Step 3.7 Flash: 11B Params, 400 TPS - Đồ Chơi Mới Cho Anh Em Thích Cắm Auto Agents

Drama Qwen 3.5: Khi lũ 'tiểu yêu' 9B đấm vỡ mồm mấy con hàng khủng long

Rốt cuộc là chuyện quái gì đang xảy ra?

Dân tình Reddit đang tế sống hay tung hô?

Góc nhìn từ Coding4Food: Ngon, bổ, nhưng liệu có rẻ?

Nguồn tham khảo

Bình luận

Bài viết liên quan

Google thả xích Gemma 4 12B: Không thèm xài Encoder, kèo này thơm hay lại bánh vẽ?

Bóc trần sự thật AI: Khi giang cư mận phát hiện siêu trí tuệ chỉ là 'một đống weights'

Bóc phốt 'thợ gõ API': Stanford tung khóa CS336 dạy code LLM từ cõi hư vô

Needle: Khi pháp sư ép Tool Calling của Gemini vào con AI bé bằng hột é

Talkie 13B: Khi pháp sư rảnh háng lôi AI về thập niên 1930

Đánh giá Step 3.7 Flash: 11B Params, 400 TPS - Đồ Chơi Mới Cho Anh Em Thích Cắm Auto Agents

Rốt cuộc là chuyện quái gì đang xảy ra?

Dân tình Reddit đang tế sống hay tung hô?

Góc nhìn từ Coding4Food: Ngon, bổ, nhưng liệu có rẻ?

Nguồn tham khảo