Mấy nay giang hồ đang đồn đại về con hàng Qwen3.5-35B-A3B, bảo là "game changer" gì đó. Thú thật với các ông, tôi nghe mấy cái benchmark lòe loẹt là tôi ngán tận cổ rồi, toàn "lùa gà" là chính. Nhưng lần này, một dân chơi trên Reddit đã trực tiếp test con này trên máy nhà (local) và kết quả phải nói là... ảo ma Canada thật sự.
Anh em nào đang ôm mấy con card RTX 3090 hay 4090 cũ mèm ở nhà thì rửa tai mà nghe, kèo này thơm phức.
1. Vụ án "Quái vật" 35B trên máy tính cá nhân
Chuyện là có ông thần trên Reddit (tạm gọi là "Chủ Thớt") không tin vào mấy con số benchmark nên quyết định tự tay vọc vạch. Cấu hình lão dùng là một con headless Linux box cắm duy nhất 1 con RTX 3090. Lão biên dịch lại Llama.cpp mới nhất và chạy con model Qwen3.5-35B-A3B-MXFP4_MOE.gguf.
Cấu hình lão chạy đại khái như này (anh em nào thích vọc thì copy về mà paste):
./llama.cpp/llama-server \
-m /models/Qwen3.5-35B-A3B-MXFP4_MOE.gguf \
-a "DrQwen" \
-c 131072 \
-ngl all \
-ctk q8_0 \
-ctv q8_0 \
-sm none \
-mg 0 \
-np 1 \
-fa on
Kết quả? Nó ngốn khoảng 22GB VRAM (vừa khít con 3090 luôn, mượt chưa?). Và đây là những thứ khiến tôi phải giật mình:
- Tốc độ bàn thờ: Nó bắn ra hơn 100 tokens/giây (t/s). Nhanh hơn cả người yêu cũ trở mặt.
- Hủy diệt bài test tuyển dụng: Chủ thớt lôi bài test coding "tủ" dùng để tuyển Mobile Dev Mid-level ra thử. Bình thường người thật làm mất 5 tiếng, con AI này nó quẩy xong trong 10 phút. Kết quả: Strong Pass (Đậu chót vót).
- Clone Dashboard trong một nốt nhạc: Lão thử tái tạo lại cái dashboard mà OpenAI từng demo cho Cursor mùa hè năm ngoái. Qwen3.5 làm gỏi cái đó trong 5 phút.
Cơ bản là: Con này chạy local, không tốn tiền API, nhanh, và code khôn hơn khối ông dev ngồi rung đùi cắn móng tay.
2. Cộng đồng Dev nói gì? (Combat cực căng)
Ngay khi bài viết lên sóng, anh em đồng đạo đã lao vào mổ xẻ nhiệt tình. Dưới đây là mấy luồng ý kiến chính tôi gom nhặt được:
- Phe "Rich Kid" Flex cấu hình: Một tay chơi dùng RTX 5090 (vâng, 5090 đấy) vào comment nhẹ nhàng: "Tao chạy được 180 t/s nhé". Đúng là tiền nhiều để làm gì, để chạy AI nhanh hơn người khác chứ làm gì.
- Phe "Táo Khuyết" (Macbook): Mấy ông dùng M4 Max cũng không chịu thua kém, báo cáo chạy được tầm 60 t/s với LMStudio. Tuy không bằng đám RTX nhưng với laptop thì cũng là "hết nước chấm".
- Phe "Soi Kèo": Có ý kiến so sánh con này với Sonnet 4.5 (hàng xịn của Anthropic). Họ đánh giá Qwen 27B/35B code ngang ngửa Sonnet 4.5, tư duy rất tốt, biết search web thay vì chém gió (hallucinate) lung tung. Nhược điểm duy nhất là kiến thức chuyên sâu đôi khi bị "hụt hơi" do số lượng tham số (parameter) thấp hơn bọn model khổng lồ.
- Cảnh báo của các "Pháp sư": Một thanh niên (chickN00dle) cảnh báo anh em cẩn thận vụ Quantization (nén model). Nếu để KV cache ở mức thấp quá (Q4), model dễ bị "ngáo" khi context dài lên tới 20-40k tokens, đặc biệt là viết sai LaTeX. Khuyên anh em nên dùng Q8 cho cache nếu dư VRAM.
3. Góc nhìn từ Coding4Food: Chén cơm hay là toang?
Nói đi cũng phải nói lại, vụ này cho thấy hai điều:
- Local AI đã thực sự dùng được: Không cần phải cúng tiền cho OpenAI hay Anthropic mỗi tháng nữa. Với một con GPU tầm trung cao (3090/4090 cũ giờ giá cũng mềm), anh em có thể tự dựng một con "Junior Dev" không biết mệt mỏi ngay tại nhà. Bảo mật tuyệt đối, code dự án công ty không sợ bị leak.
- Bài học xương máu: Nếu một con AI chạy trên máy cá nhân giải quyết bài test tuyển dụng 5 tiếng trong 10 phút, thì hoặc là bài test của chúng ta quá phế, hoặc là tiêu chuẩn tuyển dụng sắp thay đổi chóng mặt.
Chốt hạ: Anh em dev đừng cười vội. Tải về vọc ngay đi xem nó code thế nào. Đừng để đến lúc đi phỏng vấn bị thằng AI nó "outplay" thì lúc đấy lại bảo tại số.
Nguồn tham khảo: Reddit