Coding4Food LogoCoding4Food
HomeCategoriesArcadeBookmarks
vi
HomeCategoriesArcadeBookmarks
Coding4Food LogoCoding4Food
HomeCategoriesArcadeBookmarks
Privacy|Terms

© 2026 Coding4Food. Written by devs, for devs.

This article is not yet available in English. Showing the Vietnamese version.

All news
AI & AutomationĐồ Nghề & Tech Stack

Qwen3.5-35B-A3B: Quái vật Coding chạy Local khiến anh em 3090 sướng rơn người

February 26, 20264 min read

Dẹp benchmark ảo ma đi, thực tế con hàng Qwen3.5-35B-A3B chạy trên RTX 3090 code như thần, giải đề phỏng vấn 5 tiếng trong 10 phút. Anh em dev vào xem ngay!

Share this post:
matrix, code, computer, pc, data, program, computer virus, programming, zoom background, coding, wallpaper, matrix, matrix, matrix, matrix, matrix, code, code, computer, computer, data, data, programming, coding, coding
Nguồn gốc: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-reviewNguồn gốc: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review
Nguồn gốc: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-reviewNguồn gốc: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review
qwen3.5-35blocal llmai codingrtx 3090llama.cppai agentopencode
Share this post:

Bình luận

Related posts

Paid for Claude Pro Max, Ran Out of Quota in 90 Mins: Devs Are Rioting
IT DramaAI & Automation

Paid for Claude Pro Max, Ran Out of Quota in 90 Mins: Devs Are Rioting

Forked out cash for Claude's Pro Max tier only to hit a rate limit wall in 1.5 hours? Let's dive into the GitHub issue #45756 that's blowing up on Hacker News.

Apr 133 min read
Read more →
Stagewise Review: The Open-Source Coding Agent That Actually 'Sees' Your App
AI & AutomationTools & Tech Stack

Stagewise Review: The Open-Source Coding Agent That Actually 'Sees' Your App

Stagewise is a game-changing open-source coding agent that runs in its own browser, reads the DOM, and edits code contextually. Say goodbye to blind AI tools.

Apr 163 min read
Read more →
coding, programming, working, macbook, laptop, technology, office, desk, business, coding, coding, coding, coding, coding, programming, programming, programming
TechnologyAI & Automation

Intent AI: Another Overhyped Tool or the Dev Savior We Actually Need?

Deep dive into Intent by Augment Code, the new multi-agent workspace blowing up on Product Hunt. Let's see if it's black magic or just another AI wrapper.

Apr 163 min read
Read more →
grand central station, new york, grand central terminal, manhattan, architecture, nyc, terminal, transport, america, landmark, building, travel, people, famous, midtown, tourism, crowd, flag, hall, new york, new york, new york, new york, new york, crowd, hall
AI & AutomationTools & Tech Stack

Claude Code drops /ultraplan: Stop letting AI blindly nuke your codebase

Claude Code's new /ultraplan command moves planning from the CLI to a web UI. Finally, you can review and annotate AI plans before letting it touch your local code.

Apr 123 min read
Read more →
ai generated, mask, man, anonymous, cyber threat, hacker, cybernetic, code, crime, cyberspace, hacker, hacker, hacker, hacker, hacker
Tools & Tech StackAI & Automation

LaReview: The Rust-Powered PR Review Tool Saving Devs from AI Spam

Tired of infinite PR scrolling? LaReview turns diffs into task trees, runs AI locally so your code stays safe, and is built in blazing-fast Rust.

Apr 112 min read
Read more →
ai generated, woman, mechanisms, complex, mechanics, robot, wires, circuits
AI & AutomationTechnology

Anthropic Drops 'Claude Advisor': A Wallet-Saver or Just Another Orchestration Gimmick?

Anthropic launched the Claude Advisor tool, flipping the traditional multi-agent pattern on its head. Will this actually save developers from massive API bills?

Apr 113 min read
Read more →

Mấy nay giang hồ đang đồn đại về con hàng Qwen3.5-35B-A3B, bảo là "game changer" gì đó. Thú thật với các ông, tôi nghe mấy cái benchmark lòe loẹt là tôi ngán tận cổ rồi, toàn "lùa gà" là chính. Nhưng lần này, một dân chơi trên Reddit đã trực tiếp test con này trên máy nhà (local) và kết quả phải nói là... ảo ma Canada thật sự.

Anh em nào đang ôm mấy con card RTX 3090 hay 4090 cũ mèm ở nhà thì rửa tai mà nghe, kèo này thơm phức.

1. Vụ án "Quái vật" 35B trên máy tính cá nhân

Chuyện là có ông thần trên Reddit (tạm gọi là "Chủ Thớt") không tin vào mấy con số benchmark nên quyết định tự tay vọc vạch. Cấu hình lão dùng là một con headless Linux box cắm duy nhất 1 con RTX 3090. Lão biên dịch lại Llama.cpp mới nhất và chạy con model Qwen3.5-35B-A3B-MXFP4_MOE.gguf.

Cấu hình lão chạy đại khái như này (anh em nào thích vọc thì copy về mà paste):

./llama.cpp/llama-server \ -m /models/Qwen3.5-35B-A3B-MXFP4_MOE.gguf \ -a "DrQwen" \ -c 131072 \ -ngl all \ -ctk q8_0 \ -ctv q8_0 \ -sm none \ -mg 0 \ -np 1 \ -fa on

Kết quả? Nó ngốn khoảng 22GB VRAM (vừa khít con 3090 luôn, mượt chưa?). Và đây là những thứ khiến tôi phải giật mình:

  • Tốc độ bàn thờ: Nó bắn ra hơn 100 tokens/giây (t/s). Nhanh hơn cả người yêu cũ trở mặt.
  • Hủy diệt bài test tuyển dụng: Chủ thớt lôi bài test coding "tủ" dùng để tuyển Mobile Dev Mid-level ra thử. Bình thường người thật làm mất 5 tiếng, con AI này nó quẩy xong trong 10 phút. Kết quả: Strong Pass (Đậu chót vót).
  • Clone Dashboard trong một nốt nhạc: Lão thử tái tạo lại cái dashboard mà OpenAI từng demo cho Cursor mùa hè năm ngoái. Qwen3.5 làm gỏi cái đó trong 5 phút.

Cơ bản là: Con này chạy local, không tốn tiền API, nhanh, và code khôn hơn khối ông dev ngồi rung đùi cắn móng tay.

2. Cộng đồng Dev nói gì? (Combat cực căng)

Ngay khi bài viết lên sóng, anh em đồng đạo đã lao vào mổ xẻ nhiệt tình. Dưới đây là mấy luồng ý kiến chính tôi gom nhặt được:

  • Phe "Rich Kid" Flex cấu hình: Một tay chơi dùng RTX 5090 (vâng, 5090 đấy) vào comment nhẹ nhàng: "Tao chạy được 180 t/s nhé". Đúng là tiền nhiều để làm gì, để chạy AI nhanh hơn người khác chứ làm gì.
  • Phe "Táo Khuyết" (Macbook): Mấy ông dùng M4 Max cũng không chịu thua kém, báo cáo chạy được tầm 60 t/s với LMStudio. Tuy không bằng đám RTX nhưng với laptop thì cũng là "hết nước chấm".
  • Phe "Soi Kèo": Có ý kiến so sánh con này với Sonnet 4.5 (hàng xịn của Anthropic). Họ đánh giá Qwen 27B/35B code ngang ngửa Sonnet 4.5, tư duy rất tốt, biết search web thay vì chém gió (hallucinate) lung tung. Nhược điểm duy nhất là kiến thức chuyên sâu đôi khi bị "hụt hơi" do số lượng tham số (parameter) thấp hơn bọn model khổng lồ.
  • Cảnh báo của các "Pháp sư": Một thanh niên (chickN00dle) cảnh báo anh em cẩn thận vụ Quantization (nén model). Nếu để KV cache ở mức thấp quá (Q4), model dễ bị "ngáo" khi context dài lên tới 20-40k tokens, đặc biệt là viết sai LaTeX. Khuyên anh em nên dùng Q8 cho cache nếu dư VRAM.

3. Góc nhìn từ Coding4Food: Chén cơm hay là toang?

Nói đi cũng phải nói lại, vụ này cho thấy hai điều:

  1. Local AI đã thực sự dùng được: Không cần phải cúng tiền cho OpenAI hay Anthropic mỗi tháng nữa. Với một con GPU tầm trung cao (3090/4090 cũ giờ giá cũng mềm), anh em có thể tự dựng một con "Junior Dev" không biết mệt mỏi ngay tại nhà. Bảo mật tuyệt đối, code dự án công ty không sợ bị leak.
  2. Bài học xương máu: Nếu một con AI chạy trên máy cá nhân giải quyết bài test tuyển dụng 5 tiếng trong 10 phút, thì hoặc là bài test của chúng ta quá phế, hoặc là tiêu chuẩn tuyển dụng sắp thay đổi chóng mặt.

Chốt hạ: Anh em dev đừng cười vội. Tải về vọc ngay đi xem nó code thế nào. Đừng để đến lúc đi phỏng vấn bị thằng AI nó "outplay" thì lúc đấy lại bảo tại số.

Nguồn tham khảo: Reddit