Coding4Food LogoCoding4Food
HomeCategoriesArcadeBookmarks
vi
HomeCategoriesArcadeBookmarks
Coding4Food LogoCoding4Food
HomeCategoriesArcadeBookmarks
Privacy|Terms

© 2026 Coding4Food. Written by devs, for devs.

This article is not yet available in English. Showing the Vietnamese version.

All news
AI & AutomationĐồ Nghề & Tech Stack

Qwen3.5-35B-A3B: Quái vật Coding chạy Local khiến anh em 3090 sướng rơn người

February 26, 20264 min read

Dẹp benchmark ảo ma đi, thực tế con hàng Qwen3.5-35B-A3B chạy trên RTX 3090 code như thần, giải đề phỏng vấn 5 tiếng trong 10 phút. Anh em dev vào xem ngay!

Share this post:
matrix, code, computer, pc, data, program, computer virus, programming, zoom background, coding, wallpaper, matrix, matrix, matrix, matrix, matrix, code, code, computer, computer, data, data, programming, coding, coding
Nguồn gốc: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-reviewNguồn gốc: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review
Nguồn gốc: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-reviewNguồn gốc: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/qwen3-5-35b-a3b-coding-local-review
qwen3.5-35blocal llmai codingrtx 3090llama.cppai agentopencode
Share this post:

Bình luận

Related posts

ai, image, ai image, technology, robot, chatgpt, chatbot, future, bot, laptop, computer, cyber, ai generated, ai, ai, ai, ai, ai, ai image, ai image
AI & AutomationTechnology

Pancake AI: Running an Autonomous Company in Slack – Peak Innovation or AI Grift?

Deep dive into Pancake, an OpenClaw-powered tool that puts an entire autonomous AI company inside your Slack. Is it time for devs to panic?

May 293 min read
Read more →
bedroom, cupboard, bed, room, sofa, window, living room, modern, bedroom, bedroom, bedroom, bedroom, room, room, room, room, room, window, living room, living room, living room, living room
AI & AutomationTechnology

Hooking Up Legacy APIs to AI Agents: MCP Bridge Enters the Chat

Tired of writing handcrafted MCP servers for spaghetti APIs? MCP Bridge promises to auto-gen all that. Let's see if it survives the dev community test.

May 293 min read
Read more →
robot, educational toy, robotics, companion robot, mini robot
AI & AutomationDev Life

Using AI to Code Slower: The Counter-Intuitive Truth to Surviving as a Dev

Everyone hypes AI as a 10x speed multiplier. But a top Hacker News post argues we should use AI to write better code, even if it means slowing down. Here's why.

May 264 min read
Read more →
robot, artificial intelligence, brain, think, control, electrical engineering, technology, developer, computer, hacker, cyborg, machine learning, computer science, information, programming, coding, data, web, laptop, hacking, security, terminator, future, machine learning, machine learning, machine learning, machine learning, machine learning
AI & AutomationTechnology

Stop Blind Web Scraping: Firecrawl's /monitor Saves Your AI Agent From Token Bankruptcy

Firecrawl just launched /monitor to replace dumb cron-scraping with intelligent diffing via webhooks. Save up to 90% on LLM tokens. Here's the breakdown.

May 303 min read
Read more →
ai generated, hacker, computer, robot, technology, room, boy, child, hacker, hacker, hacker, hacker, hacker
AI & AutomationTools & Tech Stack

Re_gent: Git for AI Agents So You Can Finally Blame the Bot

Tired of AI agents bricking your codebase overnight? Re_gent lets you trace, rollback, and blame specific lines of code directly to the prompt.

May 213 min read
Read more →
ui, blank, design, template, symbol, interface
AI & AutomationTechnology

Montage M1 Review: Stop Letting AI Agents Nuke Your UI Performance

Montage M1 just scored 95 on Product Hunt. Here is why compiling AI UI server-side might save your tokens and stop your users from seeing spinning skeletons.

May 183 min read
Read more →

Mấy nay giang hồ đang đồn đại về con hàng Qwen3.5-35B-A3B, bảo là "game changer" gì đó. Thú thật với các ông, tôi nghe mấy cái benchmark lòe loẹt là tôi ngán tận cổ rồi, toàn "lùa gà" là chính. Nhưng lần này, một dân chơi trên Reddit đã trực tiếp test con này trên máy nhà (local) và kết quả phải nói là... ảo ma Canada thật sự.

Anh em nào đang ôm mấy con card RTX 3090 hay 4090 cũ mèm ở nhà thì rửa tai mà nghe, kèo này thơm phức.

1. Vụ án "Quái vật" 35B trên máy tính cá nhân

Chuyện là có ông thần trên Reddit (tạm gọi là "Chủ Thớt") không tin vào mấy con số benchmark nên quyết định tự tay vọc vạch. Cấu hình lão dùng là một con headless Linux box cắm duy nhất 1 con RTX 3090. Lão biên dịch lại Llama.cpp mới nhất và chạy con model Qwen3.5-35B-A3B-MXFP4_MOE.gguf.

Cấu hình lão chạy đại khái như này (anh em nào thích vọc thì copy về mà paste):

./llama.cpp/llama-server \ -m /models/Qwen3.5-35B-A3B-MXFP4_MOE.gguf \ -a "DrQwen" \ -c 131072 \ -ngl all \ -ctk q8_0 \ -ctv q8_0 \ -sm none \ -mg 0 \ -np 1 \ -fa on

Kết quả? Nó ngốn khoảng 22GB VRAM (vừa khít con 3090 luôn, mượt chưa?). Và đây là những thứ khiến tôi phải giật mình:

  • Tốc độ bàn thờ: Nó bắn ra hơn 100 tokens/giây (t/s). Nhanh hơn cả người yêu cũ trở mặt.
  • Hủy diệt bài test tuyển dụng: Chủ thớt lôi bài test coding "tủ" dùng để tuyển Mobile Dev Mid-level ra thử. Bình thường người thật làm mất 5 tiếng, con AI này nó quẩy xong trong 10 phút. Kết quả: Strong Pass (Đậu chót vót).
  • Clone Dashboard trong một nốt nhạc: Lão thử tái tạo lại cái dashboard mà OpenAI từng demo cho Cursor mùa hè năm ngoái. Qwen3.5 làm gỏi cái đó trong 5 phút.

Cơ bản là: Con này chạy local, không tốn tiền API, nhanh, và code khôn hơn khối ông dev ngồi rung đùi cắn móng tay.

2. Cộng đồng Dev nói gì? (Combat cực căng)

Ngay khi bài viết lên sóng, anh em đồng đạo đã lao vào mổ xẻ nhiệt tình. Dưới đây là mấy luồng ý kiến chính tôi gom nhặt được:

  • Phe "Rich Kid" Flex cấu hình: Một tay chơi dùng RTX 5090 (vâng, 5090 đấy) vào comment nhẹ nhàng: "Tao chạy được 180 t/s nhé". Đúng là tiền nhiều để làm gì, để chạy AI nhanh hơn người khác chứ làm gì.
  • Phe "Táo Khuyết" (Macbook): Mấy ông dùng M4 Max cũng không chịu thua kém, báo cáo chạy được tầm 60 t/s với LMStudio. Tuy không bằng đám RTX nhưng với laptop thì cũng là "hết nước chấm".
  • Phe "Soi Kèo": Có ý kiến so sánh con này với Sonnet 4.5 (hàng xịn của Anthropic). Họ đánh giá Qwen 27B/35B code ngang ngửa Sonnet 4.5, tư duy rất tốt, biết search web thay vì chém gió (hallucinate) lung tung. Nhược điểm duy nhất là kiến thức chuyên sâu đôi khi bị "hụt hơi" do số lượng tham số (parameter) thấp hơn bọn model khổng lồ.
  • Cảnh báo của các "Pháp sư": Một thanh niên (chickN00dle) cảnh báo anh em cẩn thận vụ Quantization (nén model). Nếu để KV cache ở mức thấp quá (Q4), model dễ bị "ngáo" khi context dài lên tới 20-40k tokens, đặc biệt là viết sai LaTeX. Khuyên anh em nên dùng Q8 cho cache nếu dư VRAM.

3. Góc nhìn từ Coding4Food: Chén cơm hay là toang?

Nói đi cũng phải nói lại, vụ này cho thấy hai điều:

  1. Local AI đã thực sự dùng được: Không cần phải cúng tiền cho OpenAI hay Anthropic mỗi tháng nữa. Với một con GPU tầm trung cao (3090/4090 cũ giờ giá cũng mềm), anh em có thể tự dựng một con "Junior Dev" không biết mệt mỏi ngay tại nhà. Bảo mật tuyệt đối, code dự án công ty không sợ bị leak.
  2. Bài học xương máu: Nếu một con AI chạy trên máy cá nhân giải quyết bài test tuyển dụng 5 tiếng trong 10 phút, thì hoặc là bài test của chúng ta quá phế, hoặc là tiêu chuẩn tuyển dụng sắp thay đổi chóng mặt.

Chốt hạ: Anh em dev đừng cười vội. Tải về vọc ngay đi xem nó code thế nào. Đừng để đến lúc đi phỏng vấn bị thằng AI nó "outplay" thì lúc đấy lại bảo tại số.

Nguồn tham khảo: Reddit