Coding4Food LogoCoding4Food
HomeCategoriesArcadeBookmarks
vi
HomeCategoriesArcadeBookmarks
Coding4Food LogoCoding4Food
HomeCategoriesArcadeBookmarks
Privacy|Terms

© 2026 Coding4Food. Written by devs, for devs.

This article is not yet available in English. Showing the Vietnamese version.

All news
AI & AutomationCông nghệ

Chơi Local LLM: Anh em chờ kèo 9B vừa miếng hay 35B "cắn RAM" tung nóc?

February 23, 20264 min read

Cộng đồng r/LocalLLaMA đang chia phe cãi nhau xem nên hóng model 9B hay 35B. To thì thông minh đấy, nhưng liệu con lap ghẻ ở nhà có gánh nổi hay sập nguồn?

Share this post:
ai generated, data centre, computer, server, rack, technology, digital, processor, data centre, data centre, data centre, data centre, data centre
Nguồn gốc: https://coding4food.com/post/choi-local-llm-cho-keo-9b-hay-35b. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/choi-local-llm-cho-keo-9b-hay-35b. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/choi-local-llm-cho-keo-9b-hay-35bNguồn gốc: https://coding4food.com/post/choi-local-llm-cho-keo-9b-hay-35b. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/choi-local-llm-cho-keo-9b-hay-35b. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/choi-local-llm-cho-keo-9b-hay-35b
Nguồn gốc: https://coding4food.com/post/choi-local-llm-cho-keo-9b-hay-35b. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/choi-local-llm-cho-keo-9b-hay-35b. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/choi-local-llm-cho-keo-9b-hay-35bNguồn gốc: https://coding4food.com/post/choi-local-llm-cho-keo-9b-hay-35b. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/choi-local-llm-cho-keo-9b-hay-35b. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/choi-local-llm-cho-keo-9b-hay-35b
local llmmodel 9bmodel 35bllama.cppggufai chạy local
Share this post:

Bình luận

Related posts

gpu, component, videocard, gpu, gpu, gpu, gpu, gpu
AI & AutomationTools & Tech Stack

Running Qwen 3.5 Locally: Pushing Your Potato PC to the Limit

Hacker News is going crazy over running Qwen 3.5 locally. From squeezing 35B models into ancient GPUs to the GGUF quantization nightmare.

Mar 93 min read
Read more →
laptop, hands, gadgets, iphone, apple, lens, macbook, mobile phone, smartphone, typing, blogging, flat lay, workspace, laptop, laptop, typing, typing, typing, typing, typing, blogging, blogging, blogging
TechnologyAI & Automation

Google Crams Gemma 4 onto iPhone: The Ultimate Edge AI Flex

Google quietly dropped AI Edge Gallery on the App Store to run Gemma 4 locally on iOS. A massive flex against Apple or just a battery killer? Let's dive in.

Apr 62 min read
Read more →
processor, chip, electronics, hardware, circuits, computer, technology, microchip, pc, motherboard, data, pcb, cpu, gpu, server, network, internet, database, connection, cloud, infrastructure, multi core
AI & AutomationTechnology

AMD Pours Us Some "Lemonade": A Zesty Open-Source Local LLM Server

Team Red just dropped Lemonade, an open-source local LLM server utilizing both GPUs and NPUs. Will it actually challenge Nvidia's CUDA dominance?

Apr 33 min read
Read more →
ai generated, face, artificial intelligence, machine learning, neural network, circuitry, circuit, neural network, neural network, neural network, neural network, neural network
AI & AutomationTechnology

Google Drops Gemma 4: Elite 'Open' AI or Just Another Tech Mirage?

DeepMind just released Gemma 4. We dive into the Hacker News hivemind to see if this new AI model is worth your precious GPU RAM or just another hype train.

Apr 33 min read
Read more →
paragraph, law, artificial intelligence, clause, regulations, robot, brain, technology, circuit board, conductor tracks, connection, digital, problems, ethics, concept, artificial intelligence, artificial intelligence, ethics, ethics, ethics, ethics, ethics
IT DramaAI & Automation

Qwen's Lead Dev Bails: The Open-Source AI Drama We Didn't Know We Needed

A core developer behind the Qwen AI model resigns, triggering massive debates on overfitting, local LLM capabilities, and hybrid AI workflows.

Mar 53 min read
Read more →
ai generated, cpu, processor, chip, computer, electronics, data, technology, tech, hardware, circuits, motherboard, connections, microchip, cpu, cpu, processor, processor, processor, processor, processor, chip, chip, technology, tech, hardware, motherboard, microchip
AI & AutomationTechnology

Qwen 3.5 Small Drop: Potato GPUs Rejoice & The Speculative Decoding Hype

Qwen just dropped the 3.5 Small series. A massive win for VRAM-poor devs and a potential game-changer for speculative decoding setups.

Mar 23 min read
Read more →

Lại một ngày lướt Reddit hóng hớt và thấy anh em r/LocalLLaMA đang cãi nhau ỏm tỏi xem nên hóng con model 9B hay 35B. Thiệt tình, chưa kịp vắt kiệt sức mấy con AI cũ thì giới pháp sư công nghệ lại rục rịch đẻ thêm hàng mới để hành hạ ổ cứng anh em rồi.

Rốt cuộc thì có biến gì ở làng Local LLM thế mấy khứa?

Dành cho anh em nào tối cổ, thì câu chuyện bắt nguồn từ một bài poll sương sương trên Reddit hỏi xem giang hồ đang mỏi cổ chờ đợi phiên bản nào hơn: 9 Billion parameters (9B) hay 35 Billion parameters (35B). Dựa theo tình hình thì khả năng cao là dân tình đang ám chỉ họ hàng nhà Qwen hoặc một thế lực open-source nào đó sắp hạ phàm.

Sự tình tóm gọn lại bằng vài gạch đầu dòng thế này:

  • Đang có một đợt sóng ngầm hóng hớt các model size lỡ cỡ (9B) và to oạch (35B).
  • 9B thì bé hạt tiêu, nhẹ nhàng, sinh ra để cứu rỗi mấy con laptop cá nhân hoặc dàn PC cỏ.
  • 35B thì thông minh vượt trội, nhưng độ "cắn RAM" và VRAM thì cũng tỉ lệ thuận với độ khôn của nó.
  • Bài post chọc trúng chỗ ngứa của anh em dev thích tự sướng với AI tại nhà, kéo theo hàng trăm upvote và bay thẳng lên top Discord của group.

Dân tình Reddit chia phe combat: Chọn ví tiền hay chọn trí tuệ?

Lướt cái động comment mới thấy đủ thể loại hỉ nộ ái ố của các thợ code và dân chơi phần cứng:

  • Phe "Trẻ con mới chọn, tao lấy hết": Rất nhiều anh em tham lam vote cho cả hai. Thậm chí có tay chơi còn gào lên: "Ra luôn con 60B đi cho nó cháy!".
  • Phe nhà giàu, RAM to: Một đại gia ẩn danh thì phán xanh rờn: "Cứ cái quái gì nhét vừa 100GB bộ nhớ, cân được context 100k+ tokens là tôi quất tuốt". Nghe mùi tiền nồng nặc các ông ạ.
  • Phe thực tại phũ phàng: Đại diện cho 99% anh em dev nghèo, thanh niên dances_with_gnomes mếu máo thừa nhận: "9B thì họa may con máy tôi còn lết được, chứ 35B thì no hope, bít cửa các bác ạ".
  • Phe chúa tể xin link, kẻ hủy diệt format: Đương nhiên không thể thiếu các thánh còm văn mẫu "Bao giờ có bản GGUF" (ý hỏi bản nén để chạy mượt trên CPU/Apple Silicon). Ngay lập tức bị một pháp sư khác vỗ mặt: "Llama.cpp nó merge code support từ đời tám hoảnh rồi ông thần ạ".

Góc nhìn từ ông già C4F: Tham thì thâm, code lầm thì đói

Chơi Local LLM dạo này giống như thú chơi xe độ vậy. Các ông cứ đua nhau đòi model to, parameter khủng, nhưng quên mất cái cốt lõi là máy mình đang xài cấu hình gì và mục đích để làm cái quái gì.

Đứng ở góc độ một thằng dev thực dụng, tôi khuyên thật: Nếu máy anh em loanh quanh 16GB - 32GB RAM (hoặc VRAM lèo tèo 8GB), thì cứ tã con 9B GGUF mà dùng. Nó đủ thông minh để làm copilot gen code bọt, summarize docs, hay dựng mấy cái RAG pipeline test sương sương rồi. Chạy mượt, phản hồi nhanh, thế là ra tiền.

Đú đởn đè cổ con lap ghẻ ra gánh 35B làm gì? Để nó rú như máy cày, gõ một câu prompt đợi 5 phút mới nặn ra chữ, thế thì sếp vả cho lật mặt vì trễ deadline chứ ở đó mà AI với chả Automation.

Bài học sinh tồn ở đây là: Chọn tech stack hay chọn model AI cũng như chọn đồ nghề thôi anh em. Không cần cái xịn nhất, to nhất, chỉ cần cái vừa vặn nhất, chạy ổn định và không làm sập server hầu bao của mình.


Nguồn hóng hớt: Reddit - r/LocalLLaMA