Anh em dev chờ Local LLM 9B vừa miếng hay 35B cắn RAM?

Lại một ngày lướt Reddit hóng hớt và thấy anh em r/LocalLLaMA đang cãi nhau ỏm tỏi xem nên hóng con model 9B hay 35B. Thiệt tình, chưa kịp vắt kiệt sức mấy con AI cũ thì giới pháp sư công nghệ lại rục rịch đẻ thêm hàng mới để hành hạ ổ cứng anh em rồi.

Rốt cuộc thì có biến gì ở làng Local LLM thế mấy khứa?

Dành cho anh em nào tối cổ, thì câu chuyện bắt nguồn từ một bài poll sương sương trên Reddit hỏi xem giang hồ đang mỏi cổ chờ đợi phiên bản nào hơn: 9 Billion parameters (9B) hay 35 Billion parameters (35B). Dựa theo tình hình thì khả năng cao là dân tình đang ám chỉ họ hàng nhà Qwen hoặc một thế lực open-source nào đó sắp hạ phàm.

Sự tình tóm gọn lại bằng vài gạch đầu dòng thế này:

Đang có một đợt sóng ngầm hóng hớt các model size lỡ cỡ (9B) và to oạch (35B).
9B thì bé hạt tiêu, nhẹ nhàng, sinh ra để cứu rỗi mấy con laptop cá nhân hoặc dàn PC cỏ.
35B thì thông minh vượt trội, nhưng độ "cắn RAM" và VRAM thì cũng tỉ lệ thuận với độ khôn của nó.
Bài post chọc trúng chỗ ngứa của anh em dev thích tự sướng với AI tại nhà, kéo theo hàng trăm upvote và bay thẳng lên top Discord của group.

Dân tình Reddit chia phe combat: Chọn ví tiền hay chọn trí tuệ?

Lướt cái động comment mới thấy đủ thể loại hỉ nộ ái ố của các thợ code và dân chơi phần cứng:

Phe "Trẻ con mới chọn, tao lấy hết": Rất nhiều anh em tham lam vote cho cả hai. Thậm chí có tay chơi còn gào lên: "Ra luôn con 60B đi cho nó cháy!".
Phe nhà giàu, RAM to: Một đại gia ẩn danh thì phán xanh rờn: "Cứ cái quái gì nhét vừa 100GB bộ nhớ, cân được context 100k+ tokens là tôi quất tuốt". Nghe mùi tiền nồng nặc các ông ạ.
Phe thực tại phũ phàng: Đại diện cho 99% anh em dev nghèo, thanh niên dances_with_gnomes mếu máo thừa nhận: "9B thì họa may con máy tôi còn lết được, chứ 35B thì no hope, bít cửa các bác ạ".
Phe chúa tể xin link, kẻ hủy diệt format: Đương nhiên không thể thiếu các thánh còm văn mẫu "Bao giờ có bản GGUF" (ý hỏi bản nén để chạy mượt trên CPU/Apple Silicon). Ngay lập tức bị một pháp sư khác vỗ mặt: "Llama.cpp nó merge code support từ đời tám hoảnh rồi ông thần ạ".

Góc nhìn từ ông già C4F: Tham thì thâm, code lầm thì đói

Chơi Local LLM dạo này giống như thú chơi xe độ vậy. Các ông cứ đua nhau đòi model to, parameter khủng, nhưng quên mất cái cốt lõi là máy mình đang xài cấu hình gì và mục đích để làm cái quái gì.

Đứng ở góc độ một thằng dev thực dụng, tôi khuyên thật: Nếu máy anh em loanh quanh 16GB - 32GB RAM (hoặc VRAM lèo tèo 8GB), thì cứ tã con 9B GGUF mà dùng. Nó đủ thông minh để làm copilot gen code bọt, summarize docs, hay dựng mấy cái RAG pipeline test sương sương rồi. Chạy mượt, phản hồi nhanh, thế là ra tiền.

Đú đởn đè cổ con lap ghẻ ra gánh 35B làm gì? Để nó rú như máy cày, gõ một câu prompt đợi 5 phút mới nặn ra chữ, thế thì sếp vả cho lật mặt vì trễ deadline chứ ở đó mà AI với chả Automation.

Bài học sinh tồn ở đây là: Chọn tech stack hay chọn model AI cũng như chọn đồ nghề thôi anh em. Không cần cái xịn nhất, to nhất, chỉ cần cái vừa vặn nhất, chạy ổn định và không làm sập server hầu bao của mình.

Nguồn hóng hớt: Reddit - r/LocalLLaMA

Rốt cuộc thì có biến gì ở làng Local LLM thế mấy khứa?

Sự tình tóm gọn lại bằng vài gạch đầu dòng thế này:

Đang có một đợt sóng ngầm hóng hớt các model size lỡ cỡ (9B) và to oạch (35B).

9B thì bé hạt tiêu, nhẹ nhàng, sinh ra để cứu rỗi mấy con laptop cá nhân hoặc dàn PC cỏ.

35B thì thông minh vượt trội, nhưng độ "cắn RAM" và VRAM thì cũng tỉ lệ thuận với độ khôn của nó.

Bài post chọc trúng chỗ ngứa của anh em dev thích tự sướng với AI tại nhà, kéo theo hàng trăm upvote và bay thẳng lên top Discord của group.

Dân tình Reddit chia phe combat: Chọn ví tiền hay chọn trí tuệ?

Lướt cái động comment mới thấy đủ thể loại hỉ nộ ái ố của các thợ code và dân chơi phần cứng:

Phe "Trẻ con mới chọn, tao lấy hết": Rất nhiều anh em tham lam vote cho cả hai. Thậm chí có tay chơi còn gào lên: "Ra luôn con 60B đi cho nó cháy!".

Phe nhà giàu, RAM to: Một đại gia ẩn danh thì phán xanh rờn: "Cứ cái quái gì nhét vừa 100GB bộ nhớ, cân được context 100k+ tokens là tôi quất tuốt". Nghe mùi tiền nồng nặc các ông ạ.

Phe thực tại phũ phàng: Đại diện cho 99% anh em dev nghèo, thanh niên dances_with_gnomes mếu máo thừa nhận: "9B thì họa may con máy tôi còn lết được, chứ 35B thì no hope, bít cửa các bác ạ".

Phe chúa tể xin link, kẻ hủy diệt format: Đương nhiên không thể thiếu các thánh còm văn mẫu "Bao giờ có bản GGUF" (ý hỏi bản nén để chạy mượt trên CPU/Apple Silicon). Ngay lập tức bị một pháp sư khác vỗ mặt: "Llama.cpp nó merge code support từ đời tám hoảnh rồi ông thần ạ".

Góc nhìn từ ông già C4F: Tham thì thâm, code lầm thì đói