Coding4Food LogoCoding4Food
Trang chủChuyên mụcĐã lưu
en
Coding4Food LogoCoding4Food
Trang chủChuyên mụcĐã lưu
Bảo mật|Điều khoản

© 2026 Coding4Food. Viết bởi dev, cho dev.

Tất cả tin tức
Công nghệAI & Automation

Bế M5 Max 128GB Về Chạy Local LLM: Cú Lừa Từ Tool Test Đến Những Con Số Khét Lẹt

12 tháng 3, 20264 phút đọc

Thanh niên Reddit bế M5 Max 128GB về test dàn Local LLM khủng. Tưởng mượt ai dè toang vì xài nhầm thư viện. Anh em hóng số liệu cắn RAM thì bơi hết vào đây.

Chia sẻ bài viết:
board, electronics, computer, electrical engineering, current, printed circuit board, data, cpu, circuits, chip, technology, control center, solder joint, riser board, computer science, microprocessor, electronics, computer, computer, technology, technology, technology, technology, technology
Nguồn gốc: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/m5-max-128gb-benchmark-local-llmNguồn gốc: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/m5-max-128gb-benchmark-local-llm
Nguồn gốc: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/m5-max-128gb-benchmark-local-llmNguồn gốc: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/m5-max-128gb-benchmark-local-llm
m5 max benchmarklocalllamaapple silicon chạy aimlx_lmtest llm m5 maxqwen3.5
Chia sẻ bài viết:

Bình luận

Anh em dạo này chắc cũng rần rần vụ Apple nhá hàng chip M5 Max đúng không? Khỏi phải đoán già đoán non nữa, một dân chơi trên Reddit có nickname cryingneko vừa bóc seal con M5 Max 14-inch bản 128GB RAM xịn xò con bò và lập tức mang nó đi "hành xác" bằng một rổ Local LLM. Thay vì thuê máy chủ đắt đỏ, lão này quyết định biến cái laptop thành cỗ máy AI mini.

Mới bóc seal đã đem đi "hành xác" và cú quay xe vì thư viện Python

Chuyện là thanh niên OP (chủ thớt) mạnh miệng tuyên bố sẽ quăng raw benchmark lên ngay và luôn, không chém gió dài dòng, không làm video lùa gà. Cơ mà đời đ*o như mơ các ông ạ.

Anh em ngồi F5 rách cả phím vẫn chưa thấy số liệu đâu. Hóa ra, lúc đầu OP lôi thằng BatchGenerator ra test, nhưng tốc độ sinh token nó rùa bò đến mức vô lý. Là một dev có tâm (và sợ bị cộng đồng tế sống), OP đã phải hì hục xóa đi làm lại, tạo một cái virtual environment Python mới toanh, rồi chạy bằng mlx_lm thuần túy kết hợp stream_generate.

Đấy, anh em thấy chưa? Máy mạnh đến mấy mà config tool ngu hoặc xài thư viện không tối ưu thì cũng thành cục gạch thôi.

Đống số liệu "cắn RAM" khét lẹt

Sau khi fix xong cái bug môi trường, OP cuối cùng cũng ném vào mặt anh em một đống logs. Túm cái váy lại thì đây là những gì con M5 Max 128GB phải gánh:

  • Qwen3.5-122B-A10B-4bit: Con quái vật này cắn tới 76.397 GB RAM lúc peak. Tốc độ nuốt prompt thì ảo ma, lên tới hơn 1239 tokens/sec, nhưng lúc generate thì rớt xuống quanh mức 54 - 65 tokens/sec.
  • Qwen3-Coder-Next-8bit: Lên đến model này thì RAM khóc thét, peak ở mức 92.605 GB khi context nhồi lên 65k tokens. Tốc độ prompt processing có lúc vọt lên 1887 tokens/sec, generate thì loanh quanh 48 - 79 tokens/sec.
  • gpt-oss-120b-MXFP4-Q8: Đây mới là trùm cuối về tốc độ xử lý prompt, quất phát lên tới 2710 tokens/sec. Generate token cũng cực mượt, ổn định ở 64 - 87 tokens/sec, mà RAM lại ăn khá ít, chỉ khoảng 65 GB.

Riêng con hàng Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-6bit thì tốc độ generate hơi hẻo, lẹt đẹt 14 - 23 tokens/sec. OP định test thêm con Qwen3.5-35B nhưng quên xừ mất chưa tải, anh em đành ngậm ngùi chờ dịp khác.

Giang cư mận hóng hớt và cà khịa

Bài post vừa lên đã thu hút hơn 1.3k upvote, Discord của hội LocalLLaMA thì nổ thông báo ầm ầm.

Trong lúc OP đang loay hoay fix cái venv thì ở dưới phần comment, anh em mở đại hội combat tấu hài cực mạnh:

  • Phe thiếu kiên nhẫn: Lão No_Afternoon_4260 châm biếm nhẹ nhàng: "10 phút trôi qua rồi, benchmark đâu mạy?". Một đạo hữu khác bồi thêm: "14 phút rồi vẫn chưa thấy số. OP đang làm cái quái gì vậy?".
  • Phe GATO và ngóng chờ: Thanh niên sammcj thì ngồi xuýt xoa hóng số của con Qwen 3.5 27B vì "máy của tui 2 tuần nữa mới ship tới". Khổ thân, có tiền mua máy mà Apple bắt chờ dài cổ.

Chốt hạ từ Coding4Food

Qua vụ này, ngoài việc thấy sức mạnh kinh hồn bạt vía của chip M5 Max và kiến trúc Unified Memory của Apple (cho phép vã LLM hơn 100B params ngay trên laptop), chúng ta còn rút ra được một bài học xương máu cho đời dev:

Đừng bao giờ tin mù quáng vào Framework / Tool. OP suýt nữa thì đăng đống số liệu rác lên mạng chỉ vì xài BatchGenerator không đúng cách cho AI. Anh em code AI dạo nhớ lấy làm gương, thấy performance bất thường thì việc đầu tiên là soi lại cái đống dependency và môi trường của mình trước khi đổ tại phần cứng nhé.

Nói chung, M5 Max sinh ra là để làm trùm Local LLM rồi. Ai tiền nhiều thì cứ quất, còn dev nghèo như mình thì thôi, lại ngậm ngùi gõ API của OpenAI tiếp vậy.

Nguồn hóng hớt: Reddit - r/LocalLLaMA

Bài viết liên quan

ai generated, ai, microchip, artificial intelligence, robot, technology, digital, computer science, future, digitization, futuristic, network, communication, data, web, cyborg, computer, information, data exchange, robotics, internet, processor
AI & AutomationCông nghệ

Drama Qwen 3.5: Khi lũ 'tiểu yêu' 9B đấm vỡ mồm mấy con hàng khủng long

Qwen 3.5 vừa thả xích loạt model nhỏ gọn. Anh em GPU 'khoai tây' sướng rơn vì hiệu năng ảo ma, trong khi mấy ông ôm card to đang hoang mang tột độ.

3 thg 33 phút đọc
Đọc tiếp →
rose, beautiful flowers, bicolored flower, bicolored rose, petals, blossom, rose flower, bloom, flower, flora, floriculture, horticulture, botany, nature, rose petals, plant, flowering plant, single rose, single flower, floribunda, rose bloom, flower background, flower wallpaper, close up
Chuyện NghềAI & Automation

Bị 'Tế Sống' Vì Trào Lưu Vibe Coding: Khi Cả Đời Chỉ Code App Cho... Chính Mình Dùng

Anh em dev đang nhột ngang vì trào lưu Vibe Coding: hì hục cày AI, build app xịn xò nhưng rốt cuộc user duy nhất lại là... chính mình. Cùng C4F hóng drama r/LocalLLaMA.

14 thg 34 phút đọc
Đọc tiếp →
ai generated, data centre, computer, server, rack, technology, digital, processor, server, server, server, server, server
Drama ITAI & Automation

Drama r/LocalLLaMA: Dev Frontend gáy bẩn bị tế sống vì chê anh em chơi AI nghèo

Chuyện kể về một anh Youtuber đi gáy bẩn mảng AI, chê anh em chơi local model là khố rách áo ôm và cái kết bị cả sub Reddit đè ra tế.

11 thg 33 phút đọc
Đọc tiếp →
ai generated, woman, geisha, female, face, digital art, artificial intelligence, box beads, headpiece, artistic
Drama ITAI & Automation

Cú shock làng AI: "Pháp sư" Junyang Lin bay màu khỏi Qwen ngay sau khi thả xích bản 3.5

Junyang Lin - cha đẻ của model AI Qwen vừa rời đi một cách bí ẩn ngay sau khi release bản 3.5. Drama nội bộ Tongyi hay dấu chấm hết cho open-source AI?

4 thg 34 phút đọc
Đọc tiếp →
conclusion of contract, handshake, trade, business, profit, black money, control, treasury, sale, to buy, selling, commercial, shopping, money case, currency, money, contract, dollar, shaking hands, handshake, profit, selling, selling, selling, selling, selling
Drama ITAI & Automation

Sam Altman và cú "quay xe" triệu đô: Khi OpenAI hết "Open" để chiều lòng cá mập

Drama OpenAI lại nóng: Từ sứ mệnh giải cứu nhân loại sang sứ mệnh làm giàu cho nhà đầu tư. Sam Altman bị réo tên là S(c)am Altman.

1 thg 33 phút đọc
Đọc tiếp →