Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
en
Trang chủChuyên mụcArcadeĐã lưu
Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
Bảo mật|Điều khoản

© 2026 Coding4Food. Viết bởi dev, cho dev.

Tất cả tin tức
Công nghệAI & Automation

Bế M5 Max 128GB Về Chạy Local LLM: Cú Lừa Từ Tool Test Đến Những Con Số Khét Lẹt

12 tháng 3, 20264 phút đọc

Thanh niên Reddit bế M5 Max 128GB về test dàn Local LLM khủng. Tưởng mượt ai dè toang vì xài nhầm thư viện. Anh em hóng số liệu cắn RAM thì bơi hết vào đây.

Chia sẻ bài viết:
board, electronics, computer, electrical engineering, current, printed circuit board, data, cpu, circuits, chip, technology, control center, solder joint, riser board, computer science, microprocessor, electronics, computer, computer, technology, technology, technology, technology, technology
Nguồn gốc: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/m5-max-128gb-benchmark-local-llmNguồn gốc: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/m5-max-128gb-benchmark-local-llm
Nguồn gốc: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/m5-max-128gb-benchmark-local-llmNguồn gốc: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/m5-max-128gb-benchmark-local-llm. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/m5-max-128gb-benchmark-local-llm
m5 max benchmarklocalllamaapple silicon chạy aimlx_lmtest llm m5 maxqwen3.5
Chia sẻ bài viết:

Bình luận

Anh em dạo này chắc cũng rần rần vụ Apple nhá hàng chip M5 Max đúng không? Khỏi phải đoán già đoán non nữa, một dân chơi trên Reddit có nickname cryingneko vừa bóc seal con M5 Max 14-inch bản 128GB RAM xịn xò con bò và lập tức mang nó đi "hành xác" bằng một rổ Local LLM. Thay vì thuê máy chủ đắt đỏ, lão này quyết định biến cái laptop thành cỗ máy AI mini.

Mới bóc seal đã đem đi "hành xác" và cú quay xe vì thư viện Python

Chuyện là thanh niên OP (chủ thớt) mạnh miệng tuyên bố sẽ quăng raw benchmark lên ngay và luôn, không chém gió dài dòng, không làm video lùa gà. Cơ mà đời đ*o như mơ các ông ạ.

Anh em ngồi F5 rách cả phím vẫn chưa thấy số liệu đâu. Hóa ra, lúc đầu OP lôi thằng BatchGenerator ra test, nhưng tốc độ sinh token nó rùa bò đến mức vô lý. Là một dev có tâm (và sợ bị cộng đồng tế sống), OP đã phải hì hục xóa đi làm lại, tạo một cái virtual environment Python mới toanh, rồi chạy bằng mlx_lm thuần túy kết hợp stream_generate.

Đấy, anh em thấy chưa? Máy mạnh đến mấy mà config tool ngu hoặc xài thư viện không tối ưu thì cũng thành cục gạch thôi.

Đống số liệu "cắn RAM" khét lẹt

Sau khi fix xong cái bug môi trường, OP cuối cùng cũng ném vào mặt anh em một đống logs. Túm cái váy lại thì đây là những gì con M5 Max 128GB phải gánh:

  • Qwen3.5-122B-A10B-4bit: Con quái vật này cắn tới 76.397 GB RAM lúc peak. Tốc độ nuốt prompt thì ảo ma, lên tới hơn 1239 tokens/sec, nhưng lúc generate thì rớt xuống quanh mức 54 - 65 tokens/sec.
  • Qwen3-Coder-Next-8bit: Lên đến model này thì RAM khóc thét, peak ở mức 92.605 GB khi context nhồi lên 65k tokens. Tốc độ prompt processing có lúc vọt lên 1887 tokens/sec, generate thì loanh quanh 48 - 79 tokens/sec.
  • gpt-oss-120b-MXFP4-Q8: Đây mới là trùm cuối về tốc độ xử lý prompt, quất phát lên tới 2710 tokens/sec. Generate token cũng cực mượt, ổn định ở 64 - 87 tokens/sec, mà RAM lại ăn khá ít, chỉ khoảng 65 GB.

Riêng con hàng Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-6bit thì tốc độ generate hơi hẻo, lẹt đẹt 14 - 23 tokens/sec. OP định test thêm con Qwen3.5-35B nhưng quên xừ mất chưa tải, anh em đành ngậm ngùi chờ dịp khác.

Giang cư mận hóng hớt và cà khịa

Bài post vừa lên đã thu hút hơn 1.3k upvote, Discord của hội LocalLLaMA thì nổ thông báo ầm ầm.

Trong lúc OP đang loay hoay fix cái venv thì ở dưới phần comment, anh em mở đại hội combat tấu hài cực mạnh:

  • Phe thiếu kiên nhẫn: Lão No_Afternoon_4260 châm biếm nhẹ nhàng: "10 phút trôi qua rồi, benchmark đâu mạy?". Một đạo hữu khác bồi thêm: "14 phút rồi vẫn chưa thấy số. OP đang làm cái quái gì vậy?".
  • Phe GATO và ngóng chờ: Thanh niên sammcj thì ngồi xuýt xoa hóng số của con Qwen 3.5 27B vì "máy của tui 2 tuần nữa mới ship tới". Khổ thân, có tiền mua máy mà Apple bắt chờ dài cổ.

Chốt hạ từ Coding4Food

Qua vụ này, ngoài việc thấy sức mạnh kinh hồn bạt vía của chip M5 Max và kiến trúc Unified Memory của Apple (cho phép vã LLM hơn 100B params ngay trên laptop), chúng ta còn rút ra được một bài học xương máu cho đời dev:

Đừng bao giờ tin mù quáng vào Framework / Tool. OP suýt nữa thì đăng đống số liệu rác lên mạng chỉ vì xài BatchGenerator không đúng cách cho AI. Anh em code AI dạo nhớ lấy làm gương, thấy performance bất thường thì việc đầu tiên là soi lại cái đống dependency và môi trường của mình trước khi đổ tại phần cứng nhé.

Nói chung, M5 Max sinh ra là để làm trùm Local LLM rồi. Ai tiền nhiều thì cứ quất, còn dev nghèo như mình thì thôi, lại ngậm ngùi gõ API của OpenAI tiếp vậy.

Nguồn hóng hớt: Reddit - r/LocalLLaMA

Bài viết liên quan

ai generated, server, data centre, computer, rack, digital, processor, technology, modern art, server, server, server, server, server
Công nghệAI & Automation

MiniMax M2.7 Lên Sóng: Cú Tát VRAM Khét Lẹt Cho Anh Em "Nhà Nghèo"

MiniMax M2.7 vừa lên sóng HuggingFace nhưng lại khiến giang cư mận r/LocalLLaMA khóc thét vì cắn VRAM và dính quả license hãm tài. Cùng hóng biến!

12 thg 43 phút đọc
Đọc tiếp →
soap bubble, frost bubble, ice crystals, frozen, winter, cold, bubble, backlighting, freeze, winter, winter, winter, winter, winter, bubble
AI & AutomationCông nghệ

Sự thật 'ảo ma' về Local LLaMA: Khi AI khen nhau thảo mai và nướng bánh mì bằng... bê tông

Hóng drama r/LocalLLaMA: Chuyện gì xảy ra khi các pháp sư chạy AI ở local? Bánh mì bê tông, AI thảo mai và những cú lừa 'Local o3' tấu hài cực mạnh.

10 thg 44 phút đọc
Đọc tiếp →
ai generated, artificial intelligence, brain, robot, ai, machine, cyber brain, iot, web3, iot, iot, iot, iot, iot
AI & AutomationCông nghệ

Gemma 4 của Google ra mắt: Pháp sư DeepMind cũng trầy trật, giang cư mận la ó vì rổ bug

Toàn cảnh drama ra mắt Gemma 4 của Google DeepMind. Đội dev cày bục mặt, nhưng lúc release thì cộng đồng Reddit khóc thét vì bug ngập mặt và thuyết âm mưu cực gắt.

7 thg 44 phút đọc
Đọc tiếp →
ai generated, ai, microchip, artificial intelligence, robot, technology, digital, computer science, future, digitization, futuristic, network, communication, data, web, cyborg, computer, information, data exchange, robotics, internet, processor
AI & AutomationCông nghệ

Drama Qwen 3.5: Khi lũ 'tiểu yêu' 9B đấm vỡ mồm mấy con hàng khủng long

Qwen 3.5 vừa thả xích loạt model nhỏ gọn. Anh em GPU 'khoai tây' sướng rơn vì hiệu năng ảo ma, trong khi mấy ông ôm card to đang hoang mang tột độ.

3 thg 33 phút đọc
Đọc tiếp →
airplane, plane, lufthansa, 747, airport, frankfurt, jet, germany, airplane, airplane, airplane, airplane, airplane, plane, plane, plane, plane, lufthansa, airport, airport, airport, airport
AI & AutomationDrama IT

Alibaba 'Đốt Tiền' Quảng Cáo Qwen Ở Sân Bay: Khi Pháp Sư Trung Hoa Đi Khè Offline

Alibaba vác quảng cáo model Qwen ra tận sân bay Changi để flex. Anh em dev r/LocalLLaMA đang bàn tán gì về pha đốt tiền nặc mùi tư bản này?

22 thg 34 phút đọc
Đọc tiếp →
rose, beautiful flowers, bicolored flower, bicolored rose, petals, blossom, rose flower, bloom, flower, flora, floriculture, horticulture, botany, nature, rose petals, plant, flowering plant, single rose, single flower, floribunda, rose bloom, flower background, flower wallpaper, close up
Chuyện NghềAI & Automation

Bị 'Tế Sống' Vì Trào Lưu Vibe Coding: Khi Cả Đời Chỉ Code App Cho... Chính Mình Dùng

Anh em dev đang nhột ngang vì trào lưu Vibe Coding: hì hục cày AI, build app xịn xò nhưng rốt cuộc user duy nhất lại là... chính mình. Cùng C4F hóng drama r/LocalLLaMA.

14 thg 34 phút đọc
Đọc tiếp →