Thanh niên Reddit bế M5 Max 128GB về test dàn Local LLM khủng. Tưởng mượt ai dè toang vì xài nhầm thư viện. Anh em hóng số liệu cắn RAM thì bơi hết vào đây.

Anh em dạo này chắc cũng rần rần vụ Apple nhá hàng chip M5 Max đúng không? Khỏi phải đoán già đoán non nữa, một dân chơi trên Reddit có nickname cryingneko vừa bóc seal con M5 Max 14-inch bản 128GB RAM xịn xò con bò và lập tức mang nó đi "hành xác" bằng một rổ Local LLM. Thay vì thuê máy chủ đắt đỏ, lão này quyết định biến cái laptop thành cỗ máy AI mini.
Chuyện là thanh niên OP (chủ thớt) mạnh miệng tuyên bố sẽ quăng raw benchmark lên ngay và luôn, không chém gió dài dòng, không làm video lùa gà. Cơ mà đời đ*o như mơ các ông ạ.
Anh em ngồi F5 rách cả phím vẫn chưa thấy số liệu đâu. Hóa ra, lúc đầu OP lôi thằng BatchGenerator ra test, nhưng tốc độ sinh token nó rùa bò đến mức vô lý. Là một dev có tâm (và sợ bị cộng đồng tế sống), OP đã phải hì hục xóa đi làm lại, tạo một cái virtual environment Python mới toanh, rồi chạy bằng mlx_lm thuần túy kết hợp stream_generate.
Đấy, anh em thấy chưa? Máy mạnh đến mấy mà config tool ngu hoặc xài thư viện không tối ưu thì cũng thành cục gạch thôi.
Sau khi fix xong cái bug môi trường, OP cuối cùng cũng ném vào mặt anh em một đống logs. Túm cái váy lại thì đây là những gì con M5 Max 128GB phải gánh:
76.397 GB RAM lúc peak. Tốc độ nuốt prompt thì ảo ma, lên tới hơn 1239 tokens/sec, nhưng lúc generate thì rớt xuống quanh mức 54 - 65 tokens/sec.92.605 GB khi context nhồi lên 65k tokens. Tốc độ prompt processing có lúc vọt lên 1887 tokens/sec, generate thì loanh quanh 48 - 79 tokens/sec.2710 tokens/sec. Generate token cũng cực mượt, ổn định ở 64 - 87 tokens/sec, mà RAM lại ăn khá ít, chỉ khoảng 65 GB.Riêng con hàng Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-6bit thì tốc độ generate hơi hẻo, lẹt đẹt 14 - 23 tokens/sec. OP định test thêm con Qwen3.5-35B nhưng quên xừ mất chưa tải, anh em đành ngậm ngùi chờ dịp khác.
Bài post vừa lên đã thu hút hơn 1.3k upvote, Discord của hội LocalLLaMA thì nổ thông báo ầm ầm.
Trong lúc OP đang loay hoay fix cái venv thì ở dưới phần comment, anh em mở đại hội combat tấu hài cực mạnh:
No_Afternoon_4260 châm biếm nhẹ nhàng: "10 phút trôi qua rồi, benchmark đâu mạy?". Một đạo hữu khác bồi thêm: "14 phút rồi vẫn chưa thấy số. OP đang làm cái quái gì vậy?".sammcj thì ngồi xuýt xoa hóng số của con Qwen 3.5 27B vì "máy của tui 2 tuần nữa mới ship tới". Khổ thân, có tiền mua máy mà Apple bắt chờ dài cổ.Qua vụ này, ngoài việc thấy sức mạnh kinh hồn bạt vía của chip M5 Max và kiến trúc Unified Memory của Apple (cho phép vã LLM hơn 100B params ngay trên laptop), chúng ta còn rút ra được một bài học xương máu cho đời dev:
Đừng bao giờ tin mù quáng vào Framework / Tool. OP suýt nữa thì đăng đống số liệu rác lên mạng chỉ vì xài BatchGenerator không đúng cách cho AI. Anh em code AI dạo nhớ lấy làm gương, thấy performance bất thường thì việc đầu tiên là soi lại cái đống dependency và môi trường của mình trước khi đổ tại phần cứng nhé.
Nói chung, M5 Max sinh ra là để làm trùm Local LLM rồi. Ai tiền nhiều thì cứ quất, còn dev nghèo như mình thì thôi, lại ngậm ngùi gõ API của OpenAI tiếp vậy.
Nguồn hóng hớt: Reddit - r/LocalLLaMA