M5 Max 128GB Chạy Local LLM: Benchmark Thực Tế

Anh em dạo này chắc cũng rần rần vụ Apple nhá hàng chip M5 Max đúng không? Khỏi phải đoán già đoán non nữa, một dân chơi trên Reddit có nickname cryingneko vừa bóc seal con M5 Max 14-inch bản 128GB RAM xịn xò con bò và lập tức mang nó đi "hành xác" bằng một rổ Local LLM. Thay vì thuê máy chủ đắt đỏ, lão này quyết định biến cái laptop thành cỗ máy AI mini.

Mới bóc seal đã đem đi "hành xác" và cú quay xe vì thư viện Python

Chuyện là thanh niên OP (chủ thớt) mạnh miệng tuyên bố sẽ quăng raw benchmark lên ngay và luôn, không chém gió dài dòng, không làm video lùa gà. Cơ mà đời đ*o như mơ các ông ạ.

Anh em ngồi F5 rách cả phím vẫn chưa thấy số liệu đâu. Hóa ra, lúc đầu OP lôi thằng BatchGenerator ra test, nhưng tốc độ sinh token nó rùa bò đến mức vô lý. Là một dev có tâm (và sợ bị cộng đồng tế sống), OP đã phải hì hục xóa đi làm lại, tạo một cái virtual environment Python mới toanh, rồi chạy bằng mlx_lm thuần túy kết hợp stream_generate.

Đấy, anh em thấy chưa? Máy mạnh đến mấy mà config tool ngu hoặc xài thư viện không tối ưu thì cũng thành cục gạch thôi.

Đống số liệu "cắn RAM" khét lẹt

Sau khi fix xong cái bug môi trường, OP cuối cùng cũng ném vào mặt anh em một đống logs. Túm cái váy lại thì đây là những gì con M5 Max 128GB phải gánh:

Qwen3.5-122B-A10B-4bit: Con quái vật này cắn tới 76.397 GB RAM lúc peak. Tốc độ nuốt prompt thì ảo ma, lên tới hơn 1239 tokens/sec, nhưng lúc generate thì rớt xuống quanh mức 54 - 65 tokens/sec.
Qwen3-Coder-Next-8bit: Lên đến model này thì RAM khóc thét, peak ở mức 92.605 GB khi context nhồi lên 65k tokens. Tốc độ prompt processing có lúc vọt lên 1887 tokens/sec, generate thì loanh quanh 48 - 79 tokens/sec.
gpt-oss-120b-MXFP4-Q8: Đây mới là trùm cuối về tốc độ xử lý prompt, quất phát lên tới 2710 tokens/sec. Generate token cũng cực mượt, ổn định ở 64 - 87 tokens/sec, mà RAM lại ăn khá ít, chỉ khoảng 65 GB.

Riêng con hàng Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-6bit thì tốc độ generate hơi hẻo, lẹt đẹt 14 - 23 tokens/sec. OP định test thêm con Qwen3.5-35B nhưng quên xừ mất chưa tải, anh em đành ngậm ngùi chờ dịp khác.

Giang cư mận hóng hớt và cà khịa

Bài post vừa lên đã thu hút hơn 1.3k upvote, Discord của hội LocalLLaMA thì nổ thông báo ầm ầm.

Trong lúc OP đang loay hoay fix cái venv thì ở dưới phần comment, anh em mở đại hội combat tấu hài cực mạnh:

Phe thiếu kiên nhẫn: Lão No_Afternoon_4260 châm biếm nhẹ nhàng: "10 phút trôi qua rồi, benchmark đâu mạy?". Một đạo hữu khác bồi thêm: "14 phút rồi vẫn chưa thấy số. OP đang làm cái quái gì vậy?".
Phe GATO và ngóng chờ: Thanh niên sammcj thì ngồi xuýt xoa hóng số của con Qwen 3.5 27B vì "máy của tui 2 tuần nữa mới ship tới". Khổ thân, có tiền mua máy mà Apple bắt chờ dài cổ.

Chốt hạ từ Coding4Food

Qua vụ này, ngoài việc thấy sức mạnh kinh hồn bạt vía của chip M5 Max và kiến trúc Unified Memory của Apple (cho phép vã LLM hơn 100B params ngay trên laptop), chúng ta còn rút ra được một bài học xương máu cho đời dev:

Đừng bao giờ tin mù quáng vào Framework / Tool. OP suýt nữa thì đăng đống số liệu rác lên mạng chỉ vì xài BatchGenerator không đúng cách cho AI. Anh em code AI dạo nhớ lấy làm gương, thấy performance bất thường thì việc đầu tiên là soi lại cái đống dependency và môi trường của mình trước khi đổ tại phần cứng nhé.

Nói chung, M5 Max sinh ra là để làm trùm Local LLM rồi. Ai tiền nhiều thì cứ quất, còn dev nghèo như mình thì thôi, lại ngậm ngùi gõ API của OpenAI tiếp vậy.

Nguồn hóng hớt: Reddit - r/LocalLLaMA

Mới bóc seal đã đem đi "hành xác" và cú quay xe vì thư viện Python

Đấy, anh em thấy chưa? Máy mạnh đến mấy mà config tool ngu hoặc xài thư viện không tối ưu thì cũng thành cục gạch thôi.

Đống số liệu "cắn RAM" khét lẹt

Sau khi fix xong cái bug môi trường, OP cuối cùng cũng ném vào mặt anh em một đống logs. Túm cái váy lại thì đây là những gì con M5 Max 128GB phải gánh:

Qwen3.5-122B-A10B-4bit: Con quái vật này cắn tới 76.397 GB RAM lúc peak. Tốc độ nuốt prompt thì ảo ma, lên tới hơn 1239 tokens/sec, nhưng lúc generate thì rớt xuống quanh mức 54 - 65 tokens/sec.

Qwen3-Coder-Next-8bit: Lên đến model này thì RAM khóc thét, peak ở mức 92.605 GB khi context nhồi lên 65k tokens. Tốc độ prompt processing có lúc vọt lên 1887 tokens/sec, generate thì loanh quanh 48 - 79 tokens/sec.

gpt-oss-120b-MXFP4-Q8: Đây mới là trùm cuối về tốc độ xử lý prompt, quất phát lên tới 2710 tokens/sec. Generate token cũng cực mượt, ổn định ở 64 - 87 tokens/sec, mà RAM lại ăn khá ít, chỉ khoảng 65 GB.

Giang cư mận hóng hớt và cà khịa

Bài post vừa lên đã thu hút hơn 1.3k upvote, Discord của hội LocalLLaMA thì nổ thông báo ầm ầm.

Trong lúc OP đang loay hoay fix cái venv thì ở dưới phần comment, anh em mở đại hội combat tấu hài cực mạnh:

Phe thiếu kiên nhẫn: Lão No_Afternoon_4260 châm biếm nhẹ nhàng: "10 phút trôi qua rồi, benchmark đâu mạy?". Một đạo hữu khác bồi thêm: "14 phút rồi vẫn chưa thấy số. OP đang làm cái quái gì vậy?".

Phe GATO và ngóng chờ: Thanh niên sammcj thì ngồi xuýt xoa hóng số của con Qwen 3.5 27B vì "máy của tui 2 tuần nữa mới ship tới". Khổ thân, có tiền mua máy mà Apple bắt chờ dài cổ.

Chốt hạ từ Coding4Food

Nói chung, M5 Max sinh ra là để làm trùm Local LLM rồi. Ai tiền nhiều thì cứ quất, còn dev nghèo như mình thì thôi, lại ngậm ngùi gõ API của OpenAI tiếp vậy.

Bế M5 Max 128GB Về Chạy Local LLM: Cú Lừa Từ Tool Test Đến Những Con Số Khét Lẹt

Mới bóc seal đã đem đi "hành xác" và cú quay xe vì thư viện Python

Đống số liệu "cắn RAM" khét lẹt

Giang cư mận hóng hớt và cà khịa

Chốt hạ từ Coding4Food

Bình luận

Mới bóc seal đã đem đi "hành xác" và cú quay xe vì thư viện Python

Đống số liệu "cắn RAM" khét lẹt

Giang cư mận hóng hớt và cà khịa

Chốt hạ từ Coding4Food

Bài viết liên quan

MiniMax M2.7 Lên Sóng: Cú Tát VRAM Khét Lẹt Cho Anh Em "Nhà Nghèo"

Sự thật 'ảo ma' về Local LLaMA: Khi AI khen nhau thảo mai và nướng bánh mì bằng... bê tông

Gemma 4 của Google ra mắt: Pháp sư DeepMind cũng trầy trật, giang cư mận la ó vì rổ bug

Drama Qwen 3.5: Khi lũ 'tiểu yêu' 9B đấm vỡ mồm mấy con hàng khủng long

Alibaba 'Đốt Tiền' Quảng Cáo Qwen Ở Sân Bay: Khi Pháp Sư Trung Hoa Đi Khè Offline

Bị 'Tế Sống' Vì Trào Lưu Vibe Coding: Khi Cả Đời Chỉ Code App Cho... Chính Mình Dùng