Ollama v0.19 Tích Hợp MLX: Local AI Trên Mac Cực Mượt

Chào anh em đồng đạo. Gần đây mấy pháp sư Apple Silicon chắc đang khóc ròng vì cắm mặt chạy local AI mà máy nó rên như máy cày. Cơ mà khoan, Ollama vừa thả quả bom v0.19, hứa hẹn biến mấy con Mac M-series thành quái thú AI thực thụ. Thử xem có "lùa gà" không hay ngon thật nhé!

Tóm tắt vụ "độ xe" cho anh em lười đọc

Nói ngắn gọn thì bản update này tập trung bú liếm triệt để sức mạnh phần cứng nhà Táo. Cụ thể:

Chuyển khẩu sang MLX: Ollama v0.19 đập đi xây lại toàn bộ phần inference trên Apple Silicon, dọn nhà sang dùng framework "cây nhà lá vườn" của Apple là MLX. Tối ưu cực mạnh cho kiến trúc Unified Memory.
Hỗ trợ NVFP4: Giải thích nhanh cho anh em đỡ ngợp, cái này giúp chạy local inference mượt mà hơn, kéo chất lượng tiến sát với hàng production server.
Đại tu hệ thống KV cache: Giờ nó khôn hơn rồi. Biết giữ lại cache qua các đoạn hội thoại, lưu snapshot và dọn dẹp (eviction) chuẩn xác hơn. Đỡ hẳn cái cảnh anh em switch project bị cold-start chờ mốc mỏ.

Giang cư mận hóng hớt được gì?

Dạo một vòng Product Hunt với mấy ổ Reddit, thấy dân tình combat và test hiệu năng rôm rả phết. Có vài luồng quan điểm đang chiếm sóng:

Phe khen nức nở (Đa số): Toàn các thanh niên xài Mac M4 lên tiếng. Chạy con Qwen3.5 mà tốc độ "bàn thờ" luôn. Trích lời một pro ẩn danh: "So với cái backend GGML cũ thì bản MLX này đúng là một trời một vực".
Phe cày Agent (Claude Code, OpenClaw): Cái vụ tái sử dụng KV cache đúng là cứu tinh. Chạy multi-turn workflows bớt cắn RAM đi bao nhiêu, anh em dev làm agent bớt trầm cảm vì máy giật lag.
Phe thực dụng & rón rén: Mấy tay to dùng Mac 32GB RAM test ngay con Qwen3.5-35B-A3B NVFP4 và confirm là mượt. Nhưng mấy đồng đạo xài Mac Mini 16GB hay M2 Air thì đang vừa mừng vừa lo, vì bản cũ từng bóp nghẹt RAM của các pháp sư này, hi vọng bản mới quản lý bộ nhớ tốt hơn khi chạy kèm các process nặng khác.

Góc nhìn từ lão quái C4F: Chốt hạ là có thơm không?

Nói công bằng, quả update này của Ollama cực kỳ đáng đồng tiền bát gạo. Việc native với MLX là bước đi quá chí mạng, tận dụng triệt để cái unified memory ảo ma của bọn chip M. Anh em nào đang code dạo mà muốn xài AI local để tiết kiệm tiền API thì nâng cấp ngay và luôn đ*o phải nghĩ.

Bài học sinh tồn rút ra ở đây là gì? Đừng bao giờ khinh thường đồ "chính chủ". Framework native bao giờ cũng vắt kiệt phần cứng tốt hơn mấy bản port chắp vá từ các nền tảng khác. Thôi, chém gió thế đủ rồi, tôi đi pull con model mới về test đây, chúc anh em build agent không bị sập máy!

Nguồn tham khảo: Product Hunt

Tóm tắt vụ "độ xe" cho anh em lười đọc

Nói ngắn gọn thì bản update này tập trung bú liếm triệt để sức mạnh phần cứng nhà Táo. Cụ thể:

Chuyển khẩu sang MLX: Ollama v0.19 đập đi xây lại toàn bộ phần inference trên Apple Silicon, dọn nhà sang dùng framework "cây nhà lá vườn" của Apple là MLX. Tối ưu cực mạnh cho kiến trúc Unified Memory.

Hỗ trợ NVFP4: Giải thích nhanh cho anh em đỡ ngợp, cái này giúp chạy local inference mượt mà hơn, kéo chất lượng tiến sát với hàng production server.

Đại tu hệ thống KV cache: Giờ nó khôn hơn rồi. Biết giữ lại cache qua các đoạn hội thoại, lưu snapshot và dọn dẹp (eviction) chuẩn xác hơn. Đỡ hẳn cái cảnh anh em switch project bị cold-start chờ mốc mỏ.

Giang cư mận hóng hớt được gì?

Dạo một vòng Product Hunt với mấy ổ Reddit, thấy dân tình combat và test hiệu năng rôm rả phết. Có vài luồng quan điểm đang chiếm sóng:

Phe khen nức nở (Đa số): Toàn các thanh niên xài Mac M4 lên tiếng. Chạy con Qwen3.5 mà tốc độ "bàn thờ" luôn. Trích lời một pro ẩn danh: "So với cái backend GGML cũ thì bản MLX này đúng là một trời một vực".

Phe cày Agent (Claude Code, OpenClaw): Cái vụ tái sử dụng KV cache đúng là cứu tinh. Chạy multi-turn workflows bớt cắn RAM đi bao nhiêu, anh em dev làm agent bớt trầm cảm vì máy giật lag.

Phe thực dụng & rón rén: Mấy tay to dùng Mac 32GB RAM test ngay con Qwen3.5-35B-A3B NVFP4 và confirm là mượt. Nhưng mấy đồng đạo xài Mac Mini 16GB hay M2 Air thì đang vừa mừng vừa lo, vì bản cũ từng bóp nghẹt RAM của các pháp sư này, hi vọng bản mới quản lý bộ nhớ tốt hơn khi chạy kèm các process nặng khác.

Góc nhìn từ lão quái C4F: Chốt hạ là có thơm không?

Nguồn tham khảo: Product Hunt