Dạo này đi đâu cũng thấy mấy lão quái khè nhau model trăm tỷ params, xong vác về chạy cắn RAM đến mức sập cả máy chủ lẫn dàn PC cùi bắp ở nhà. Bớt ngáo lại đi các đạo hữu, thực dụng lên! Vừa lướt Product Hunt rớt ra con hàng Step 3.7 Flash – một minh chứng cho việc "nhỏ nhưng có võ", bao mượt cho anh em thích cắm AI agents chạy ngầm.
Rốt cuộc con Step 3.7 Flash này có vẹo gì?
Anh em lười đọc document thì bơi hết vào đây, tôi tóm tắt nhanh gọn lẹ:
- Nhẹ mà khỏe: Quanh quẩn ~11B active params thôi, nhưng xử lý context lên tới 256K. Anh em nhét đống log chà bá vào nó vẫn nuốt trôi.
- Tốc độ bàn thờ: Đẩy lên được tới 400 TPS (Tokens Per Second). Xịn xò con bò, chạy agents mà chờ nó rặn từng chữ chắc tôi đi đun ấm nước pha trà đá cho lẹ.
- Đa năng: Không chỉ chat nhảm, nó chơi tuốt từ Vision (nhìn ảnh), Coding, Search đến xài Tool.
- Mở tẹt ga: Trọng số (weights) open source chuẩn Apache 2.0. Không lo bị khóa mõm hay cấm chat giữa chừng.
Giang cư mận mổ xẻ: Khen chê đủ cả
Cộng đồng mạng thì lúc đ*o nào chả chia phe, cơ mà vụ này khá thú vị:
- Phe khen lấy khen để: Đa số dân tình đánh giá cao việc con model này focus vào efficiency (hiệu năng). Lắp vào mấy cái harness phổ biến như Claude Code, OpenClaw hay Kilo Code là chạy mượt như Sunsilk. Có ông còn húp luôn extension VS Code của Kilo mới ra lò tháng này để vọc.
- Phe thực dụng, tỉnh đòn: Một pháp sư ẩn danh lại đặt câu hỏi chí mạng: "Ok ngon đấy, nhưng cớ gì tao phải xài con này thay vì Qwen hay Mistral?". Lão này phân tích khá thấm: Dù combo Vision + Tool Use ở size 11B là một lợi thế, nhưng ở thời điểm này, hệ sinh thái dev và tool support mới là trùm cuối. Mấy cái benchmark ảo ma vứt sọt rác đi nếu lúc mang về setup khó như lên giời, hoặc đ*o tương thích với các framework inference hiện tại.
Góc nhìn từ Coding4Food: Bài học sinh tồn chốn võ lâm
Đọc xong mấy cái comments, tôi thấy anh em rút ra được bài học xương máu này:
- Khách hàng/Dev đ*o quan tâm benchmark: Cái họ cần là "plug-and-play". Mày làm tool/model xịn đến mấy mà bắt tao config 7749 bước thì tao cũng tế.
- Đừng đú size to: Tối ưu hóa chi phí vận hành mới là chân ái. Chạy agent thực tế cần nhất là nhanh, rẻ và ổn định, chứ không phải đi thi xem não ai to hơn.
Nói chung, Step 3.7 Flash là một luồng gió khá mát mẻ, đặc biệt là khi ông không có cụm H100 để đốt tiền. Anh em vác về test thử xem có mượt thật không, hay lại quay xe chửi thề nhé.
Nguồn: Product Hunt