NVIDIA vừa ném một quả bom nổ chậm vào mặt giới làm AI. Trong khi anh em còn đang cày cuốc với mấy con model chat chit bình thường, thì pháp sư áo da Jensen Huang lại cho ra lò con Nemotron 3 Ultra. Đ*o đùa đâu, con này sinh ra là để làm "người làm thuê" thực thụ chạy ngầm liên tục chứ không phải để chém gió giải trí qua ngày.
Pháp sư áo da lại tung chiêu: Nemotron 3 Ultra là cái quái gì?
Tóm tắt nhanh cho anh em lười đọc, con hàng này có mấy điểm xịn xò con bò như sau:
- Khủng long 550B nhưng ăn kiêng: Tổng lượng parameter là 550 tỷ (MoE), nhưng nhờ công nghệ LatentMoE, lúc chạy thực tế mỗi token nó chỉ "cắn" 55 tỷ thôi. Nghĩa là anh em có sức mạnh của con quái vật nhưng không cần phải bán thận mua GPU để load toàn bộ model.
- Não cá voi, nhớ dai: Hỗ trợ context window lên đến 1 triệu (1M) token. Tức là các ông cứ tự tin ném nguyên cái codebase rối như tơ vò hay hàng chục cái tài liệu PDF vào mồm nó, nó vẫn nhai rào rạo mà không bị ngáo.
- Dành riêng cho Long-running Agents: Khác với mấy model bình thường xài đa vòng một lúc là "mất trí nhớ tạm thời", con Nemotron này xài kiến trúc lai Mamba-Transformer. Nó giúp mấy con bot chạy nền ngầm lập kế hoạch, gọi tool, tự fix bug đa luồng cực mượt mà không bị mất dấu.
- Tốc độ bàn thờ: Tối ưu NVFP4, chạy nhanh gấp 5 lần so với chuẩn BF16 trên kiến trúc Blackwell mới nhất.
- Quan trọng nhất: Nó là hàng Open weights! (phát hành dưới license OpenMDW-1.1).
Giang cư mận Product Hunt nói gì?
Dân tình đang rần rần chia phe combat và đưa ra mấy quan điểm khá mặn mòi về con hàng mới này:
- Team phân tích kỹ thuật: Một đại ca (rohanrecommends) trên Product Hunt đã mổ xẻ rất kỹ. Lão cho rằng điểm ăn tiền nhất của con Nemotron này là khả năng "Multi-Teacher On-Policy Distillation" - tức là nó được train chéo, nhồi nhét feedback từ hơn 10 con model "giáo viên" chuyên biệt về code, toán và xài tool. Đã thế, nó còn tối ưu đa vòng lặp (multi-turn). Anh em nào từng build agent sẽ biết, context càng dài, token cost càng chát và model càng dễ "bể" logic, nhưng con này sinh ra để trị bệnh đó.
- Team thực dụng: Một đạo hữu khác lại chốt hạ một câu đắng lòng cho các đối thủ: "550B params, 1M context, 300 token/giây. Chắc chắn đây là con open-weights của Mỹ bá đạo nhất hiện tại". Nghe đồn hiện tại anh em có thể xài chùa để test nhân phẩm trực tiếp trên Kilo Code.
Góc nhìn từ Coding4Food: Bài học sinh tồn cho anh em thợ code
Thời đại bây giờ, xài AI để nó code hộ vài dòng đã là dĩ vãng rồi. Xu hướng sắp tới là Agentic AI - tức là anh em sẽ cấp quyền, ném API cho một đàn bot tự đi mò mẫm, lập kế hoạch, tự sửa lỗi và báo cáo kết quả.
Nhưng nói đi cũng phải nói lại, dẫu là open weights và chỉ active 55B params, nhưng vác về chạy local trên con máy phèn của anh em thì khéo sập luôn cả hệ điều hành vì cắn hết RAM. Muốn nghịch ngợm thực tế chắc anh em vẫn phải thuê một con vps cấu hình khủng hoặc xài qua cloud API cho lành.
Dù sao thì việc NVIDIA mở mã nguồn con này cũng là một cú hích lớn, giúp giảm 30% chi phí chạy các task agentic phức tạp. Anh em dev mau mau cập nhật kiến thức, học cách "quản lý" mấy con bot này đi, đừng để tụi nó hất đổ bát cơm!
Nguồn: Product Hunt - Nemotron 3 Ultra by NVIDIA