Google Gemma 4: AI Open Source Cực Nhẹ Chạy Local Cho Dev

Đang yên đang lành thì các pháp sư Google lại quăng cho anh em dev một quả bom mang tên Gemma 4. Nghe đồn con hàng này vừa khôn, vừa nhẹ, lại còn open source, chả lẽ thời đại anh em ta cày local xịn xò như cloud đã tới?

Rốt cuộc thì con Gemma 4 này có cái vẹo gì?

Tóm tắt nhanh cho anh em lười đọc tài liệu tiếng Anh dai dẳng: Đây là dòng open model xịn nhất từ trước đến nay của Google DeepMind.

Mở toang (Apache 2.0): Anh em tải về xào nấu, fine-tune, đem đi bán hoặc làm sếp lác mắt đều hợp pháp.
Nhỏ nhưng có võ: Google gáy là con này có chỉ số "thông minh trên từng parameter" cực cao, đấm vỡ mồm mấy con model to gấp 20 lần.
Đẻ ra để làm Agent: Hỗ trợ function calling native, nhá ra output JSON chuẩn chỉ (đ*o bị kẹp thêm dăm ba dòng giải thích lằng nhằng).
Đa giác quan (Multimodal): Nhai được cả text, ảnh, video và audio.
Não cá voi (256K context): Anh em có thể ném nguyên cái codebase spaghetti tồn tại từ 2010 vào, nó vẫn đọc hiểu tốt.
Nhẹ máy: Chạy mượt từ điện thoại cùi, laptop ghẻ cho đến dàn GPU đắt tiền. Tải qua Ollama, Docker hay test thẳng trên các ai studio đều mượt mà.

Giang cư mận chia phe combat

Ngó qua Product Hunt thì thấy dân tình đang chia làm mấy luồng chính:

Phe cuồng Local: Đang bay bổng vì cài con Gemma 4 lên điện thoại mà nó chạy offline mượt thật sự. Từ nay tạm biệt cảnh nạp tiền mua token API hàng tháng nhé.
Phe hoài nghi thực dụng: Mấy lão dev code ngách (như Flutter/Dart) thì rình xem gen code có khôn hơn mấy con model closed không, hay lại tự tin sinh ra đống bug ảo ma.
Phe tay to làm Agent: Quan tâm nhất vụ Agentic workflow. Chạy 1-2 bước thì dễ, nhưng task dài 10+ tool calls mà lỗi giữa chừng thì con này có biết tự sửa sai không, hay lại sập mẹ cả luồng?
Phe tối ưu (Healthcare/Enterprise): Soi tốc độ inference cực kỹ. Bọn họ đang cân đo đong đếm xem con này chạy có nhanh hơn Llama cùng hạng cân không để còn vác vào production.

Góc nhìn từ C4F: Tóm cái váy lại

Nước đi này của giáo chủ Google rất "ma giáo", rõ ràng là muốn giành lại miếng bánh open source đang bị Meta (Llama) bú đẫm. Với anh em thợ code chúng ta, đây là một món hời. Tự chạy AI local vừa sướng, vừa bảo mật, khỏi lo bị công ty đuổi cổ vì lỡ tay ném code nội bộ lên ChatGPT. Cơ mà anh em tỉnh táo nhé, quảng cáo "low compute" là so với hệ quy chiếu của AI thôi. Xách con máy RAM 8GB ra mà nhét full 256K context thì xác định máy tính cắn RAM há mồm, quạt tản nhiệt kêu như Boeing 747. Chốt hạ: Cứ bật terminal lên, gõ ollama run gemma4 rồi tự trải nghiệm. Ngon thì xài, không thì xóa, tốn tý băng thông chứ có chết ai.

Nguồn hóng hớt: Product Hunt

Rốt cuộc thì con Gemma 4 này có cái vẹo gì?

Tóm tắt nhanh cho anh em lười đọc tài liệu tiếng Anh dai dẳng: Đây là dòng open model xịn nhất từ trước đến nay của Google DeepMind.

Mở toang (Apache 2.0): Anh em tải về xào nấu, fine-tune, đem đi bán hoặc làm sếp lác mắt đều hợp pháp.

Nhỏ nhưng có võ: Google gáy là con này có chỉ số "thông minh trên từng parameter" cực cao, đấm vỡ mồm mấy con model to gấp 20 lần.

Đẻ ra để làm Agent: Hỗ trợ function calling native, nhá ra output JSON chuẩn chỉ (đ*o bị kẹp thêm dăm ba dòng giải thích lằng nhằng).

Đa giác quan (Multimodal): Nhai được cả text, ảnh, video và audio.

Não cá voi (256K context): Anh em có thể ném nguyên cái codebase spaghetti tồn tại từ 2010 vào, nó vẫn đọc hiểu tốt.

Nhẹ máy: Chạy mượt từ điện thoại cùi, laptop ghẻ cho đến dàn GPU đắt tiền. Tải qua Ollama, Docker hay test thẳng trên các ai studio đều mượt mà.

Giang cư mận chia phe combat

Ngó qua Product Hunt thì thấy dân tình đang chia làm mấy luồng chính:

Phe cuồng Local: Đang bay bổng vì cài con Gemma 4 lên điện thoại mà nó chạy offline mượt thật sự. Từ nay tạm biệt cảnh nạp tiền mua token API hàng tháng nhé.

Phe hoài nghi thực dụng: Mấy lão dev code ngách (như Flutter/Dart) thì rình xem gen code có khôn hơn mấy con model closed không, hay lại tự tin sinh ra đống bug ảo ma.

Phe tay to làm Agent: Quan tâm nhất vụ Agentic workflow. Chạy 1-2 bước thì dễ, nhưng task dài 10+ tool calls mà lỗi giữa chừng thì con này có biết tự sửa sai không, hay lại sập mẹ cả luồng?

Phe tối ưu (Healthcare/Enterprise): Soi tốc độ inference cực kỹ. Bọn họ đang cân đo đong đếm xem con này chạy có nhanh hơn Llama cùng hạng cân không để còn vác vào production.

Góc nhìn từ C4F: Tóm cái váy lại

Nguồn hóng hớt: Product Hunt