Google Gemma 4: Tăng tốc Inference với Multi-token Prediction

Chào các đồng đạo. Dạo này mấy pháp sư Google lại vừa thả xích một con hàng mới làm cõi mạng xôn xao: Gemma 4 được trang bị "multi-token prediction drafters". Nôm na là thay vì rặn từng chữ một, con AI này giờ đẻ chữ nhanh như máy khâu, mà theo lời Google thì inference mượt mà hơn hẳn.

Mổ xẻ ma pháp "Multi-token Prediction" của Google

Anh em từng deploy LLM chắc đều nếm mùi đau khổ khi model rặn từng token (autoregressive). Đ*o hiểu sao có những lúc đợi nó gen ra câu trả lời mà tưởng đang xem phim Ấn Độ slow-motion. Rốt cuộc thì chuyện quái gì vừa xảy ra với bản update này?

Trò cũ bình mới nhưng xịn: Thật ra trò này giang hồ gọi là speculative decoding (giải mã suy đoán), không quá lạ. Nhưng Google đã nhúng thẳng kiến trúc "drafter" (người phác thảo) vào hệ sinh thái Gemma 4.
Thằng đệ làm nháp, anh lớn duyệt: Thay vì model chính phải tính toán từng chữ, thằng đệ "drafter" sẽ nhảy ra đoán trước 3-4 token tiếp theo. Sau đó, model chính chỉ việc nhìn qua và gật đầu (verify) một lượt. Nếu đúng thì húp trọn, sai thì sửa.
Lợi ích thực dụng: Tốc độ inference tăng vèo vèo. Ít tốn thời gian tính toán lặp đi lặp lại, đỡ cắn RAM, đỡ hành hạ GPU. Anh em build app không còn cảnh user ngồi nhìn cái loading spinner quay mòng mòng nữa.

Giang cư mận và các pháp sư AI phán gì?

Kèo này đưa lên Hacker News bú ngay hơn 500 điểm. Anh em dev chia phe combat khá xôm:

Phe thực dụng, thèm tốc độ: "Đỉnh vãi chưởng! Cuối cùng cũng có giải pháp ngon để tiết kiệm tiền thuê cloud vps chạy AI. Inference nhanh thế này thì tiền server giảm cả khúc."
Phe hoài nghi "Thuyết âm mưu": "Google dạo này PR gắt nhỉ. Model thì kêu là open nhưng xài thực tế thì có bị khóa mõm hay vướng license dị giáo nào không đây? Chờ các cao nhân test thực tế mới tin."
Phe "Tối ưu hóa đến chết": "Tốc độ lý thuyết thì bá đạo đấy, nhưng khi nhét cái drafter vào thì model phình ra bao nhiêu? RAM trên máy local liệu có chịu nổi nhiệt hay lại nổ tung? Chờ các anh tài trên Hugging Face tung benchmark."

Tóm cái váy lại (Góc nhìn từ Coding4Food)

Cuộc đua AI bây giờ đ*o phải là thằng nào đẻ ra cái model to hơn nữa, mà là thằng nào chạy mượt hơn, rẻ hơn. Kích thước to mà inference như rùa bò thì cũng vứt xó, chẳng startup nào kham nổi tiền server.

Việc Google chuẩn hóa trò multi-token prediction này cho thấy xu hướng sắp tới: Tối ưu hóa ở mức kiến trúc phần cứng và suy luận. Làm dev thời nay, anh em tích hợp các ai tools vào sản phẩm cũng nên bắt đầu quan tâm đến chỉ số TPS (Tokens Per Second). Một cái app AI ngon là cái app trả lời tức thì, chứ không phải bắt user đợi dài cổ như chờ lương về.

Chốt hạ: Gemma 4 lần này là một bước đi khá thực dụng của Google. Đáng để anh em tải về vọc vạch vào cuối tuần này đấy.

Nguồn hóng hớt: Google Blog / Hacker News

Mổ xẻ ma pháp "Multi-token Prediction" của Google

Trò cũ bình mới nhưng xịn: Thật ra trò này giang hồ gọi là speculative decoding (giải mã suy đoán), không quá lạ. Nhưng Google đã nhúng thẳng kiến trúc "drafter" (người phác thảo) vào hệ sinh thái Gemma 4.

Thằng đệ làm nháp, anh lớn duyệt: Thay vì model chính phải tính toán từng chữ, thằng đệ "drafter" sẽ nhảy ra đoán trước 3-4 token tiếp theo. Sau đó, model chính chỉ việc nhìn qua và gật đầu (verify) một lượt. Nếu đúng thì húp trọn, sai thì sửa.

Lợi ích thực dụng: Tốc độ inference tăng vèo vèo. Ít tốn thời gian tính toán lặp đi lặp lại, đỡ cắn RAM, đỡ hành hạ GPU. Anh em build app không còn cảnh user ngồi nhìn cái loading spinner quay mòng mòng nữa.

Giang cư mận và các pháp sư AI phán gì?

Kèo này đưa lên Hacker News bú ngay hơn 500 điểm. Anh em dev chia phe combat khá xôm:

Phe thực dụng, thèm tốc độ: "Đỉnh vãi chưởng! Cuối cùng cũng có giải pháp ngon để tiết kiệm tiền thuê cloud vps chạy AI. Inference nhanh thế này thì tiền server giảm cả khúc."

Phe hoài nghi "Thuyết âm mưu": "Google dạo này PR gắt nhỉ. Model thì kêu là open nhưng xài thực tế thì có bị khóa mõm hay vướng license dị giáo nào không đây? Chờ các cao nhân test thực tế mới tin."

Phe "Tối ưu hóa đến chết": "Tốc độ lý thuyết thì bá đạo đấy, nhưng khi nhét cái drafter vào thì model phình ra bao nhiêu? RAM trên máy local liệu có chịu nổi nhiệt hay lại nổ tung? Chờ các anh tài trên Hugging Face tung benchmark."

Tóm cái váy lại (Góc nhìn từ Coding4Food)

Chốt hạ: Gemma 4 lần này là một bước đi khá thực dụng của Google. Đáng để anh em tải về vọc vạch vào cuối tuần này đấy.

Google thả xích Gemma 4: Xài 'Multi-token Prediction' đẻ chữ nhanh như máy khâu

Mổ xẻ ma pháp "Multi-token Prediction" của Google

Giang cư mận và các pháp sư AI phán gì?

Tóm cái váy lại (Góc nhìn từ Coding4Food)

Bình luận

Mổ xẻ ma pháp "Multi-token Prediction" của Google

Giang cư mận và các pháp sư AI phán gì?

Tóm cái váy lại (Góc nhìn từ Coding4Food)

Bài viết liên quan

Anthropic thả xích 'Claude Advisor': Trò mới cứu ví dev hay chỉ là bình cũ rượu mới?

Gemma 4 của Google ra mắt: Pháp sư DeepMind cũng trầy trật, giang cư mận la ó vì rổ bug

Google Stitch 2.0: Gõ phím đẻ UI, Frontend Dev có đang chuẩn bị ra chuồng gà?

Google nổ bom Gemini Embedding 2: Cứu rỗi pipeline cho anh em làm RAG hay lại 'lùa gà'?

Google tung Gemini 3.1 Pro: Úp sọt trong đêm, giá sinh viên nhưng anh em dev chê mạnh khoản 'cầm tool'