Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
en
Trang chủChuyên mụcArcadeĐã lưu
Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
Bảo mật|Điều khoản

© 2026 Coding4Food. Viết bởi dev, cho dev.

Tất cả tin tức
AI & AutomationCông nghệ

Google thả xích Gemma 4: Xài 'Multi-token Prediction' đẻ chữ nhanh như máy khâu

6 tháng 5, 20263 phút đọc
circuit, hexagonal, geometric, pattern, background, desktop wallpaper, 8k, pcb, cpu, chip, processor, motherboard, electronics, technology, internet, 8k wallpaper, network, data, machine learning, digital, cryptocurrency, modern, abstract, texture
Nguồn gốc: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafterNguồn gốc: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter
Nguồn gốc: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafterNguồn gốc: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter
gemma 4multi-token predictiongoogle aiai inferencellm optimization
Chia sẻ bài viết:

Bình luận

Chào các đồng đạo. Dạo này mấy pháp sư Google lại vừa thả xích một con hàng mới làm cõi mạng xôn xao: Gemma 4 được trang bị "multi-token prediction drafters". Nôm na là thay vì rặn từng chữ một, con AI này giờ đẻ chữ nhanh như máy khâu, mà theo lời Google thì inference mượt mà hơn hẳn.

Mổ xẻ ma pháp "Multi-token Prediction" của Google

Anh em từng deploy LLM chắc đều nếm mùi đau khổ khi model rặn từng token (autoregressive). Đ*o hiểu sao có những lúc đợi nó gen ra câu trả lời mà tưởng đang xem phim Ấn Độ slow-motion. Rốt cuộc thì chuyện quái gì vừa xảy ra với bản update này?

  • Trò cũ bình mới nhưng xịn: Thật ra trò này giang hồ gọi là speculative decoding (giải mã suy đoán), không quá lạ. Nhưng Google đã nhúng thẳng kiến trúc "drafter" (người phác thảo) vào hệ sinh thái Gemma 4.
  • Thằng đệ làm nháp, anh lớn duyệt: Thay vì model chính phải tính toán từng chữ, thằng đệ "drafter" sẽ nhảy ra đoán trước 3-4 token tiếp theo. Sau đó, model chính chỉ việc nhìn qua và gật đầu (verify) một lượt. Nếu đúng thì húp trọn, sai thì sửa.
  • Lợi ích thực dụng: Tốc độ inference tăng vèo vèo. Ít tốn thời gian tính toán lặp đi lặp lại, đỡ cắn RAM, đỡ hành hạ GPU. Anh em build app không còn cảnh user ngồi nhìn cái loading spinner quay mòng mòng nữa.

Giang cư mận và các pháp sư AI phán gì?

Kèo này đưa lên Hacker News bú ngay hơn 500 điểm. Anh em dev chia phe combat khá xôm:

  • Phe thực dụng, thèm tốc độ: "Đỉnh vãi chưởng! Cuối cùng cũng có giải pháp ngon để tiết kiệm tiền thuê cloud vps chạy AI. Inference nhanh thế này thì tiền server giảm cả khúc."
  • Phe hoài nghi "Thuyết âm mưu": "Google dạo này PR gắt nhỉ. Model thì kêu là open nhưng xài thực tế thì có bị khóa mõm hay vướng license dị giáo nào không đây? Chờ các cao nhân test thực tế mới tin."
  • Phe "Tối ưu hóa đến chết": "Tốc độ lý thuyết thì bá đạo đấy, nhưng khi nhét cái drafter vào thì model phình ra bao nhiêu? RAM trên máy local liệu có chịu nổi nhiệt hay lại nổ tung? Chờ các anh tài trên Hugging Face tung benchmark."

Tóm cái váy lại (Góc nhìn từ Coding4Food)

Cuộc đua AI bây giờ đ*o phải là thằng nào đẻ ra cái model to hơn nữa, mà là thằng nào chạy mượt hơn, rẻ hơn. Kích thước to mà inference như rùa bò thì cũng vứt xó, chẳng startup nào kham nổi tiền server.

Việc Google chuẩn hóa trò multi-token prediction này cho thấy xu hướng sắp tới: Tối ưu hóa ở mức kiến trúc phần cứng và suy luận. Làm dev thời nay, anh em tích hợp các ai tools vào sản phẩm cũng nên bắt đầu quan tâm đến chỉ số TPS (Tokens Per Second). Một cái app AI ngon là cái app trả lời tức thì, chứ không phải bắt user đợi dài cổ như chờ lương về.

Chốt hạ: Gemma 4 lần này là một bước đi khá thực dụng của Google. Đáng để anh em tải về vọc vạch vào cuối tuần này đấy.

Nguồn hóng hớt: Google Blog / Hacker News

Pháp sư Google vừa tung bài mới với Gemma 4, dùng chiêu multi-token prediction để tăng tốc inference. Cùng C4F mổ xẻ xem kèo này thơm hay lại lùa gà.

Chia sẻ bài viết:

Bài viết liên quan

globe, world, languages, translate, translation, interpreting, interpreter communication, worldwide, languages, languages, translate, translation, translation, translation, translation, translation
AI & AutomationCông nghệ

Google tung chiêu Gemini 3.5 Live Translate: Dev hết bài lươn lẹo 'bất đồng ngôn ngữ' khi họp với Client?

Google vừa thả xích Gemini 3.5 Live Translate dịch giọng nói thời gian thực. Liệu đây là cứu cánh cho anh em dốt ngoại ngữ hay lại là một quả bánh vẽ cắn RAM?

11 thg 64 phút đọc
Đọc tiếp →
ai generated, neural, brain, technology, network, digital, mind, data, information, neurons, biotech, nanotechnology, science, head, electronics, cybernetics, cyberspace, singularity, robot, future, computer, chip, processor, intelligence
Công nghệAI & Automation

Google thả xích Gemma 4 12B: Không thèm xài Encoder, kèo này thơm hay lại bánh vẽ?

Google vừa tung Gemma 4 12B với kiến trúc multimodal encoder-free. Giang cư mận HN đang rần rần. Liệu có đủ tuổi đọ lại Llama hay chỉ là content lùa gà?

4 thg 64 phút đọc
Đọc tiếp →
camera, video, tv, video making, cinematography, television, movie camera, target, cinema, video camera, audiovisual, video, video, video, video, video, video camera, video camera
AI & AutomationCông nghệ

Gemini Omni Trình Làng: 'Pháp Sư' Dựng Video Mới Của Google Hay Lại Lùa Gà?

Google vừa thả xích Gemini Omni với lời hứa hẹn kết hợp tư duy logic và tạo video mượt mà. Đẳng cấp mới của GenAI hay chỉ là bánh vẽ? Cùng anh em dev mổ xẻ.

21 thg 54 phút đọc
Đọc tiếp →
lightning, eve, nature, night, clouds, lighting mood, thunderstorm
Công nghệAI & Automation

Google trình làng Gemini 3.5 Flash: Phép thuật 'lùa gà' hay chân ái cho dev nghèo?

Google vừa thả xích Gemini 3.5 Flash với lời hứa hẹn nhanh - rẻ - mượt. Cùng bóc phốt xem con hàng này có thực sự bá đạo hay chỉ là chiêu trò buff version.

20 thg 53 phút đọc
Đọc tiếp →
pixel art, pixel, retro, classic, video game, store, shop, market, robot, sci-fi, fastfood, pixel art shop, pixel art store, pixel art, pixel art, pixel art, pixel art, pixel art, pixel, pixel, pixel, video game, video game, video game, store, shop, robot, robot
AI & AutomationCông nghệ

Gemini 3.1 Flash-Lite: Nước cờ "bán máu" của Google và cái kết rẻ bèo cho anh em dev

Google vừa thả xích Gemini 3.1 Flash-Lite. Cắt giảm 60% chi phí, p95 dưới 1s. Liệu thế giới AI có đang chia phe 'suy nghĩ' và 'làm cu li'?

17 thg 54 phút đọc
Đọc tiếp →
electronics, mobile phone, screen, smartphone, google, search engine, mobile, website, internet, analytics, google, google, google, google, google, search engine, website, website, website
Công nghệAI & Automation

Bỏ túi ngay Tool AI SEO miễn phí: Khi các pháp sư hết thời nhét keyword để lạy lục Google

Khám phá Free AI SEO Auditor - tool mã nguồn mở giúp site của bạn 'lọt mắt xanh' ChatGPT và Claude, đập tan chén cơm 500 đô/tháng của mấy startup lùa gà.

13 thg 54 phút đọc
Đọc tiếp →