Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
en
Trang chủChuyên mụcArcadeĐã lưu
Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
Bảo mật|Điều khoản

© 2026 Coding4Food. Viết bởi dev, cho dev.

Tất cả tin tức
AI & AutomationCông nghệ

Google thả xích Gemma 4: Xài 'Multi-token Prediction' đẻ chữ nhanh như máy khâu

6 tháng 5, 20263 phút đọc
circuit, hexagonal, geometric, pattern, background, desktop wallpaper, 8k, pcb, cpu, chip, processor, motherboard, electronics, technology, internet, 8k wallpaper, network, data, machine learning, digital, cryptocurrency, modern, abstract, texture
Nguồn gốc: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafterNguồn gốc: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter
Nguồn gốc: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafterNguồn gốc: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemma-4-multi-token-prediction-drafter
gemma 4multi-token predictiongoogle aiai inferencellm optimization
Chia sẻ bài viết:

Bình luận

Chào các đồng đạo. Dạo này mấy pháp sư Google lại vừa thả xích một con hàng mới làm cõi mạng xôn xao: Gemma 4 được trang bị "multi-token prediction drafters". Nôm na là thay vì rặn từng chữ một, con AI này giờ đẻ chữ nhanh như máy khâu, mà theo lời Google thì inference mượt mà hơn hẳn.

Mổ xẻ ma pháp "Multi-token Prediction" của Google

Anh em từng deploy LLM chắc đều nếm mùi đau khổ khi model rặn từng token (autoregressive). Đ*o hiểu sao có những lúc đợi nó gen ra câu trả lời mà tưởng đang xem phim Ấn Độ slow-motion. Rốt cuộc thì chuyện quái gì vừa xảy ra với bản update này?

  • Trò cũ bình mới nhưng xịn: Thật ra trò này giang hồ gọi là speculative decoding (giải mã suy đoán), không quá lạ. Nhưng Google đã nhúng thẳng kiến trúc "drafter" (người phác thảo) vào hệ sinh thái Gemma 4.
  • Thằng đệ làm nháp, anh lớn duyệt: Thay vì model chính phải tính toán từng chữ, thằng đệ "drafter" sẽ nhảy ra đoán trước 3-4 token tiếp theo. Sau đó, model chính chỉ việc nhìn qua và gật đầu (verify) một lượt. Nếu đúng thì húp trọn, sai thì sửa.
  • Lợi ích thực dụng: Tốc độ inference tăng vèo vèo. Ít tốn thời gian tính toán lặp đi lặp lại, đỡ cắn RAM, đỡ hành hạ GPU. Anh em build app không còn cảnh user ngồi nhìn cái loading spinner quay mòng mòng nữa.

Giang cư mận và các pháp sư AI phán gì?

Kèo này đưa lên Hacker News bú ngay hơn 500 điểm. Anh em dev chia phe combat khá xôm:

  • Phe thực dụng, thèm tốc độ: "Đỉnh vãi chưởng! Cuối cùng cũng có giải pháp ngon để tiết kiệm tiền thuê cloud vps chạy AI. Inference nhanh thế này thì tiền server giảm cả khúc."
  • Phe hoài nghi "Thuyết âm mưu": "Google dạo này PR gắt nhỉ. Model thì kêu là open nhưng xài thực tế thì có bị khóa mõm hay vướng license dị giáo nào không đây? Chờ các cao nhân test thực tế mới tin."
  • Phe "Tối ưu hóa đến chết": "Tốc độ lý thuyết thì bá đạo đấy, nhưng khi nhét cái drafter vào thì model phình ra bao nhiêu? RAM trên máy local liệu có chịu nổi nhiệt hay lại nổ tung? Chờ các anh tài trên Hugging Face tung benchmark."

Tóm cái váy lại (Góc nhìn từ Coding4Food)

Cuộc đua AI bây giờ đ*o phải là thằng nào đẻ ra cái model to hơn nữa, mà là thằng nào chạy mượt hơn, rẻ hơn. Kích thước to mà inference như rùa bò thì cũng vứt xó, chẳng startup nào kham nổi tiền server.

Việc Google chuẩn hóa trò multi-token prediction này cho thấy xu hướng sắp tới: Tối ưu hóa ở mức kiến trúc phần cứng và suy luận. Làm dev thời nay, anh em tích hợp các ai tools vào sản phẩm cũng nên bắt đầu quan tâm đến chỉ số TPS (Tokens Per Second). Một cái app AI ngon là cái app trả lời tức thì, chứ không phải bắt user đợi dài cổ như chờ lương về.

Chốt hạ: Gemma 4 lần này là một bước đi khá thực dụng của Google. Đáng để anh em tải về vọc vạch vào cuối tuần này đấy.

Nguồn hóng hớt: Google Blog / Hacker News

Pháp sư Google vừa tung bài mới với Gemma 4, dùng chiêu multi-token prediction để tăng tốc inference. Cùng C4F mổ xẻ xem kèo này thơm hay lại lùa gà.

Chia sẻ bài viết:

Bài viết liên quan

ai generated, woman, mechanisms, complex, mechanics, robot, wires, circuits
AI & AutomationCông nghệ

Anthropic thả xích 'Claude Advisor': Trò mới cứu ví dev hay chỉ là bình cũ rượu mới?

Anthropic vừa ra mắt tính năng Claude Advisor, đảo ngược tư duy multi-agent truyền thống. Giải pháp này có thực sự giúp anh em dev giảm bill API?

11 thg 44 phút đọc
Đọc tiếp →
ai generated, artificial intelligence, brain, robot, ai, machine, cyber brain, iot, web3, iot, iot, iot, iot, iot
AI & AutomationCông nghệ

Gemma 4 của Google ra mắt: Pháp sư DeepMind cũng trầy trật, giang cư mận la ó vì rổ bug

Toàn cảnh drama ra mắt Gemma 4 của Google DeepMind. Đội dev cày bục mặt, nhưng lúc release thì cộng đồng Reddit khóc thét vì bug ngập mặt và thuyết âm mưu cực gắt.

7 thg 44 phút đọc
Đọc tiếp →
sci-fi, interface, design, technology, 3d, render, display, colorful, screen, robotics, future
Công nghệAI & Automation

Google Stitch 2.0: Gõ phím đẻ UI, Frontend Dev có đang chuẩn bị ra chuồng gà?

Google vừa thả xích Stitch 2.0 - con AI thiết kế UI từ text và voice. Đồ chơi xịn xò cho Founder hay cú lừa đau đớn cho dân Frontend? Anh em vào hóng drama nhé!

19 thg 34 phút đọc
Đọc tiếp →
cloud computing, network, internet, cloud computing concept, communication, networking, virtual, cloud technology, black computer, black technology, black laptop, black clouds, black network, black community, black internet, black communication, cloud computing, cloud computing, cloud computing, cloud computing, cloud computing
AI & AutomationCông nghệ

Google nổ bom Gemini Embedding 2: Cứu rỗi pipeline cho anh em làm RAG hay lại 'lùa gà'?

Google ra mắt Gemini Embedding 2 gom text, ảnh, video, âm thanh vào chung một không gian. Pha này giúp anh em dev dẹp bỏ đống pipeline tiền xử lý cồng kềnh.

11 thg 33 phút đọc
Đọc tiếp →
ai generated, systems analyst, consultant, advisor, it-specialist, server, space, server room, hardware, computer, data, to process, server cabinets, information, technology, server, server, server, server, server, server room, server room, server room, server room
Công nghệAI & Automation

Google tung Gemini 3.1 Pro: Úp sọt trong đêm, giá sinh viên nhưng anh em dev chê mạnh khoản 'cầm tool'

Google vừa thả xích Gemini 3.1 Pro với giá giữ nguyên. Thông số ảo ma nhưng liệu có 'thơm' như lời đồn hay chỉ là cú lừa bình mới rượu cũ? Cùng C4F mổ xẻ.

20 thg 24 phút đọc
Đọc tiếp →