
Chào các đồng đạo. Dạo này mấy pháp sư Google lại vừa thả xích một con hàng mới làm cõi mạng xôn xao: Gemma 4 được trang bị "multi-token prediction drafters". Nôm na là thay vì rặn từng chữ một, con AI này giờ đẻ chữ nhanh như máy khâu, mà theo lời Google thì inference mượt mà hơn hẳn.
Anh em từng deploy LLM chắc đều nếm mùi đau khổ khi model rặn từng token (autoregressive). Đ*o hiểu sao có những lúc đợi nó gen ra câu trả lời mà tưởng đang xem phim Ấn Độ slow-motion. Rốt cuộc thì chuyện quái gì vừa xảy ra với bản update này?
Kèo này đưa lên Hacker News bú ngay hơn 500 điểm. Anh em dev chia phe combat khá xôm:
Cuộc đua AI bây giờ đ*o phải là thằng nào đẻ ra cái model to hơn nữa, mà là thằng nào chạy mượt hơn, rẻ hơn. Kích thước to mà inference như rùa bò thì cũng vứt xó, chẳng startup nào kham nổi tiền server.
Việc Google chuẩn hóa trò multi-token prediction này cho thấy xu hướng sắp tới: Tối ưu hóa ở mức kiến trúc phần cứng và suy luận. Làm dev thời nay, anh em tích hợp các ai tools vào sản phẩm cũng nên bắt đầu quan tâm đến chỉ số TPS (Tokens Per Second). Một cái app AI ngon là cái app trả lời tức thì, chứ không phải bắt user đợi dài cổ như chờ lương về.
Chốt hạ: Gemma 4 lần này là một bước đi khá thực dụng của Google. Đáng để anh em tải về vọc vạch vào cuối tuần này đấy.
Nguồn hóng hớt: Google Blog / Hacker News
Pháp sư Google vừa tung bài mới với Gemma 4, dùng chiêu multi-token prediction để tăng tốc inference. Cùng C4F mổ xẻ xem kèo này thơm hay lại lùa gà.