Coding4Food LogoCoding4Food
HomeCategoriesArcadeBookmarks
vi
HomeCategoriesArcadeBookmarks
Coding4Food LogoCoding4Food
HomeCategoriesArcadeBookmarks
Privacy|Terms

© 2026 Coding4Food. Written by devs, for devs.

This article is not yet available in English. Showing the Vietnamese version.

All news
AI & AutomationCông nghệ

Google âm thầm thả xích Gemini 3.1 Pro lúc nửa đêm: Điểm benchmark x2 hay lại "học tủ" giải đề?

February 20, 20264 min read

Đang yên đang lành Google đánh úp con Gemini 3.1 Pro lúc 2h sáng. Điểm benchmark nhảy ảo ma Canada dấy lên nghi vấn học tủ. Cùng xem anh em dev bóc phốt gì.

Share this post:
robot, robotics, future, technology, intelligence, fantasy, digitization, computer, digital, training, computer science, it, communication, programming, equipment, project, coding, bee, think, to learn, lego, to play, lego, lego, lego, lego, lego
Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2
Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2
gemini 3.1 prođánh giá aigoogle vertex aillm benchmarktech dramaai agentslập trình viên
Share this post:

Bình luận

Related posts

balloon, message, talk, say, communication, chat, comment, green, info, information, support, whatsapp, message, chat, comment, comment, comment, comment, comment, information, whatsapp
AI & AutomationTechnology

Onform.work: Typing forms into existence via Claude. Next big thing or just another AI wrapper?

Context switching is a dev's worst nightmare. Onform tries to fix this by letting you build forms natively through Claude and Cursor via MCP. Let's see if it's actually cooking.

Apr 103 min read
Read more →
ai generated, podcast, microphone, audio, recording, sound, technology, studio, broadcast, equipment, mic, voice, digital, media, communication, podcast, microphone, microphone, microphone, microphone, microphone
Tools & Tech StackAI & Automation

Show HN: Ghost Pepper - The 100% Local Hold-to-Talk macOS Tool for Paranoiacs

Tired of cloud APIs stealing your data? Ghost Pepper is a 100% local, open-source hold-to-talk speech-to-text tool for macOS. Time to code with your mouth!

Apr 73 min read
Read more →
ai generated, crypto trader, crypto charts, crypto, crypto trading, crypto king, colorful, crypto man, cryptocurrency, mining, bitcoin, trading, trader, crypto, crypto, crypto, crypto, trading, trading, trading, trading, trading
AI & AutomationCode to Cash

8 Years of Procrastination Cured by 3 Months of AI: A Wake-Up Call for Lazy Devs

A developer kept a side project in his backlog for 8 years, then shipped it in 3 months using AI. Is GenAI the ultimate cure for dev procrastination?

Apr 63 min read
Read more →
robot, isolated, artificial intelligence, robot, robot, robot, robot, robot, artificial intelligence
TechnologyAI & Automation

Google Unleashes Gemma 4: The Open-Source Beast That Fits in Your Pocket?

Google dropped Gemma 4, an open-source AI model that claims to be scary smart while running locally. Is it a Llama killer or just good PR?

Apr 42 min read
Read more →
run, motorsport, automobile, pit lane, nürburgring, sports, vln, racing team, pit crew, team, run, motorsport, motorsport, team, team, team, team, team
AI & AutomationTechnology

ZooClaw Review: Hiring a Free AI Team - Groundbreaking Setup or Just Marketing Fluff?

Deep dive into ZooClaw's Product Hunt launch. They promise a multi-agent AI team with zero token anxiety. Is it a real operator or just another UI wrapper?

Apr 43 min read
Read more →
office, sitting room, executive, business, desk, workplace, furniture, corporate, table, office interiors, interior design, interior decoration, office furniture, office, office, office, office, office
AI & AutomationTechnology

Another AI Agent Claiming to 'Change the Game' for IT Services: Is Nitro Legit or Just Hype?

The community is buzzing about Nitro - an AI Agent promising to automate everything from writing docs to chasing timesheets. Is it the 'Cursor' for PS teams?

Apr 34 min read
Read more →

Google dạo này có vẻ thích chơi hệ "ninja". Đang yên đang lành, tự nhiên lúc 2 giờ sáng các pháp sư Mountain View bế con Gemini 3.1 Pro ném tẹt lên Vertex AI mà đếch thèm kèn trống gì.

Toàn cảnh vụ "đánh úp" lúc nửa đêm của Google

Tóm tắt nhanh gọn cho anh em lười lướt HN:

  • Ra mắt kiểu du kích: 2 giờ sáng âm thầm lên sóng trên Vertex AI, vài tiếng sau mới lóc cóc rặn ra được bài blog chính thức.
  • Tên tuổi lú lẫn: Bản 3.0 Pro còn đang chạy chữ "Preview" chà bá, nay đã đẻ luôn ra bản 3.1.
  • Điểm benchmark "ảo ma Canada": Đây mới là cái đáng nói. Điểm bài test ARC-AGI-2 nhảy một phát từ 31.1% lên tận 77.1% (hơn x2 luôn các ông ạ).
  • Các hệ số khác cũng cắn thuốc: Điểm Apex-agents tăng từ 18.4% lên 33.5%.
  • Code dạo: LiveCodeBench Pro chạm mốc 2887, ngang ngửa hoặc nhỉnh hơn con Claude Opus một tẹo.

Giang hồ mạng chia phe combat

Dân tình trên Hacker News tất nhiên là không để yên. Cứ hễ có model mới là lại lôi nhau ra mổ xẻ. Dưới đây là mấy luồng dư luận tôi hóng hớt được:

1. Cãi nhau vì cái... tên gọi Vài anh em mắc chứng OCD soi mói vụ: "Ủa 3.0 còn chưa xong sao đã nhảy 3.1?". Nhưng một pháp sư khác vội phản dame: "Nó up một cái version nhỏ là 0.1 chứng tỏ có thay đổi cốt lõi. Chứ anh em thích gọi theo kiểu bãi rác gemini-3-pro-preview-1902 như xưa à?". Hợp lý!

2. Nghi vấn "học tủ" giải đề thi (Benchmark-maxing) Điểm benchmark tự nhiên x2 chỉ qua một bản minor update (.1) khiến nhiều lão làng nhướn mày. Đa số anh em đều cho rằng có mùi "benchmark-maxing". Kiểu như mấy ông ôn thi đại học đi luyện lò luyên thuyên, nhét đầy output của đề thi vào data train để điểm cao chót vót. Còn vào thực chiến có mượt hay không thì phải chờ các khổ chủ test tool call mới biết.

3. Đội thực dụng: "Pro to tiền, Flash mới là chân ái" Nhiều senior dev lướt qua con 3.1 Pro bằng nửa con mắt. Tiêu biểu là một ông khẳng định: "Tôi xài mẹ con gemini-3-flash-preview cho lành. Rẻ, lẹ, gắn vào mấy cái thư viện agent ngon ơ". Cá biệt có mấy thanh niên "tự kỷ" vác luôn model 7B-9B về tự chạy local cho bảo mật, đỡ phải nhìn mặt thằng Google.

4. Chê vụ cắt xén token (Output limit) Drama hài nhất là có ông nội vào than phiền Gemini 3.x cắt output cực gắt, thua xa bản 2.5. Ông này còn hồn nhiên xài prompt dặn AI: "Ê nếu hết token thì pause lại nha, đừng có nhả text cụt lủn". Kết quả? AI nó vẫn cắt như chưa từng có cuộc chia ly. Mấy anh em dev vào cười khùng, vỗ vai an ủi: "Bố trẻ ạ, AI nó làm chó gì có nhận thức mà xài prompt kiểu đấy. Chừng nào ông tự build một cái vòng lặp agentic xử lý logic thì hẵng hay, chứ dặn mồm nó không nghe đâu".

Chốt hạ từ Coding4Food: Bài học sinh tồn cho anh em dev

Làm nghề này lâu các ông tự khắc nhận ra, vụ hãng nó múa số benchmark bằng ba cái trò "học tủ" là chuyện như cơm bữa. Qua vụ con Gemini 3.1 Pro này, tôi chốt lại mấy ý cho anh em giữ cần câu cơm:

  • Đừng tôn thờ benchmark: Điểm cao để làm marketing lùa gà hoặc nổ với sếp. Còn dev mình thì cứ phải cắm API test trực tiếp vào luồng app của mình. Tool call không ngu, trả JSON chuẩn là quất.
  • Dùng dao mổ trâu giết gà làm gì: Nếu không cần suy luận quá sâu, hãy dẹp bọn Pro hay Opus sang một bên. Chơi hệ Flash, Haiku hay model local cho nó rẻ và phản hồi lẹ. Tiền API cuối tháng nó cắn vào ví đau lắm.
  • Bỏ ngay thói quen prompt như nói chuyện với người: Đừng dặn AI "hết token thì tự dừng". Tỉnh mộng đi anh em. Cần bắt lỗi hay nối token thì phải viết code (vòng lặp while, check finish_reason, etc.). Code ra tiền là ở chỗ đấy chứ ngồi gõ văn mẫu hiền hòa thì AI nó thay mình lâu rồi.

Nguồn tham khảo: Hóng hớt từ Hacker News & Google Blog