Coding4Food LogoCoding4Food
HomeCategoriesArcadeBookmarks
vi
HomeCategoriesArcadeBookmarks
Coding4Food LogoCoding4Food
HomeCategoriesArcadeBookmarks
Privacy|Terms

© 2026 Coding4Food. Written by devs, for devs.

This article is not yet available in English. Showing the Vietnamese version.

All news
AI & AutomationCông nghệ

Google âm thầm thả xích Gemini 3.1 Pro lúc nửa đêm: Điểm benchmark x2 hay lại "học tủ" giải đề?

February 20, 20264 min read

Đang yên đang lành Google đánh úp con Gemini 3.1 Pro lúc 2h sáng. Điểm benchmark nhảy ảo ma Canada dấy lên nghi vấn học tủ. Cùng xem anh em dev bóc phốt gì.

Share this post:
robot, robotics, future, technology, intelligence, fantasy, digitization, computer, digital, training, computer science, it, communication, programming, equipment, project, coding, bee, think, to learn, lego, to play, lego, lego, lego, lego, lego
Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2
Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2
gemini 3.1 prođánh giá aigoogle vertex aillm benchmarktech dramaai agentslập trình viên
Share this post:

Bình luận

Related posts

airport, tower, air, traffic, controller, aviation, flying, travel, airplane, aircraft, sketch, drawing
AI & AutomationTechnology

Wingbits AI Review: The Flight Tracking 'Palantir' That System Design Nerds Are Drooling Over

Querying TBs of raw flight data in plain English? Wingbits AI brings OSINT to the masses. Here is a deep dive into the massive system design behind it.

May 313 min read
Read more →
artificial intelligence, robot, ai, ki, program, programming, computer, environment, syntax, data processing, advertisement, hacker, html, web design, development, developer, language, code, software, website, programmers of the future, computer science, technology, think, html, html, html, html, html
AI & AutomationTechnology

Step 3.7 Flash Review: Stop Simping for Giant Models. This 11B Agent Model is Actually Usable.

Step 3.7 Flash hits Product Hunt with 11B params, 256k context, and blazing 400 TPS. A practical, open-weight AI model for devs who hate complex setups.

May 312 min read
Read more →
woman, robot, cyberpunk, cyborg, retro, cyberpunk, cyberpunk, cyberpunk, cyberpunk, cyberpunk
TechnologyAI & Automation

YouTube goes RoboCop: Using AI to label AI, devs grab popcorn for false positives

YouTube is rolling out an AI system to automatically flag AI-generated videos. The dev community is already betting on massive false positives and bypass tools.

May 283 min read
Read more →
software, testing, service, bugs search, it, automation, blue test, blue software, blue service, software, software, testing, testing, testing, testing, testing, automation
AI & AutomationTechnology

TestSprite 3.0: Letting an AI Swarm Write Your E2E Tests. Genius or Skynet?

Hate writing tests? TestSprite 3.0 unleashes parallel AI agents to autonomously explore, generate, and heal E2E tests. But will it nuke your prod DB?

May 233 min read
Read more →
email marketing, online marketing, online, marketing, email, advertising, communication, message, envelope, mailbox, spam, newsletter, blue marketing, blue online, blue email, blue community, blue communication, email marketing, email, email, email, email, email, mailbox, newsletter, newsletter, newsletter
AI & AutomationTechnology

Emails Landing in Spam? mailX Uses AI to Rescue Your DMARC & SPF

Spending weeks A/B testing while your DNS setup is garbage? mailX just launched on Product Hunt to fix your email deliverability issues for humans and AI agents.

May 202 min read
Read more →
hourglass, time, sand, clock, flask, glass, hourglass, hourglass, hourglass, hourglass, hourglass, clock, clock, clock
AI & AutomationDev Life

Reality Check: AI Isn't Going to 10x Your Software Development Process

A spicy Hacker News thread drops a reality bomb on managers who think AI will magically speed up projects. Here's why your codebase isn't safe yet.

May 183 min read
Read more →

Google dạo này có vẻ thích chơi hệ "ninja". Đang yên đang lành, tự nhiên lúc 2 giờ sáng các pháp sư Mountain View bế con Gemini 3.1 Pro ném tẹt lên Vertex AI mà đếch thèm kèn trống gì.

Toàn cảnh vụ "đánh úp" lúc nửa đêm của Google

Tóm tắt nhanh gọn cho anh em lười lướt HN:

  • Ra mắt kiểu du kích: 2 giờ sáng âm thầm lên sóng trên Vertex AI, vài tiếng sau mới lóc cóc rặn ra được bài blog chính thức.
  • Tên tuổi lú lẫn: Bản 3.0 Pro còn đang chạy chữ "Preview" chà bá, nay đã đẻ luôn ra bản 3.1.
  • Điểm benchmark "ảo ma Canada": Đây mới là cái đáng nói. Điểm bài test ARC-AGI-2 nhảy một phát từ 31.1% lên tận 77.1% (hơn x2 luôn các ông ạ).
  • Các hệ số khác cũng cắn thuốc: Điểm Apex-agents tăng từ 18.4% lên 33.5%.
  • Code dạo: LiveCodeBench Pro chạm mốc 2887, ngang ngửa hoặc nhỉnh hơn con Claude Opus một tẹo.

Giang hồ mạng chia phe combat

Dân tình trên Hacker News tất nhiên là không để yên. Cứ hễ có model mới là lại lôi nhau ra mổ xẻ. Dưới đây là mấy luồng dư luận tôi hóng hớt được:

1. Cãi nhau vì cái... tên gọi Vài anh em mắc chứng OCD soi mói vụ: "Ủa 3.0 còn chưa xong sao đã nhảy 3.1?". Nhưng một pháp sư khác vội phản dame: "Nó up một cái version nhỏ là 0.1 chứng tỏ có thay đổi cốt lõi. Chứ anh em thích gọi theo kiểu bãi rác gemini-3-pro-preview-1902 như xưa à?". Hợp lý!

2. Nghi vấn "học tủ" giải đề thi (Benchmark-maxing) Điểm benchmark tự nhiên x2 chỉ qua một bản minor update (.1) khiến nhiều lão làng nhướn mày. Đa số anh em đều cho rằng có mùi "benchmark-maxing". Kiểu như mấy ông ôn thi đại học đi luyện lò luyên thuyên, nhét đầy output của đề thi vào data train để điểm cao chót vót. Còn vào thực chiến có mượt hay không thì phải chờ các khổ chủ test tool call mới biết.

3. Đội thực dụng: "Pro to tiền, Flash mới là chân ái" Nhiều senior dev lướt qua con 3.1 Pro bằng nửa con mắt. Tiêu biểu là một ông khẳng định: "Tôi xài mẹ con gemini-3-flash-preview cho lành. Rẻ, lẹ, gắn vào mấy cái thư viện agent ngon ơ". Cá biệt có mấy thanh niên "tự kỷ" vác luôn model 7B-9B về tự chạy local cho bảo mật, đỡ phải nhìn mặt thằng Google.

4. Chê vụ cắt xén token (Output limit) Drama hài nhất là có ông nội vào than phiền Gemini 3.x cắt output cực gắt, thua xa bản 2.5. Ông này còn hồn nhiên xài prompt dặn AI: "Ê nếu hết token thì pause lại nha, đừng có nhả text cụt lủn". Kết quả? AI nó vẫn cắt như chưa từng có cuộc chia ly. Mấy anh em dev vào cười khùng, vỗ vai an ủi: "Bố trẻ ạ, AI nó làm chó gì có nhận thức mà xài prompt kiểu đấy. Chừng nào ông tự build một cái vòng lặp agentic xử lý logic thì hẵng hay, chứ dặn mồm nó không nghe đâu".

Chốt hạ từ Coding4Food: Bài học sinh tồn cho anh em dev

Làm nghề này lâu các ông tự khắc nhận ra, vụ hãng nó múa số benchmark bằng ba cái trò "học tủ" là chuyện như cơm bữa. Qua vụ con Gemini 3.1 Pro này, tôi chốt lại mấy ý cho anh em giữ cần câu cơm:

  • Đừng tôn thờ benchmark: Điểm cao để làm marketing lùa gà hoặc nổ với sếp. Còn dev mình thì cứ phải cắm API test trực tiếp vào luồng app của mình. Tool call không ngu, trả JSON chuẩn là quất.
  • Dùng dao mổ trâu giết gà làm gì: Nếu không cần suy luận quá sâu, hãy dẹp bọn Pro hay Opus sang một bên. Chơi hệ Flash, Haiku hay model local cho nó rẻ và phản hồi lẹ. Tiền API cuối tháng nó cắn vào ví đau lắm.
  • Bỏ ngay thói quen prompt như nói chuyện với người: Đừng dặn AI "hết token thì tự dừng". Tỉnh mộng đi anh em. Cần bắt lỗi hay nối token thì phải viết code (vòng lặp while, check finish_reason, etc.). Code ra tiền là ở chỗ đấy chứ ngồi gõ văn mẫu hiền hòa thì AI nó thay mình lâu rồi.

Nguồn tham khảo: Hóng hớt từ Hacker News & Google Blog