This article is not yet available in English. Showing the Vietnamese version.

Google âm thầm thả xích Gemini 3.1 Pro lúc nửa đêm: Điểm benchmark x2 hay lại "học tủ" giải đề?

February 20, 20264 min read

Đang yên đang lành Google đánh úp con Gemini 3.1 Pro lúc 2h sáng. Điểm benchmark nhảy ảo ma Canada dấy lên nghi vấn học tủ. Cùng xem anh em dev bóc phốt gì.

Share this post:

robot, robotics, future, technology, intelligence, fantasy, digitization, computer, digital, training, computer science, it, communication, programming, equipment, project, coding, bee, think, to learn, lego, to play, lego, lego, lego, lego, lego

Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2

Share this post:

Bình luận

ai-generated, monster, robot, future, chatbot, chatgpt, prompt, to learn, cute, laptop, internet, office, desk, chatbot, chatbot, chatbot, chatgpt, chatgpt, chatgpt, chatgpt, chatgpt

AI & Automation Technology

Is Your AI Agent Smart But Socially Awkward? Humalike Might Fix Its Attitude!

Tired of AI bots that talk over people and spam group chats? Humalike launches behavioral APIs to teach your AI some actual social manners.

Jul 23 min read

email, mail, spam, message, e-mail, unsolicited, communication, spam, spam, spam, spam, spam

Dev Life AI & Automation

Stop Throwing AI Garbage at My Face: The Golden Rule of Human Attention in the ChatGPT Era

Generating text with AI is free, but human attention is expensive. If you want someone's time, show some real human effort first.

Jun 133 min read

ai generated, robotics, engineer, robot, blueprints, technology, high-tech, workspace, digital art, technical, design, schematics, development, optimization, systems, engineering, tech, innovation, equipment, advanced, setup, lab

AI & Automation Technology

Slashspace AI: Can an Infinite Canvas Save Devs from Copy-Paste Prompt Hell?

Tired of copy-pasting prompts between ten different tabs? Read our breakdown of Slashspace AI, the desktop-first local canvas tool that’s making waves.

Jun 123 min read

computer, technology, future, robot, light, futuristic, woman, room, hacker, security, code, cyber, coding, matrix, hacking, programming, digital, network, ai generated, coding, coding, hacking, hacking, hacking, programming, programming, programming, programming, programming

AI & Automation Technology

The GenAI 'Oh Sh*t' Moments: From Parlor Tricks to Sweating Bullets

Remember when we laughed at AI drawing 7 fingers? Read the Hacker News thread where senior devs reveal the exact moment AI made them question their careers.

Jun 73 min read

add, add to cart, shopping cart, shopping-cart, cart, shopping, groceries, groceries cart, icon, line art, cut out, add, add to cart, shopping cart, shopping cart, shopping cart, shopping cart, shopping cart, cart, cart, shopping

AI & Automation Technology

SellerClaw's AI Squad on Product Hunt: Autonomous E-com or Just a Memory Leak?

SellerClaw just dropped their multi-agent AI system for e-commerce on Product Hunt. The dev community roasted their sync layers and browser automation.

Jun 63 min read

technology, tech, electronics, hardware, computer science, artificial intelligence, computer, circuits, microchip, communication, lines, dots, symbol, machine learning, software development, iot, serious, creative science history

Technology AI & Automation

NVIDIA Unleashes Nemotron 3 Ultra: The 550B Monster Built for Long-Running AI Agents

NVIDIA just dropped Nemotron 3 Ultra, a 550B MoE model purpose-built for AI agents with a 1M context window and 5x faster inference. Time to level up!

Jun 53 min read

Google dạo này có vẻ thích chơi hệ "ninja". Đang yên đang lành, tự nhiên lúc 2 giờ sáng các pháp sư Mountain View bế con Gemini 3.1 Pro ném tẹt lên Vertex AI mà đếch thèm kèn trống gì.

Toàn cảnh vụ "đánh úp" lúc nửa đêm của Google

Tóm tắt nhanh gọn cho anh em lười lướt HN:

Ra mắt kiểu du kích: 2 giờ sáng âm thầm lên sóng trên Vertex AI, vài tiếng sau mới lóc cóc rặn ra được bài blog chính thức.
Tên tuổi lú lẫn: Bản 3.0 Pro còn đang chạy chữ "Preview" chà bá, nay đã đẻ luôn ra bản 3.1.
Điểm benchmark "ảo ma Canada": Đây mới là cái đáng nói. Điểm bài test ARC-AGI-2 nhảy một phát từ 31.1% lên tận 77.1% (hơn x2 luôn các ông ạ).
Các hệ số khác cũng cắn thuốc: Điểm Apex-agents tăng từ 18.4% lên 33.5%.
Code dạo: LiveCodeBench Pro chạm mốc 2887, ngang ngửa hoặc nhỉnh hơn con Claude Opus một tẹo.

Giang hồ mạng chia phe combat

Dân tình trên Hacker News tất nhiên là không để yên. Cứ hễ có model mới là lại lôi nhau ra mổ xẻ. Dưới đây là mấy luồng dư luận tôi hóng hớt được:

1. Cãi nhau vì cái... tên gọi Vài anh em mắc chứng OCD soi mói vụ: "Ủa 3.0 còn chưa xong sao đã nhảy 3.1?". Nhưng một pháp sư khác vội phản dame: "Nó up một cái version nhỏ là 0.1 chứng tỏ có thay đổi cốt lõi. Chứ anh em thích gọi theo kiểu bãi rác gemini-3-pro-preview-1902 như xưa à?". Hợp lý!

2. Nghi vấn "học tủ" giải đề thi (Benchmark-maxing) Điểm benchmark tự nhiên x2 chỉ qua một bản minor update (.1) khiến nhiều lão làng nhướn mày. Đa số anh em đều cho rằng có mùi "benchmark-maxing". Kiểu như mấy ông ôn thi đại học đi luyện lò luyên thuyên, nhét đầy output của đề thi vào data train để điểm cao chót vót. Còn vào thực chiến có mượt hay không thì phải chờ các khổ chủ test tool call mới biết.

3. Đội thực dụng: "Pro to tiền, Flash mới là chân ái" Nhiều senior dev lướt qua con 3.1 Pro bằng nửa con mắt. Tiêu biểu là một ông khẳng định: "Tôi xài mẹ con gemini-3-flash-preview cho lành. Rẻ, lẹ, gắn vào mấy cái thư viện agent ngon ơ". Cá biệt có mấy thanh niên "tự kỷ" vác luôn model 7B-9B về tự chạy local cho bảo mật, đỡ phải nhìn mặt thằng Google.

4. Chê vụ cắt xén token (Output limit) Drama hài nhất là có ông nội vào than phiền Gemini 3.x cắt output cực gắt, thua xa bản 2.5. Ông này còn hồn nhiên xài prompt dặn AI: "Ê nếu hết token thì pause lại nha, đừng có nhả text cụt lủn". Kết quả? AI nó vẫn cắt như chưa từng có cuộc chia ly. Mấy anh em dev vào cười khùng, vỗ vai an ủi: "Bố trẻ ạ, AI nó làm chó gì có nhận thức mà xài prompt kiểu đấy. Chừng nào ông tự build một cái vòng lặp agentic xử lý logic thì hẵng hay, chứ dặn mồm nó không nghe đâu".

Chốt hạ từ Coding4Food: Bài học sinh tồn cho anh em dev

Làm nghề này lâu các ông tự khắc nhận ra, vụ hãng nó múa số benchmark bằng ba cái trò "học tủ" là chuyện như cơm bữa. Qua vụ con Gemini 3.1 Pro này, tôi chốt lại mấy ý cho anh em giữ cần câu cơm:

Đừng tôn thờ benchmark: Điểm cao để làm marketing lùa gà hoặc nổ với sếp. Còn dev mình thì cứ phải cắm API test trực tiếp vào luồng app của mình. Tool call không ngu, trả JSON chuẩn là quất.
Dùng dao mổ trâu giết gà làm gì: Nếu không cần suy luận quá sâu, hãy dẹp bọn Pro hay Opus sang một bên. Chơi hệ Flash, Haiku hay model local cho nó rẻ và phản hồi lẹ. Tiền API cuối tháng nó cắn vào ví đau lắm.
Bỏ ngay thói quen prompt như nói chuyện với người: Đừng dặn AI "hết token thì tự dừng". Tỉnh mộng đi anh em. Cần bắt lỗi hay nối token thì phải viết code (vòng lặp while, check finish_reason, etc.). Code ra tiền là ở chỗ đấy chứ ngồi gõ văn mẫu hiền hòa thì AI nó thay mình lâu rồi.

Nguồn tham khảo: Hóng hớt từ Hacker News & Google Blog

Toàn cảnh vụ "đánh úp" lúc nửa đêm của Google

Tóm tắt nhanh gọn cho anh em lười lướt HN:

Ra mắt kiểu du kích: 2 giờ sáng âm thầm lên sóng trên Vertex AI, vài tiếng sau mới lóc cóc rặn ra được bài blog chính thức.

Tên tuổi lú lẫn: Bản 3.0 Pro còn đang chạy chữ "Preview" chà bá, nay đã đẻ luôn ra bản 3.1.

Điểm benchmark "ảo ma Canada": Đây mới là cái đáng nói. Điểm bài test ARC-AGI-2 nhảy một phát từ 31.1% lên tận 77.1% (hơn x2 luôn các ông ạ).

Các hệ số khác cũng cắn thuốc: Điểm Apex-agents tăng từ 18.4% lên 33.5%.

Code dạo: LiveCodeBench Pro chạm mốc 2887, ngang ngửa hoặc nhỉnh hơn con Claude Opus một tẹo.

Giang hồ mạng chia phe combat

Dân tình trên Hacker News tất nhiên là không để yên. Cứ hễ có model mới là lại lôi nhau ra mổ xẻ. Dưới đây là mấy luồng dư luận tôi hóng hớt được:

Chốt hạ từ Coding4Food: Bài học sinh tồn cho anh em dev

Đừng tôn thờ benchmark: Điểm cao để làm marketing lùa gà hoặc nổ với sếp. Còn dev mình thì cứ phải cắm API test trực tiếp vào luồng app của mình. Tool call không ngu, trả JSON chuẩn là quất.

Dùng dao mổ trâu giết gà làm gì: Nếu không cần suy luận quá sâu, hãy dẹp bọn Pro hay Opus sang một bên. Chơi hệ Flash, Haiku hay model local cho nó rẻ và phản hồi lẹ. Tiền API cuối tháng nó cắn vào ví đau lắm.

Bỏ ngay thói quen prompt như nói chuyện với người: Đừng dặn AI "hết token thì tự dừng". Tỉnh mộng đi anh em. Cần bắt lỗi hay nối token thì phải viết code (vòng lặp while, check finish_reason, etc.). Code ra tiền là ở chỗ đấy chứ ngồi gõ văn mẫu hiền hòa thì AI nó thay mình lâu rồi.

Nguồn tham khảo: Hóng hớt từ Hacker News & Google Blog

Google âm thầm thả xích Gemini 3.1 Pro lúc nửa đêm: Điểm benchmark x2 hay lại "học tủ" giải đề?

Bình luận

Related posts

Is Your AI Agent Smart But Socially Awkward? Humalike Might Fix Its Attitude!

Stop Throwing AI Garbage at My Face: The Golden Rule of Human Attention in the ChatGPT Era

Slashspace AI: Can an Infinite Canvas Save Devs from Copy-Paste Prompt Hell?

The GenAI 'Oh Sh*t' Moments: From Parlor Tricks to Sweating Bullets

SellerClaw's AI Squad on Product Hunt: Autonomous E-com or Just a Memory Leak?

NVIDIA Unleashes Nemotron 3 Ultra: The 550B Monster Built for Long-Running AI Agents

Google âm thầm thả xích Gemini 3.1 Pro lúc nửa đêm: Điểm benchmark x2 hay lại "học tủ" giải đề?

Toàn cảnh vụ "đánh úp" lúc nửa đêm của Google

Giang hồ mạng chia phe combat

Chốt hạ từ Coding4Food: Bài học sinh tồn cho anh em dev

Bình luận

Related posts

Is Your AI Agent Smart But Socially Awkward? Humalike Might Fix Its Attitude!

Stop Throwing AI Garbage at My Face: The Golden Rule of Human Attention in the ChatGPT Era

Slashspace AI: Can an Infinite Canvas Save Devs from Copy-Paste Prompt Hell?

The GenAI 'Oh Sh*t' Moments: From Parlor Tricks to Sweating Bullets

SellerClaw's AI Squad on Product Hunt: Autonomous E-com or Just a Memory Leak?

NVIDIA Unleashes Nemotron 3 Ultra: The 550B Monster Built for Long-Running AI Agents

Toàn cảnh vụ "đánh úp" lúc nửa đêm của Google

Giang hồ mạng chia phe combat

Chốt hạ từ Coding4Food: Bài học sinh tồn cho anh em dev