Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
en
Trang chủChuyên mụcArcadeĐã lưu
Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
Bảo mật|Điều khoản

© 2026 Coding4Food. Viết bởi dev, cho dev.

Tất cả tin tức
AI & AutomationCông nghệ

Google âm thầm thả xích Gemini 3.1 Pro lúc nửa đêm: Điểm benchmark x2 hay lại "học tủ" giải đề?

20 tháng 2, 20264 phút đọc
robot, robotics, future, technology, intelligence, fantasy, digitization, computer, digital, training, computer science, it, communication, programming, equipment, project, coding, bee, think, to learn, lego, to play, lego, lego, lego, lego, lego
Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2
Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2
gemini 3.1 prođánh giá aigoogle vertex aillm benchmarktech dramaai agentslập trình viên
Chia sẻ bài viết:

Bình luận

Google dạo này có vẻ thích chơi hệ "ninja". Đang yên đang lành, tự nhiên lúc 2 giờ sáng các pháp sư Mountain View bế con Gemini 3.1 Pro ném tẹt lên Vertex AI mà đếch thèm kèn trống gì.

Toàn cảnh vụ "đánh úp" lúc nửa đêm của Google

Tóm tắt nhanh gọn cho anh em lười lướt HN:

  • Ra mắt kiểu du kích: 2 giờ sáng âm thầm lên sóng trên Vertex AI, vài tiếng sau mới lóc cóc rặn ra được bài blog chính thức.
  • Tên tuổi lú lẫn: Bản 3.0 Pro còn đang chạy chữ "Preview" chà bá, nay đã đẻ luôn ra bản 3.1.
  • Điểm benchmark "ảo ma Canada": Đây mới là cái đáng nói. Điểm bài test ARC-AGI-2 nhảy một phát từ 31.1% lên tận 77.1% (hơn x2 luôn các ông ạ).
  • Các hệ số khác cũng cắn thuốc: Điểm Apex-agents tăng từ 18.4% lên 33.5%.
  • Code dạo: LiveCodeBench Pro chạm mốc 2887, ngang ngửa hoặc nhỉnh hơn con Claude Opus một tẹo.

Giang hồ mạng chia phe combat

Dân tình trên Hacker News tất nhiên là không để yên. Cứ hễ có model mới là lại lôi nhau ra mổ xẻ. Dưới đây là mấy luồng dư luận tôi hóng hớt được:

1. Cãi nhau vì cái... tên gọi Vài anh em mắc chứng OCD soi mói vụ: "Ủa 3.0 còn chưa xong sao đã nhảy 3.1?". Nhưng một pháp sư khác vội phản dame: "Nó up một cái version nhỏ là 0.1 chứng tỏ có thay đổi cốt lõi. Chứ anh em thích gọi theo kiểu bãi rác gemini-3-pro-preview-1902 như xưa à?". Hợp lý!

2. Nghi vấn "học tủ" giải đề thi (Benchmark-maxing) Điểm benchmark tự nhiên x2 chỉ qua một bản minor update (.1) khiến nhiều lão làng nhướn mày. Đa số anh em đều cho rằng có mùi "benchmark-maxing". Kiểu như mấy ông ôn thi đại học đi luyện lò luyên thuyên, nhét đầy output của đề thi vào data train để điểm cao chót vót. Còn vào thực chiến có mượt hay không thì phải chờ các khổ chủ test tool call mới biết.

3. Đội thực dụng: "Pro to tiền, Flash mới là chân ái" Nhiều senior dev lướt qua con 3.1 Pro bằng nửa con mắt. Tiêu biểu là một ông khẳng định: "Tôi xài mẹ con gemini-3-flash-preview cho lành. Rẻ, lẹ, gắn vào mấy cái thư viện agent ngon ơ". Cá biệt có mấy thanh niên "tự kỷ" vác luôn model 7B-9B về tự chạy local cho bảo mật, đỡ phải nhìn mặt thằng Google.

4. Chê vụ cắt xén token (Output limit) Drama hài nhất là có ông nội vào than phiền Gemini 3.x cắt output cực gắt, thua xa bản 2.5. Ông này còn hồn nhiên xài prompt dặn AI: "Ê nếu hết token thì pause lại nha, đừng có nhả text cụt lủn". Kết quả? AI nó vẫn cắt như chưa từng có cuộc chia ly. Mấy anh em dev vào cười khùng, vỗ vai an ủi: "Bố trẻ ạ, AI nó làm chó gì có nhận thức mà xài prompt kiểu đấy. Chừng nào ông tự build một cái vòng lặp agentic xử lý logic thì hẵng hay, chứ dặn mồm nó không nghe đâu".

Chốt hạ từ Coding4Food: Bài học sinh tồn cho anh em dev

Làm nghề này lâu các ông tự khắc nhận ra, vụ hãng nó múa số benchmark bằng ba cái trò "học tủ" là chuyện như cơm bữa. Qua vụ con Gemini 3.1 Pro này, tôi chốt lại mấy ý cho anh em giữ cần câu cơm:

  • Đừng tôn thờ benchmark: Điểm cao để làm marketing lùa gà hoặc nổ với sếp. Còn dev mình thì cứ phải cắm API test trực tiếp vào luồng app của mình. Tool call không ngu, trả JSON chuẩn là quất.
  • Dùng dao mổ trâu giết gà làm gì: Nếu không cần suy luận quá sâu, hãy dẹp bọn Pro hay Opus sang một bên. Chơi hệ Flash, Haiku hay model local cho nó rẻ và phản hồi lẹ. Tiền API cuối tháng nó cắn vào ví đau lắm.
  • Bỏ ngay thói quen prompt như nói chuyện với người: Đừng dặn AI "hết token thì tự dừng". Tỉnh mộng đi anh em. Cần bắt lỗi hay nối token thì phải viết code (vòng lặp while, check finish_reason, etc.). Code ra tiền là ở chỗ đấy chứ ngồi gõ văn mẫu hiền hòa thì AI nó thay mình lâu rồi.

Nguồn tham khảo: Hóng hớt từ Hacker News & Google Blog

Đang yên đang lành Google đánh úp con Gemini 3.1 Pro lúc 2h sáng. Điểm benchmark nhảy ảo ma Canada dấy lên nghi vấn học tủ. Cùng xem anh em dev bóc phốt gì.

Chia sẻ bài viết:

Bài viết liên quan

airport, tower, air, traffic, controller, aviation, flying, travel, airplane, aircraft, sketch, drawing
AI & AutomationCông nghệ

Wingbits AI: Lão quái hàng không gắn AI vào Radar khiến giang cư mận Product Hunt trầm trồ

Biến data hàng không thô kệch thành câu lệnh tiếng Anh, set alert qua Slack để hóng biến không phận 24/7. Bài học System Design cực mặn từ Product Hunt.

31 thg 54 phút đọc
Đọc tiếp →
artificial intelligence, robot, ai, ki, program, programming, computer, environment, syntax, data processing, advertisement, hacker, html, web design, development, developer, language, code, software, website, programmers of the future, computer science, technology, think, html, html, html, html, html
AI & AutomationCông nghệ

Đánh giá Step 3.7 Flash: 11B Params, 400 TPS - Đồ Chơi Mới Cho Anh Em Thích Cắm Auto Agents

Step 3.7 Flash ra mắt trên Product Hunt: 11B Params, hỗ trợ 256k context, chạy bao mượt lên tới 400 TPS. Hàng ngon cho anh em dev hệ thực dụng, lười setup.

31 thg 53 phút đọc
Đọc tiếp →
writing, typewriter, office, business, torpedo, paper, type, vintage, old, key, analogue, technology, write, antique, writing, writing, writing, writing, writing
Đồ Nghề & Tech StackCông nghệ

Thoát kiếp trầm cảm với LaTeX nhờ quả kho Pandoc Templates xịn xò này

Anh em dev chuyên xài Markdown để viết docs chắc chắn từng nếm mùi đau khổ khi convert qua PDF bằng LaTeX. Pandoc Templates chính là cứu tinh cho anh em đây.

31 thg 53 phút đọc
Đọc tiếp →
source code, code, programming, c, coding, digital, software, display, loc, lines of code, source, develop, development, if, if statements, conditional, blue digital, blue code, blue coding, blue software, blue programming, source code, code, code, code, code, programming, programming, programming, coding, coding, coding, coding, coding, software, software, software, software
Đồ Nghề & Tech StackCông nghệ

Linear Diffs úp sọt GitHub: Dev giờ được review PR ngay trên app PM

Linear vừa tung tính năng Linear Diffs cho phép review code ngay trong issue tracker. Giang cư mận chia phe tranh cãi, liệu IDE có bị thất sủng?

30 thg 54 phút đọc
Đọc tiếp →
woman, robot, cyberpunk, cyborg, retro, cyberpunk, cyberpunk, cyberpunk, cyberpunk, cyberpunk
Công nghệAI & Automation

Drama căng: YouTube dùng AI check hàng AI, giang cư mận hóng false positive

YouTube chuẩn bị dùng AI để tự động dán nhãn video do AI tạo ra. Anh em dev đang lót dép hóng thảm họa false positive và cuộc chiến mèo vờn chuột.

28 thg 53 phút đọc
Đọc tiếp →
software, testing, service, bugs search, it, automation, blue test, blue software, blue service, software, software, testing, testing, testing, testing, testing, automation
AI & AutomationCông nghệ

TestSprite 3.0: Thả bầy bot AI đi 'phá' App thay Dev, có ngon như lời đồn?

Dev lười viết test có ngay TestSprite 3.0 thả AI tự dò app, tự viết test, tự fix. Nhưng thả bot lên live app liệu có toang database? Cùng hóng drama.

23 thg 54 phút đọc
Đọc tiếp →