Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
en
Trang chủChuyên mụcArcadeĐã lưu
Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
Bảo mật|Điều khoản

© 2026 Coding4Food. Viết bởi dev, cho dev.

Tất cả tin tức
AI & AutomationCông nghệ

Google âm thầm thả xích Gemini 3.1 Pro lúc nửa đêm: Điểm benchmark x2 hay lại "học tủ" giải đề?

20 tháng 2, 20264 phút đọc
robot, robotics, future, technology, intelligence, fantasy, digitization, computer, digital, training, computer science, it, communication, programming, equipment, project, coding, bee, think, to learn, lego, to play, lego, lego, lego, lego, lego
Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2
Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2Nguồn gốc: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-am-tham-ra-mat-gemini-3-1-pro-diem-benchmark-x2
gemini 3.1 prođánh giá aigoogle vertex aillm benchmarktech dramaai agentslập trình viên
Chia sẻ bài viết:

Bình luận

Google dạo này có vẻ thích chơi hệ "ninja". Đang yên đang lành, tự nhiên lúc 2 giờ sáng các pháp sư Mountain View bế con Gemini 3.1 Pro ném tẹt lên Vertex AI mà đếch thèm kèn trống gì.

Toàn cảnh vụ "đánh úp" lúc nửa đêm của Google

Tóm tắt nhanh gọn cho anh em lười lướt HN:

  • Ra mắt kiểu du kích: 2 giờ sáng âm thầm lên sóng trên Vertex AI, vài tiếng sau mới lóc cóc rặn ra được bài blog chính thức.
  • Tên tuổi lú lẫn: Bản 3.0 Pro còn đang chạy chữ "Preview" chà bá, nay đã đẻ luôn ra bản 3.1.
  • Điểm benchmark "ảo ma Canada": Đây mới là cái đáng nói. Điểm bài test ARC-AGI-2 nhảy một phát từ 31.1% lên tận 77.1% (hơn x2 luôn các ông ạ).
  • Các hệ số khác cũng cắn thuốc: Điểm Apex-agents tăng từ 18.4% lên 33.5%.
  • Code dạo: LiveCodeBench Pro chạm mốc 2887, ngang ngửa hoặc nhỉnh hơn con Claude Opus một tẹo.

Giang hồ mạng chia phe combat

Dân tình trên Hacker News tất nhiên là không để yên. Cứ hễ có model mới là lại lôi nhau ra mổ xẻ. Dưới đây là mấy luồng dư luận tôi hóng hớt được:

1. Cãi nhau vì cái... tên gọi Vài anh em mắc chứng OCD soi mói vụ: "Ủa 3.0 còn chưa xong sao đã nhảy 3.1?". Nhưng một pháp sư khác vội phản dame: "Nó up một cái version nhỏ là 0.1 chứng tỏ có thay đổi cốt lõi. Chứ anh em thích gọi theo kiểu bãi rác gemini-3-pro-preview-1902 như xưa à?". Hợp lý!

2. Nghi vấn "học tủ" giải đề thi (Benchmark-maxing) Điểm benchmark tự nhiên x2 chỉ qua một bản minor update (.1) khiến nhiều lão làng nhướn mày. Đa số anh em đều cho rằng có mùi "benchmark-maxing". Kiểu như mấy ông ôn thi đại học đi luyện lò luyên thuyên, nhét đầy output của đề thi vào data train để điểm cao chót vót. Còn vào thực chiến có mượt hay không thì phải chờ các khổ chủ test tool call mới biết.

3. Đội thực dụng: "Pro to tiền, Flash mới là chân ái" Nhiều senior dev lướt qua con 3.1 Pro bằng nửa con mắt. Tiêu biểu là một ông khẳng định: "Tôi xài mẹ con gemini-3-flash-preview cho lành. Rẻ, lẹ, gắn vào mấy cái thư viện agent ngon ơ". Cá biệt có mấy thanh niên "tự kỷ" vác luôn model 7B-9B về tự chạy local cho bảo mật, đỡ phải nhìn mặt thằng Google.

4. Chê vụ cắt xén token (Output limit) Drama hài nhất là có ông nội vào than phiền Gemini 3.x cắt output cực gắt, thua xa bản 2.5. Ông này còn hồn nhiên xài prompt dặn AI: "Ê nếu hết token thì pause lại nha, đừng có nhả text cụt lủn". Kết quả? AI nó vẫn cắt như chưa từng có cuộc chia ly. Mấy anh em dev vào cười khùng, vỗ vai an ủi: "Bố trẻ ạ, AI nó làm chó gì có nhận thức mà xài prompt kiểu đấy. Chừng nào ông tự build một cái vòng lặp agentic xử lý logic thì hẵng hay, chứ dặn mồm nó không nghe đâu".

Chốt hạ từ Coding4Food: Bài học sinh tồn cho anh em dev

Làm nghề này lâu các ông tự khắc nhận ra, vụ hãng nó múa số benchmark bằng ba cái trò "học tủ" là chuyện như cơm bữa. Qua vụ con Gemini 3.1 Pro này, tôi chốt lại mấy ý cho anh em giữ cần câu cơm:

  • Đừng tôn thờ benchmark: Điểm cao để làm marketing lùa gà hoặc nổ với sếp. Còn dev mình thì cứ phải cắm API test trực tiếp vào luồng app của mình. Tool call không ngu, trả JSON chuẩn là quất.
  • Dùng dao mổ trâu giết gà làm gì: Nếu không cần suy luận quá sâu, hãy dẹp bọn Pro hay Opus sang một bên. Chơi hệ Flash, Haiku hay model local cho nó rẻ và phản hồi lẹ. Tiền API cuối tháng nó cắn vào ví đau lắm.
  • Bỏ ngay thói quen prompt như nói chuyện với người: Đừng dặn AI "hết token thì tự dừng". Tỉnh mộng đi anh em. Cần bắt lỗi hay nối token thì phải viết code (vòng lặp while, check finish_reason, etc.). Code ra tiền là ở chỗ đấy chứ ngồi gõ văn mẫu hiền hòa thì AI nó thay mình lâu rồi.

Nguồn tham khảo: Hóng hớt từ Hacker News & Google Blog

Đang yên đang lành Google đánh úp con Gemini 3.1 Pro lúc 2h sáng. Điểm benchmark nhảy ảo ma Canada dấy lên nghi vấn học tủ. Cùng xem anh em dev bóc phốt gì.

Chia sẻ bài viết:

Bài viết liên quan

ball, binary, computer data, binary matrix, digital binary, binary code, binary system, byte, bits, digital computer code, computer code, computer data matrix, ball, binary, binary, binary, binary, binary, binary code, binary code, computer code
Công nghệChuyện Nghề

Muốn viết Compiler? Quăng mẹ 'Sách Rồng' đi, đọc 2 bài báo này là đủ!

Drama từ 2008 bị đào lại trên HN: Đâu là bí kíp thực sự để viết một Compiler mà đ*o cần cày cuốn sách rồng ngàn trang cắn RAM não?

15 thg 43 phút đọc
Đọc tiếp →
balloon, message, talk, say, communication, chat, comment, green, info, information, support, whatsapp, message, chat, comment, comment, comment, comment, comment, information, whatsapp
AI & AutomationCông nghệ

Onform.work: Pháp sư gọi Claude 'múa' ra form, có thay thế được Typeform hay lại úp sọt anh em?

Đang code mà bắt nhảy tab để kéo thả form là gãy flow vãi lúa. Onform sinh ra để xử lý vụ này bằng cách cho phép bạn chat trực tiếp với Claude/Cursor để build form. Cùng bóc tách xem con hàng này có ngon như lời đồn.

10 thg 44 phút đọc
Đọc tiếp →
robot, isolated, artificial intelligence, robot, robot, robot, robot, robot, artificial intelligence
Công nghệAI & Automation

Google thả xích Gemma 4: Kèo thơm cho anh em dev nghèo hay lại là cú lừa 'chạy mượt'?

Google ra mắt Gemma 4 siêu thông minh, chạy local nhẹ nhàng, hỗ trợ tận răng cho dev. Thực hư thế nào, có đấm chết được Llama không?

4 thg 43 phút đọc
Đọc tiếp →
run, motorsport, automobile, pit lane, nürburgring, sports, vln, racing team, pit crew, team, run, motorsport, motorsport, team, team, team, team, team
AI & AutomationCông nghệ

ZooClaw: Drama 'thuê' nguyên team AI không tốn một xu trả lương, giang cư mận bĩu môi hay tung hô?

Lướt Product Hunt soi ZooClaw - tool hứa hẹn clone bạn thành nguyên team AI làm việc tự động. Bánh vẽ lùa gà hay siêu phẩm thay đổi cách dev chúng ta code dạo?

4 thg 45 phút đọc
Đọc tiếp →
office, sitting room, executive, business, desk, workplace, furniture, corporate, table, office interiors, interior design, interior decoration, office furniture, office, office, office, office, office
AI & AutomationCông nghệ

Thêm một AI Agent đòi 'thay đổi cuộc chơi' dịch vụ IT: Nitro có gì hot hay chỉ là lùa gà?

Cộng đồng mạng rần rần vì Nitro - một AI Agent hứa hẹn tự động hóa từ viết doc đến đòi nợ timesheet. Liệu đây là 'Cursor' của dân Services hay chỉ là mõm?

3 thg 45 phút đọc
Đọc tiếp →
bot, generator, cyborg, automation, scifi, stars, planets, space, ufo, robot, tech, alien, mechanical, machine, technology, android, science, nature, robotic, futuristic, galaxy, helper, matrix, sunrise, sunset, dawn
AI & AutomationCông nghệ

Qwen3.6-Plus Gáy Bẩn 'Real World Agents' Hay Lại Thêm Một Cú Lừa Từ Pháp Sư Trung Hoa?

Bóc phốt nhẹ con hàng Qwen3.6-Plus đang lọt top Hacker News với điểm số 455. 'Real world agents' thực chất là gì hay lại lùa gà anh em dev?

3 thg 43 phút đọc
Đọc tiếp →