Anthropic vừa ra mắt tính năng Claude Advisor, đảo ngược tư duy multi-agent truyền thống. Giải pháp này có thực sự giúp anh em dev giảm bill API?

Chạy AI Agent mà cứ nhè con model to nhất ra gọi thì có ngày bán nhà trả tiền API, nhưng dùng con bé thì thi thoảng nó ngáo vãi đ*o. Anthropic vừa thả xích một chiêu mới để anh em giải quyết vụ này: Claude Advisor tool.
Nói ngắn gọn thế này, bài toán đau đầu nhất khi làm AI Agent ở production là: Tiền và Não. Chạy Opus (con to nhất của Claude) cho mọi step thì mượt đấy, nhưng xót ví. Chạy Sonnet hay Haiku thì rẻ, nhưng đến mấy khúc cua gắt (hard decision points) là tụi nó lăn ra bể.
Anthropic tung ra chiến thuật Advisor, đảo ngược hoàn toàn cái pattern multi-agent mà anh em hay xài. Thay vì dùng một con Orchestrator to chà bá đứng trên chỉ việc cho mấy con đệ tử nhỏ xíu, thì giờ họ cho con nhỏ (Sonnet/Haiku) tự làm executor gánh team chạy main loop. Chỉ khi nào con đệ gặp ca khó (ví dụ: data trả về từ tool bị rối, mất định hướng), nó mới ping đại ca Opus: "Đại ca ơi cứu em!".
Opus sẽ nhảy vào đọc context, phán một câu (plan hoặc correction), rồi lượn. Đại ca không trực tiếp gọi tool hay làm mấy việc chân tay. Mọi thứ được gói gọn trong đúng 1 request /v1/messages, không cần round-trips loằng ngoằng. Anh em còn có thể set max_uses để khóa mõm đại ca lại, tránh việc nó cắn token quá đà.
Kết quả test từ Anthropic cũng khá ảo ma:
Dân tình trên Product Hunt cũng chia phe bàn luận khá xôm. Có vài luồng quan điểm đang chiếm sóng mà mình tổng hợp lại cho anh em:
Tóm cái váy lại, trò Advisor này của Claude không phải là một phép thuật voodoo gì xa lạ, nó là sự tối ưu hóa cực tốt ở tầng API.
Bài học ở đây cho anh em dev là gì? Đừng bao giờ vác dao mổ trâu đi giết gà. Chuyện dùng GPT-4o hay Opus để parse mấy cái chuỗi JSON vớ vẩn hay cào text là sự sỉ nhục với... cái ví tiền của bạn.
Thay vì thế, hãy thiết kế hệ thống theo dạng "Escalation Path" (Đường dẫn leo thang). Cứ để mấy con model nhỏ làm cu li rẻ rách, nhúng các ai tools nhẹ nhàng vào để cày cuốc. Chỉ khi nào vướng exception hoặc logic phức tạp mới gọi hàm escalation lên model xịn. Biết điểm dừng, biết tối ưu luồng dữ liệu mới là đẳng cấp của Senior, chứ nhắm mắt gọi API thằng nào chả làm được.
Anh em thấy sao về vụ này? Có định tích hợp vào bot của công ty không hay vẫn trung thành với việc đốt tiền server?
Nguồn hóng hớt: Product Hunt - Claude Advisor tool