Claude Advisor: Giải pháp cứu ví dev hay bình cũ rượu mới?

Chạy AI Agent mà cứ nhè con model to nhất ra gọi thì có ngày bán nhà trả tiền API, nhưng dùng con bé thì thi thoảng nó ngáo vãi đ*o. Anthropic vừa thả xích một chiêu mới để anh em giải quyết vụ này: Claude Advisor tool.

Tóm tắt nhanh vụ "Cầu cứu đại ca" của nhà Anthropic

Nói ngắn gọn thế này, bài toán đau đầu nhất khi làm AI Agent ở production là: Tiền và Não. Chạy Opus (con to nhất của Claude) cho mọi step thì mượt đấy, nhưng xót ví. Chạy Sonnet hay Haiku thì rẻ, nhưng đến mấy khúc cua gắt (hard decision points) là tụi nó lăn ra bể.

Anthropic tung ra chiến thuật Advisor, đảo ngược hoàn toàn cái pattern multi-agent mà anh em hay xài. Thay vì dùng một con Orchestrator to chà bá đứng trên chỉ việc cho mấy con đệ tử nhỏ xíu, thì giờ họ cho con nhỏ (Sonnet/Haiku) tự làm executor gánh team chạy main loop. Chỉ khi nào con đệ gặp ca khó (ví dụ: data trả về từ tool bị rối, mất định hướng), nó mới ping đại ca Opus: "Đại ca ơi cứu em!".

Opus sẽ nhảy vào đọc context, phán một câu (plan hoặc correction), rồi lượn. Đại ca không trực tiếp gọi tool hay làm mấy việc chân tay. Mọi thứ được gói gọn trong đúng 1 request /v1/messages, không cần round-trips loằng ngoằng. Anh em còn có thể set max_uses để khóa mõm đại ca lại, tránh việc nó cắn token quá đà.

Kết quả test từ Anthropic cũng khá ảo ma:

Sonnet + Opus tư vấn: tăng 2.7 điểm trên SWE-bench Multilingual, mà cost lại rẻ hơn 11.9% so với việc chỉ dùng Sonnet.
Haiku + Opus tư vấn: Độ chính xác nhảy vọt từ 19.7% lên 41.2% trên BrowseComp, mà chi phí lại rẻ hơn tận 85% so với việc chạy Sonnet solo.

Giang cư mận đang chém gió gì về quả workflow ngược đời này?

Dân tình trên Product Hunt cũng chia phe bàn luận khá xôm. Có vài luồng quan điểm đang chiếm sóng mà mình tổng hợp lại cho anh em:

Phe thực dụng khen lấy khen để: Đa số anh em từng build agent để tự động hóa hoặc cào data đều thừa nhận: Agent toàn chết lâm sàng ở mấy chỗ tool trả về kết quả mập mờ (ambiguous tool results). Việc có một đường dây nóng gọi cho Opus để xin "second opinion" là một pha cứu thua cực gắt, giữ latency thấp vì dùng chung context.
Phe hoài nghi "Ủa có gì mới đâu?": Một vài pháp sư ẩn danh thì bĩu môi: "Cái này mấy product khác làm đầy rồi, setup một con Manager to đầu rồi chia task cho mấy con nhỏ. Có gì đột phá đâu, chẳng qua là workflow orchestration thôi mà".
Phe tấu hài: Có thanh niên comment siêu khắm: "Cái này y hệt vợ tôi. Bình thường thì có vẻ ngáo ngáo vô hại, nhưng đúng lúc cần thiết thì IQ vô cực, soi ra mọi thứ". Vãn bối bái phục lão quái này, hy vọng tối nay ổng không phải ra sofa ngủ.

Góc nhìn thợ code & Bài học sinh tồn

Tóm cái váy lại, trò Advisor này của Claude không phải là một phép thuật voodoo gì xa lạ, nó là sự tối ưu hóa cực tốt ở tầng API.

Bài học ở đây cho anh em dev là gì? Đừng bao giờ vác dao mổ trâu đi giết gà. Chuyện dùng GPT-4o hay Opus để parse mấy cái chuỗi JSON vớ vẩn hay cào text là sự sỉ nhục với... cái ví tiền của bạn.

Thay vì thế, hãy thiết kế hệ thống theo dạng "Escalation Path" (Đường dẫn leo thang). Cứ để mấy con model nhỏ làm cu li rẻ rách, nhúng các ai tools nhẹ nhàng vào để cày cuốc. Chỉ khi nào vướng exception hoặc logic phức tạp mới gọi hàm escalation lên model xịn. Biết điểm dừng, biết tối ưu luồng dữ liệu mới là đẳng cấp của Senior, chứ nhắm mắt gọi API thằng nào chả làm được.

Anh em thấy sao về vụ này? Có định tích hợp vào bot của công ty không hay vẫn trung thành với việc đốt tiền server?

Nguồn hóng hớt: Product Hunt - Claude Advisor tool

Tóm tắt nhanh vụ "Cầu cứu đại ca" của nhà Anthropic

Kết quả test từ Anthropic cũng khá ảo ma:

Sonnet + Opus tư vấn: tăng 2.7 điểm trên SWE-bench Multilingual, mà cost lại rẻ hơn 11.9% so với việc chỉ dùng Sonnet.

Haiku + Opus tư vấn: Độ chính xác nhảy vọt từ 19.7% lên 41.2% trên BrowseComp, mà chi phí lại rẻ hơn tận 85% so với việc chạy Sonnet solo.

Giang cư mận đang chém gió gì về quả workflow ngược đời này?

Dân tình trên Product Hunt cũng chia phe bàn luận khá xôm. Có vài luồng quan điểm đang chiếm sóng mà mình tổng hợp lại cho anh em:

Phe thực dụng khen lấy khen để: Đa số anh em từng build agent để tự động hóa hoặc cào data đều thừa nhận: Agent toàn chết lâm sàng ở mấy chỗ tool trả về kết quả mập mờ (ambiguous tool results). Việc có một đường dây nóng gọi cho Opus để xin "second opinion" là một pha cứu thua cực gắt, giữ latency thấp vì dùng chung context.

Phe hoài nghi "Ủa có gì mới đâu?": Một vài pháp sư ẩn danh thì bĩu môi: "Cái này mấy product khác làm đầy rồi, setup một con Manager to đầu rồi chia task cho mấy con nhỏ. Có gì đột phá đâu, chẳng qua là workflow orchestration thôi mà".

Phe tấu hài: Có thanh niên comment siêu khắm: "Cái này y hệt vợ tôi. Bình thường thì có vẻ ngáo ngáo vô hại, nhưng đúng lúc cần thiết thì IQ vô cực, soi ra mọi thứ". Vãn bối bái phục lão quái này, hy vọng tối nay ổng không phải ra sofa ngủ.

Góc nhìn thợ code & Bài học sinh tồn

Tóm cái váy lại, trò Advisor này của Claude không phải là một phép thuật voodoo gì xa lạ, nó là sự tối ưu hóa cực tốt ở tầng API.

Anh em thấy sao về vụ này? Có định tích hợp vào bot của công ty không hay vẫn trung thành với việc đốt tiền server?

Anthropic thả xích 'Claude Advisor': Trò mới cứu ví dev hay chỉ là bình cũ rượu mới?

Tóm tắt nhanh vụ "Cầu cứu đại ca" của nhà Anthropic

Giang cư mận đang chém gió gì về quả workflow ngược đời này?

Góc nhìn thợ code & Bài học sinh tồn

Bình luận

Tóm tắt nhanh vụ "Cầu cứu đại ca" của nhà Anthropic

Giang cư mận đang chém gió gì về quả workflow ngược đời này?

Góc nhìn thợ code & Bài học sinh tồn

Bài viết liên quan

ClawTeams Lên Sóng: Thuê Hẳn Một "Tổ Đội AI" Tự Sinh Tự Chạy, Dev Và Seller Sắp Nhàn Tênh?

Unreal Engine 5.8 Chốt Sổ: Đút Hẳn AI Vào Editor Cho Dev 'Vibe Code', Nhưng Liệu Có Bị Ăn Cú Lừa?

Badge: Khi AI đóng vai 'thám tử tư' đi check var năng lực và lật tẩy mọi CV 'phake'

Tắt văn mẫu 'Load-Bearing' của Claude: Khi AI bỗng dưng nghiện dùng từ lóng và cách anh em dev 'khóa mõm' nó

Katalyst: Khi AI Agent đi làm 'bảo mẫu' dọn rác Salesforce cho đội Sales

AnySearch Lên Top Product Hunt: Cứu Cánh Cho AI Agent Khỏi Bị 'Ngáo' Vì Đớp Rác SEO?