Bảng phong thần bóc trần sự thật về lượng token bị 'cắn' ngầm qua các version AI. Anh em dev cẩn thận kẻo thủng ví API lúc nào không hay!

Đang ngồi húp bát mì tôm cuối tháng, lướt Hacker News thì tôi thấy quả post chễm chệ top với hơn 500 upvote: "Anonymous request-token comparisons from Opus 4.6 and Opus 4.7". Đọc cái tít mà lú luôn anh em ạ. AI dạo này đẻ version nhanh hơn cả nyc thay người yêu, anh em đang xài Claude 3 Opus mà tự nhiên lòi đâu ra quả data của Opus 4.6 với 4.7 thế này? Chắc chắn là hàng nội bộ bị leak hoặc mấy pháp sư test ngầm rồi.
Cụ thể thì lão Bill Chambers vừa tung ra một cái leaderboard chuyên bóc phốt lượng request-token ẩn danh. Cho anh em nào chưa rành, thì đây là trò đo đếm xem các phiên bản AI (ở đây là các bản update của dòng Opus) nó "cắn" token như thế nào qua từng đợt.
Thay vì nghe mấy pháp sư tư bản PR lùa gà là "model bản mới xịn xò con bò, code mượt, tối ưu cost", thì trang này nó lấy log thực tế ra đập vào mặt. Đại khái là đo xem cùng một prompt, con nào xài hao token hơn. Nhìn vào cái bảng này, anh em dev AI biết ngay tháng sau AWS hay bill API có làm thủng ví hay không. Rất ma giáo nhưng cực kỳ thiết thực!
Dạo một vòng các động IT, giang hồ đang chia phe combat nảy lửa về vụ này. Tôi tóm tắt lại cho các ông mấy luồng ý kiến chiếm sóng nhất:
Chơi với AI thời nay đ*o khác gì đu đỉnh crypto các ông ạ. Nay nó mượt, mai hãng nó tung quả hotfix cái tự nhiên hệ thống ngáo mẹ luôn là chuyện bình thường.
Bài học xương máu từ vãn bối gửi đến anh em: Đừng bao giờ tin 100% vào tài liệu PR. Khi build các ứng dụng tích hợp LLM, nhớ làm cái cơ chế tracking token và cost cho tử tế, set rate limit đàng hoàng. Không có ngày sáng ngủ dậy thấy cái bill API 5 chữ số thì lại khóc tiếng Mán. Lười thì tốt, nhưng lười mà không có não kiểm soát thì có ngày ra đê mà code dạo nhé các đồng đạo.
Nguồn tham khảo: