
Dạo này anh em dev xài AI agent cứ như nghiện, nhưng đến cuối tháng nhìn cái bill API của OpenAI thì chắc nhiều ông muốn trầm cảm, toang cmn ví. Hôm nay, có một hội tự xưng là "pháp sư" vừa tung lên Product Hunt con hàng Edgee Codex Compressor, gáy to là cắt giảm được gần nửa số token đầu vào. Thực hư thế nào, có phải lại lùa gà không? Lên thuyền hóng hớt nhé!
Đại khái bọn Edgee này build một cái AI Gateway chuyên dụng cho Coding Agents (như Codex hay Claude Code). Cài đặt thì mượt, đúng chuẩn dev lười: xài curl hoặc brew để cài CLI, rồi gõ lệnh edgee launch codex là xong.
Nhưng cái đáng nói là chỉ số benchmark chúng nó show ra khá ảo ma:
Cơ chế hoạt động của bọn này thì không chơi hệ nén ngữ nghĩa (semantic) kiểu dùng AI để tóm tắt ý. Bọn này chơi hệ vật lý: Lọc rác! Tool sẽ tự động xóa mã ANSI, progress bars, khoảng trắng thừa, và gộp các dòng log bị lặp. Gửi prompt "sạch" hơn lên server thì dĩ nhiên là OpenAI cache trúng nhiều hơn, tiền ít đi.
Nghe chỉ số xịn xò con bò thế thì cộng đồng tò mò là đương nhiên. Đọc lướt qua mấy luồng comment thì anh em chia ra làm mấy phe:
Phe tò mò kỹ thuật soi kiến trúc:
Có ông nhảy vào hỏi ngay: "Rốt cuộc các anh nén kiểu gì? Deduplication hay Summarization?". Tác giả (Maker) rep thẳng tưng: Chúng tôi làm nén cấp độ token (token-level). Túm cái váy lại là cắt bỏ những thứ sinh ra cho người đọc (như log của cargo build, git log hay Go test) chứ model AI thì đ*o cần mấy cái màu mè đấy. Riêng con cargo build giảm tận 93% token. Nghe hợp lý phết!
Phe đa nghi "cú vọ": Một lão quái khác thì soi ngay số liệu: "Số 49.5% kia là trung bình hay số xào nấu thế?". Tác giả cũng khá quân tử, không lấp liếm mà nhận luôn: Đây là số liệu của một bài test cụ thể trong môi trường kiểm soát (cùng repo, cùng sequence), nên nó là điểm đo đạc chứ không phải phân phối thống kê. Tuy nhiên, tác giả cũng chốt lại là trung bình user xài thì số token đầu vào sẽ giảm loanh quanh mốc 40%.
Phe nịnh bợ/thực dụng: Có thanh niên thì quỳ lạy: "Trời ơi cứu tinh, tôi làm mọi thứ để tiết kiệm token". Maker nhà ta cũng flex nhẹ một câu khá ngôn tình: "Tôi làm mọi thứ để tiết kiệm token cho anh em". Cảm lạnh vãi, nhưng ừ, token là tiền mà, tiền thì ai chả quý.
Nói công bằng thì con Edgee này đánh trúng một cái bug tư duy rất lớn của anh em khi xài AI: Chúng ta hay ném nguyên cụm raw log sinh ra cho người đọc vào thẳng mặt con AI. Cái giá phải trả là anh em đang trả tiền API (giá cắt cổ) cho từng dấu cách, từng cái thanh progress loading chạy loằng ngoằng trong terminal.
Việc làm sạch context window trước khi gọi API là một tư duy cực kỳ thực dụng. Code cho máy đọc nó phải khác với giao diện cho người xem.
Chốt hạ: Anh em nào đang build hệ thống tự động hóa, chạy agent ngầm liên tục cắn RAM cắn API thì nên test thử con OSS này. Tiết kiệm được 40% bill là tháng sau có thêm dư dả đi nhậu hoặc nạp game rồi. Còn nếu các ông chỉ chat lắt nhắt vài ba dòng xin code gen form HTML thì chắc cũng chả bõ bèn gì đâu.
Nguồn hóng hớt: Product Hunt - Edgee Codex Compressor
Anh em xót ruột vì bill API của OpenAI mỗi tháng? Bọn Edgee vừa ra mắt tool nén token đầu vào, tuyên bố giảm 40% chi phí. Thực hư ra sao, có lùa gà không?