Lấy AI chấm AI tốn tiền quá thì làm gì? Điểm tin vụ Plurai ra mắt Vibe-training giúp tạo guardrail cho LLM rẻ hơn 8 lần, chạy dưới 100ms mà cộng đồng đang tranh cãi.

AI dạo này thông minh vãi, nhưng lắm lúc cũng ngu xéo xắt, làm anh em đau đầu khoản viết guardrails (rào chắn) để nó không điên lên sủa bậy hay làm mấy trò mèo. Vừa rồi trên Product Hunt rần rần vụ một startup thả xích con hàng tên Plurai, mang theo một giáo phái mới mang tên "Vibe-training". Cùng ngồi xuống làm cốc trà đá, tôi kể cho anh em nghe chuyện quái gì đang xảy ra.
Mọi chuyện bắt đầu khi team Plurai đấm thẳng vào một nỗi đau dai dẳng của dân dev AI: làm eval (đánh giá) cho LLM tốn thời gian và tiền bạc vãi chưởng.
Dạo một vòng comment section, dân tình đang phản ứng khá là đa chiều về quả "vibe coding cho evals" này.
Phe tung hoa bợ đỡ: Khen cái từ "vibe-training" nghe quá nghệ, bắt đúng trend. Có ông còn tấu hài hỏi: "Thế dùng con này chặn AI tự động mua ba cái khóa học lùa gà trên mạng được không?", dev Plurai đáp luôn: "Được quá chứ lị!".
Phe bị chọc trúng tim đen: Cực kỳ đồng cảm với founder. Nhiều anh em thừa nhận vụ làm eval lúc nào cũng nằm trên roadmap, nhưng toàn bị đẩy từ Q3 sang tận Q4 rồi vứt xó luôn vì lười setup pipeline và gán nhãn data.
Phe thợ săn bug (Combat cực căng): Một lão quái tên Sebastian lao vào vạch trần tử huyệt: "Cái trò LLM as judge chết ở ngưỡng 100ms là đúng cmnr. Nhưng câu hỏi là khi con SLM cùi và con LLM xịn bất đồng quan điểm trên production thì tin thằng nào? Thường mấy tool kiểu này hay chết yểu, biến thành đồ trưng bày ở đoạn này."
Pha đỡ đòn sau đó của team Plurai thực sự đỉnh cao. Họ giải thích hệ thống không dùng BARRED "vanilla" mà kết hợp với AutoPrompt. Túm cái váy lại là: Không giải quyết bất đồng trên production, mà giải quyết ngay từ lúc training. Khi có case khó đoán ý đồ (intent), hệ thống mới réo user vào gán nhãn một chút xíu thôi. Còn khi chạy thật mà bị lệch pha, các case đó được xem là "biên giới giá trị cao" và quăng ngược lại vòng lặp (cãi nhau -> tinh chỉnh -> train lại).
Kiểu sai đâu bắt tự vả miệng học lại đến đấy. Rất ma giáo!
Nói công bằng thì Plurai là một luồng gió mới khá thú vị. Việc đẻ ra khái niệm "vibe-training" chứng tỏ team này marketing rất có não, biết đánh vào tâm lý thích bay bổng nhưng lười tay chân của anh em dev.
Bài học sinh tồn rút ra ở đây là gì? Đừng cố chấp dùng súng bazooca để bắn ruồi. Việc ốp mấy con LLM khổng lồ cho mọi task là cái bẫy đốt tiền investor nhanh nhất. Chia nhỏ task, dùng SLM làm guardrail vừa mượt, vừa tiết kiệm.
Nếu anh em đang cày cuốc các tool AI để tích hợp vào app công ty, nhớ bài học về Eval. Không làm kỹ, con bot của các ông nổi điên chửi khách hàng, công ty sập server, thì người bị tế sống đầu tiên chắc chắn là các ông đấy.
Nguồn tham khảo: Plurai trên Product Hunt