Vibe-training là gì? Plurai và giải pháp AI Guardrails

AI dạo này thông minh vãi, nhưng lắm lúc cũng ngu xéo xắt, làm anh em đau đầu khoản viết guardrails (rào chắn) để nó không điên lên sủa bậy hay làm mấy trò mèo. Vừa rồi trên Product Hunt rần rần vụ một startup thả xích con hàng tên Plurai, mang theo một giáo phái mới mang tên "Vibe-training". Cùng ngồi xuống làm cốc trà đá, tôi kể cho anh em nghe chuyện quái gì đang xảy ra.

Rốt cuộc "vibe-training" là cái tà thuật gì?

Mọi chuyện bắt đầu khi team Plurai đấm thẳng vào một nỗi đau dai dẳng của dân dev AI: làm eval (đánh giá) cho LLM tốn thời gian và tiền bạc vãi chưởng.

Vấn đề hiện tại: Đa số các team đang xài chiêu "LLM as a judge" (lấy AI xịn đi chấm điểm AI cùi). Khổ nỗi, mỗi call nó cắn tầm 100ms, scale lên thì có mà bán nhà trả tiền API.
Giải pháp chắp vá: Thấy đắt quá, anh em dev thường chơi bài "lấy mẫu" (sampling) thay vì check 100% request. Và bùm, bug thường xuyên lọt ở những chỗ đ*o ai lấy mẫu. Cười ra nước mắt.
Plurai xuất hiện: Tuyên bố khai sinh khái niệm "Vibe-training". Dịch nôm na là: Các ông chỉ cần miêu tả bằng mồm xem con AI nên/không nên làm gì.
Cơ chế ảo ma: Hệ thống sẽ tự động sinh data, lôi mấy con AI ra cho cãi nhau nảy lửa (multi-agent debate) để chốt chân lý, rồi nhét kết quả vào một con Small Language Model (SLM) nhỏ gọn xịn xò để làm bảo vệ trực cổng.
Đáy gầm xưng bá: Claim của team dev là chi phí rẻ hơn 8 lần, chạy dưới 100ms, tỷ lệ xịt giảm 43% so với việc bú API của GPT để làm judge. Chạy mượt trên mọi tương tác luôn chứ đ*o thèm lấy mẫu nữa.

Giang cư mận chia phe combat

Dạo một vòng comment section, dân tình đang phản ứng khá là đa chiều về quả "vibe coding cho evals" này.

Phe tung hoa bợ đỡ: Khen cái từ "vibe-training" nghe quá nghệ, bắt đúng trend. Có ông còn tấu hài hỏi: "Thế dùng con này chặn AI tự động mua ba cái khóa học lùa gà trên mạng được không?", dev Plurai đáp luôn: "Được quá chứ lị!".

Phe bị chọc trúng tim đen: Cực kỳ đồng cảm với founder. Nhiều anh em thừa nhận vụ làm eval lúc nào cũng nằm trên roadmap, nhưng toàn bị đẩy từ Q3 sang tận Q4 rồi vứt xó luôn vì lười setup pipeline và gán nhãn data.

Phe thợ săn bug (Combat cực căng): Một lão quái tên Sebastian lao vào vạch trần tử huyệt: "Cái trò LLM as judge chết ở ngưỡng 100ms là đúng cmnr. Nhưng câu hỏi là khi con SLM cùi và con LLM xịn bất đồng quan điểm trên production thì tin thằng nào? Thường mấy tool kiểu này hay chết yểu, biến thành đồ trưng bày ở đoạn này."

Pha đỡ đòn sau đó của team Plurai thực sự đỉnh cao. Họ giải thích hệ thống không dùng BARRED "vanilla" mà kết hợp với AutoPrompt. Túm cái váy lại là: Không giải quyết bất đồng trên production, mà giải quyết ngay từ lúc training. Khi có case khó đoán ý đồ (intent), hệ thống mới réo user vào gán nhãn một chút xíu thôi. Còn khi chạy thật mà bị lệch pha, các case đó được xem là "biên giới giá trị cao" và quăng ngược lại vòng lặp (cãi nhau -> tinh chỉnh -> train lại).

Kiểu sai đâu bắt tự vả miệng học lại đến đấy. Rất ma giáo!

Góc nhìn từ Coding4Food

Nói công bằng thì Plurai là một luồng gió mới khá thú vị. Việc đẻ ra khái niệm "vibe-training" chứng tỏ team này marketing rất có não, biết đánh vào tâm lý thích bay bổng nhưng lười tay chân của anh em dev.

Bài học sinh tồn rút ra ở đây là gì? Đừng cố chấp dùng súng bazooca để bắn ruồi. Việc ốp mấy con LLM khổng lồ cho mọi task là cái bẫy đốt tiền investor nhanh nhất. Chia nhỏ task, dùng SLM làm guardrail vừa mượt, vừa tiết kiệm.

Nếu anh em đang cày cuốc các tool AI để tích hợp vào app công ty, nhớ bài học về Eval. Không làm kỹ, con bot của các ông nổi điên chửi khách hàng, công ty sập server, thì người bị tế sống đầu tiên chắc chắn là các ông đấy.

Nguồn tham khảo: Plurai trên Product Hunt

Rốt cuộc "vibe-training" là cái tà thuật gì?

Mọi chuyện bắt đầu khi team Plurai đấm thẳng vào một nỗi đau dai dẳng của dân dev AI: làm eval (đánh giá) cho LLM tốn thời gian và tiền bạc vãi chưởng.

Vấn đề hiện tại: Đa số các team đang xài chiêu "LLM as a judge" (lấy AI xịn đi chấm điểm AI cùi). Khổ nỗi, mỗi call nó cắn tầm 100ms, scale lên thì có mà bán nhà trả tiền API.

Giải pháp chắp vá: Thấy đắt quá, anh em dev thường chơi bài "lấy mẫu" (sampling) thay vì check 100% request. Và bùm, bug thường xuyên lọt ở những chỗ đ*o ai lấy mẫu. Cười ra nước mắt.

Plurai xuất hiện: Tuyên bố khai sinh khái niệm "Vibe-training". Dịch nôm na là: Các ông chỉ cần miêu tả bằng mồm xem con AI nên/không nên làm gì.

Cơ chế ảo ma: Hệ thống sẽ tự động sinh data, lôi mấy con AI ra cho cãi nhau nảy lửa (multi-agent debate) để chốt chân lý, rồi nhét kết quả vào một con Small Language Model (SLM) nhỏ gọn xịn xò để làm bảo vệ trực cổng.

Đáy gầm xưng bá: Claim của team dev là chi phí rẻ hơn 8 lần, chạy dưới 100ms, tỷ lệ xịt giảm 43% so với việc bú API của GPT để làm judge. Chạy mượt trên mọi tương tác luôn chứ đ*o thèm lấy mẫu nữa.

Giang cư mận chia phe combat

Dạo một vòng comment section, dân tình đang phản ứng khá là đa chiều về quả "vibe coding cho evals" này.

Kiểu sai đâu bắt tự vả miệng học lại đến đấy. Rất ma giáo!

Góc nhìn từ Coding4Food

Vibe-training là cái tà thuật gì mà dân tình Product Hunt rần rần vụ AI Guardrails?

Rốt cuộc "vibe-training" là cái tà thuật gì?

Giang cư mận chia phe combat

Góc nhìn từ Coding4Food

Bình luận

Rốt cuộc "vibe-training" là cái tà thuật gì?

Giang cư mận chia phe combat

Góc nhìn từ Coding4Food

Bài viết liên quan

Cekura: Khi AI Voice Lên Production Cãi Khách Như Chém Chả Và Giải Pháp Cứu Cánh