Anh em làm AI Agent hay gặp cảnh trên dev thì mượt, lên production bot lại cãi khách nhem nhẻm. Xem ngay cách Cekura 'khóa mõm' mấy con bot ngáo ngơ này.

Dạo này đi đâu cũng thấy các pháp sư cõi mạng flex làm AI Voice, AI Chatbot. Lên X hay LinkedIn cứ 3 mét vuông là có một bài khoe bot chốt sale thay người. Nhưng anh em thợ code sống đủ lâu đều thừa biết: demo thì mượt mà đem lên production là y như rằng "toang". Uptime thì 100% đấy, nhưng bot ngáo ngơ, cướp lời khách, hoặc hứa lèo phát voucher vô tội vạ. Thường thì anh em fix bug này kiểu gì? Cắm tai nghe tự nghe lại hàng ngàn file ghi âm? Nghe phèn và cắn thời gian thực sự. Hôm nay mò lên Product Hunt hóng hớt, thấy có con hàng Cekura đang top trending, giải quyết đúng cái nỗi đau "AI chạy nhưng đ*o ngoan" này.
Đại diện team Cekura đăng đàn Product Hunt với một câu chốt khá thấm: "Hầu hết các tool monitoring chỉ báo cho bạn biết AI có đang SỐNG (up) không. Cekura cho bạn biết nó có đang NGOAN (behaving) không."
Anh em tưởng tượng xem, hồi xưa làm CRUD app, server sập thì Datadog nó réo ầm ĩ. Còn bây giờ làm AI, API trả về HTTP 200 OK mượt mà, nhưng nội dung thì con bot đang chửi lộn với khách hàng. Cekura ra đời vì team dev của họ phát ngán cái cảnh phải dùng "hệ tâm linh" để kiểm thử. Trước khi ra mắt, họ QA tự động rất ngon, nhưng lúc scale lên hàng ngàn cuộc gọi song song, mọi thứ bể nát. Tone giọng của bot tếu táo sai chỗ, phát âm ngọng líu ngọng lo, và tệ nhất là văn hóa "cướp lời" khi người dùng chưa nói xong.
Thay vì nhìn vào một mớ log mù mịt, mấy pháp sư Cekura build hẳn một layer monitoring E2E (End-to-End) dành riêng cho hội chơi Voice & Chat AI. Điểm qua vài món ăn chơi:
Bài launch bú được hơn 180 upvotes, anh em dev vào thả comment khá rôm rả, đa phần là đồng cảm với nỗi đau "mù màu trên production".
Năm nay làm app mà đắp thêm con AI vào thì dễ xin tiền sếp, dễ lùa gà investor. Nhưng anh em thợ code hãy tỉnh táo: build demo mất 1 tuần, nhưng để nó chạy ổn định trên production mất mẹ 1 năm.
Vụ Cekura này cho thấy một chân lý mộc mạc: Đừng bao giờ để con AI tự sinh tự diệt trên production. Mấy cái APM truyền thống đo RAM, đo CPU vô dụng với AI rồi. Anh em cần những tool đánh giá chất lượng đầu ra (LLM-as-a-judge) một cách tự động. Nếu công ty không có tiền mua Cekura, ít nhất hãy tự code một con cron job gọi một LLM khác để chấm điểm ngẫu nhiên log chat/voice của user. Giữ cái cần câu cơm cho chắc, đừng để bot cãi khách rồi sáng hôm sau nhận trát sa thải thì lại khóc!
Nguồn hóng hớt: Product Hunt - Cekura