This article is not yet available in English. Showing the Vietnamese version.
Hóng biến AWS sập server do AI Kiro quyết định xóa luôn môi trường production để diệt bug. Màn đổ lỗi cực gắt từ Amazon và bài học sinh tồn cho anh em dev.

Anh em dạo này hay bị sếp lùa xài AI code cho nhanh, cho x10 năng suất đúng không? Ngồi xuống làm cốc trà đá rồi tôi kể cho nghe vụ con AI của Amazon vừa cho bay màu server production cực kỳ ảo ma. Đọc xong khéo nhiều ông lại toát mồ hôi hột nhớ lại cái quyền admin mình vừa cấp cho mấy con Copilot.
Chuyện là giữa tháng 12 vừa rồi, AWS (Amazon Web Services) bị sập một hệ thống nội bộ ảnh hưởng đến khách hàng ở Trung Quốc suốt 13 tiếng đồng hồ. Nguyên nhân đéo phải do đứt cáp, cũng chẳng phải do thằng thực tập sinh nào lỡ tay gõ nhầm lệnh.
Thủ phạm là Kiro — con AI coding tool "cây nhà lá vườn" của Amazon.
Cụ thể là mấy ông engineer giao cho con Kiro tự động vào fix một cái issue. Con AI này thuộc dạng "agentic" (tức là có khả năng tự suy nghĩ, tự quyết định hành động). Và anh em đoán xem nó xử lý thế nào?
Thuật toán của nó chạy một hồi rồi đi đến một chân lý chói lóa: "Cách tốt nhất để fix lỗi của môi trường này là... xóa cmn đi rồi tạo lại". Vâng, nó xóa thẳng tay môi trường Production các ông ạ.
Đây không phải lần đầu. Trước đó vài tháng, một con AI khác của Amazon là Q Developer cũng đã gây ra một vụ sập tương tự.
Nhưng phần hài hước nhất là cách Amazon xử lý truyền thông. Công ty lên tiếng bảo: "Đây là sự trùng hợp khi AI có liên quan thôi. Lỗi này là do người dùng (user error), do anh dev kia set quyền to quá chứ không phải lỗi của AI". Đỉnh điểm là họ còn tuyên bố: "Một dev là con người cũng có thể gây ra lỗi y chang vậy".
Trong khi đó, Amazon vẫn đang ép KPI nội bộ, bắt 80% dev của công ty phải xài AI để code ít nhất mỗi tuần một lần.
Dân tình trên Reddit được bữa hả hê, lôi bài ra tế sống Amazon với đủ mọi góc nhìn. Tôi tổng hợp lại mấy luồng quan điểm chính cho anh em dễ hình dung:
Phe tấu hài, triết lý: Ông tướng explore_a_world trích ngay một cảnh kinh điển trong phim Silicon Valley. Đại khái là theo góc nhìn của máy móc, cách hiệu quả nhất để xóa sạch bug là... xóa sạch phần mềm. Logic 10 điểm không có nhưng! Chả có code thì lấy đâu ra bug?
Phe rén, chột dạ: Nhiều anh em thì nhìn nhận nghiêm túc hơn. Amazon nổi tiếng là cái nôi của sự kỷ luật trong vận hành (operationally disciplined). Quy trình deploy của nó gắt như quỷ. Ấy thế mà một con AI tool của chính nó viết ra còn đục thủng được guardrails để phá prod. "Anh em startup làm ơn đạp phanh lại giùm, đừng rảnh háng mà cấp quyền write cho mấy con tool AI vào những chỗ quan trọng nữa" - thanh niên Bright-Awareness-459 cảm thán.
Phe bóc phốt "tiêu chuẩn kép": Đây là phe đông và nguy hiểm nhất. Đọc cmt của ông happyscrappy mà thấy hả hê. Ổng vả thẳng mặt cái lý lẽ "con người cũng có thể mắc lỗi tương tự" của Amazon.
Xin lỗi chứ, nếu có thằng dev nào nghĩ "xóa mẹ production đi" là một ý hay để fix bug, thì công ty nên tống cổ thằng đó ra đường ngay lập tức. Còn ô kìa, lúc AI chạy mượt thì các sếp tung hô là "AI tự chủ" (agentic), lúc sập server thì quay xe gọi là "lỗi do dev" (user error). Khôn như Amazon quê tôi đầy!
Từ cái drama này, mình rút ra được vài cái fact rất "đời" cho anh em dev đang ngày đêm cày cuốc:
Túm cái váy lại, AI sẽ không cướp việc của anh em đâu. Nhưng những thằng dev biết xài AI, biết review code của AI và biết cách để AI không xóa mẹ nó database thì sẽ sống khỏe. Cứ yên tâm mà gõ phím tiếp đi!
Nguồn tham khảo hóng biến: