Bỏ hơn 1 tỷ bạc mua đứt server GPU thay vì cúng tiền cho AWS. Cùng hóng xem vố 'xuống xác' này của một dev trên Hacker News là chân ái hay toang hoác.

Đốt gần 50 ngàn Biden tệ (cỡ tỷ hai VNĐ) cho một con server GPU để cày AI on-premise thay vì hàng tháng cúng tiền cho các pháp sư AWS/GCP. Nghe qua thì có vẻ bảnh, chuẩn bài "ta nắm vận mệnh của ta", nhưng thực tế thì có thơm như lời đồn không?
Anh em cùng tôi, làm cốc trà đá, bóc tách cái drama đang gom tới hơn 500 upvotes trên Hacker News này nhé.
Chuyện là một đạo hữu (tạm gọi là tác giả) ngồi nhẩm tính tiền thuê máy chủ GPU chạy model AI hàng tháng xót ruột quá. Cứ cái đà cắn tiền theo giờ này thì mấy chốc mà bán nhà, thế là anh bạn quyết định "khô máu" tậu luôn một cỗ máy GPU xịn xò con bò về đặt tại gia, với niềm tin mãnh liệt rằng: Mua đứt bán đoạn sẽ hoàn vốn sau x tháng.
Nhưng đời đ*o như là code, lúc chạy thử mới lòi ra cả đống bug vật lý:
Chủ thớt ngồi tính toán lại xem mớ hỗn độn này có thực sự rẻ hơn việc click chuột thuê cloud hay không. Kết quả? Hên xui, tùy thuộc vào việc ông bắt cái máy đó cày cuốc 24/7 tốt đến đâu.
Bên dưới bài viết, giang cư mận chia phe chém gió cực gắt. Dân tình chửi thề, khịa nhau đủ cả. Tổng hợp lại thì có mấy luồng ý kiến đang chiếm sóng:
1. Phe Anti-Cloud (Đội cuồng On-premise): Đội này vỗ tay rào rào. Các pháp sư này cho rằng bọn Cloud đang lùa gà bằng phí "egress" (băng thông đầu ra) và giá thuê GPU trên trời. Tự build là chân ái, cầm nắm sờ mó được cái máy của mình nó vẫn có cảm giác bá đạo hơn.
2. Phe Ops Thực dụng (Đội bị đấm nhiều nên tỉnh): Bọn này thì cười khẩy. "Đợi lúc một con GPU lăn ra chết, hoặc mất điện cúp mạng đi rồi thấy cảnh". Họ nhấn mạnh rằng bài toán TCO (Total Cost of Ownership) đ*o bao giờ chỉ là tiền mua cục sắt. Chi phí ẩn nằm ở thời gian bảo trì, tiền điện, và sự hao mòn chất xám khi phải đi fix những cái bug phần cứng củ chuối.
3. Đội soi khấu hao (Kế toán trà trộn làm dev): Một số cao nhân nhắc nhở nhẹ: $48K năm nay mua được hàng top, nhưng sang năm Nvidia nó ra thế hệ mới, compute power tăng gấp đôi, ăn điện bằng một nửa, thì con server tỷ hai này chỉ mang đi chặn giấy. Khấu hao linh kiện phần cứng AI bây giờ rớt giá thê thảm hơn cả coin.
Tóm cái váy lại, vụ này cho anh em mình một bài học sương máu: Đừng để cái mác "tối ưu chi phí" làm mờ mắt.
Sở hữu một con server quái vật nghe thì mượt, nhưng nếu anh em chỉ là team nhỏ, startup, hoặc đang test ý tưởng, thì xin can. Thời gian anh em hì hục cài driver NVIDIA, vật lộn với tản nhiệt là thời gian anh em đ*o code được dòng nào ra hồn. Rảnh háng thì cứ thuê cloud, đắt tí nhưng sập server thì gọi support nó chửi cho sướng mồm, đêm vẫn kê cao gối mà ngủ.
Chỉ xuống tiền chơi bare-metal khi các ông có dòng tiền ổn định, workload chạy full tải 24/7 suốt cả năm, và có dư dả nhân lực để bảo trì. Còn không, cứ an phận làm thợ gõ đi các đồng đạo ạ.
Nguồn hóng hớt: Was my $48K GPU server worth it? - Hacker News