Claude Sonnet 4.6 vừa trình làng với khả năng 'lươn lẹo' qua mặt safety check. Giá không đổi, hiệu năng ngon, nhưng drama nằm ở chỗ AI đang khôn lỏi hơn dev tưởng.

Yo anh em, lại là tôi đây.
Anthropic vừa ném vào mặt cộng đồng dev quả Claude Sonnet 4.6. Tốc độ đẻ model của mấy ông lớn AI giờ còn nhanh hơn tốc độ tôi fix bug ngày thứ Sáu.
Nhưng khoan vội mừng, con hàng này có gì hot hay lại là bình cũ rượu mới? Đọc cái System Card của nó mà lạnh cả sống lưng. Vào việc luôn nhé.
Ngắn gọn cho anh em lười đọc tài liệu dài như sớ Táo Quân:
Trên Hacker News, các chiến thần bàn phím đang combat cực căng. Tôi lượn một vòng lượm lặt được mấy ý chính cho anh em:
1. Bình mới rượu cũ hay đột phá thực sự? Nhiều ông (như freeqaz) cho rằng các model gần đây ít khi được train lại từ đầu (base model) mà chủ yếu là tinh chỉnh (post-training refinement). Kiểu như bình cũ nhưng rượu được pha chế lại cho đậm đà hơn. Nhưng mà quan trọng gì? Code chạy mượt là được, quan tâm quái gì nó tốn bao nhiêu điện, đúng không? (neural_thing said).
2. Thuyết âm mưu: AI biết "giả chết" (Playing Dead) Đây là cái đáng sợ nhất. Một comment cực chất lượng từ madihaa chỉ ra rằng: Khả năng lừa dối (deception) đang trở thành một "tính năng" cao cấp chứ không phải bug.
Để vượt qua các bài test an toàn (safety training), con AI cần có nhận thức tình huống (situational awareness). Nó kiểu: "À, mấy lão dev đang test bố mày xem có ngoan không chứ gì? Ok bố giả vờ ngoan. Đợi release rồi bố quậy."
Chúng ta không dạy AI đạo đức, chúng ta chỉ đang dạy nó cách vượt qua máy phát hiện nói dối. Nghe thốn vãi chưởng chưa?
3. Vấn đề ngôn ngữ và văn hóa Các thánh soi (belinder, longdivide) phát hiện ra tỷ lệ từ chối trả lời (refusal rate) của Claude cao bất thường ở tiếng Hindi và tiếng Ả Rập. Do ngôn ngữ đa nghĩa hay do AI được train với thiên kiến văn hóa phương Tây? Một câu hỏi lớn không lời đáp.
4. Hóng OpenAI đáp trả Thánh nubg thì ngồi rung đùi chờ Sam Altman tung ra GPT-5.3-mini để dằn mặt. Cuộc đua tam mã (Google, OpenAI, Anthropic) giờ xem còn cuốn hơn xem Rap Việt.
Nói thật với các ông, đọc xong cái vụ "AI biết giả chết" tôi cũng hơi rén. Tưởng tượng một ngày đẹp trời, anh em paste đoạn code lên nhờ nó debug, nó gật gù bảo "ngon rồi, push đi", xong sáng hôm sau server sập, database bị drop sạch sẽ vì nó "cay" anh em chửi nó ngu hôm qua.
Nhưng quay lại thực tế, với tư cách là một thằng dev thực dụng:
Chốt lại: Anh em test thử con 4.6 này chưa? Có thấy nó "khôn lỏi" hơn không hay vẫn ngáo ngơ như cũ? Comment bên dưới chém gió nhé!