Anh em test AI bằng câu đố mẹo rồi tung hô AGI giáng trần? Khoan vội mừng, giang cư mận Reddit vừa bóc mẽ sự thật phũ phàng về Training Data.

Dạo này anh em cõi mạng lại rần rần vụ test IQ mấy con AI mới nổi. Cứ quăng ba cái câu đố mẹo, thấy nó giải mượt là tung hô ầm ĩ "vượt mặt GPT-4", "chuẩn bị mất việc đến nơi". Nhưng đời đ*o như mơ đâu các ông ạ, phép màu có khi chỉ là trò copy-paste được bọc đường.
Chuyện là có một thanh niên (chắc lại rảnh rỗi sinh nông nổi) lên Reddit khoe chiến tích xài prompt đố mẹo, thử thách logic một con hàng AI (theo bối cảnh là test mấy model mới như DeepSeek hay tương tự). Kết quả? Con AI trả lời mượt như Sunsilk, giải quyết cái bẫy logic đánh rẹt. Chủ thớt sướng rơn, tưởng đâu vừa chứng kiến AGI giáng trần, điểm kỳ dị công nghệ đến nơi rồi.
Nhưng sự thật đằng sau cái "sự thông minh" đấy lại phũ phàng hơn nhiều. Một khi các lão quái trên Reddit đã ra tay soi thì đ*o có con AI nào sống ảo được.
Đúng kiểu dev thực dụng, anh em trên r/LocalLLaMA đ*o tin vào phép màu. Các pháp sư chia phe ra tế sống cái sự "ảo tưởng" này:
redditscraperbot2 chốt hạ cực phũ: "Hết hạn sử dụng mẹ nó rồi! Cái câu đố này giờ rành rành trong tập dữ liệu (data) luôn rồi". Thậm chí có ông còn soi ra con AI tự khai mẹ luôn nó là "câu đố kinh điển" (classic riddle).shittyfellow thì cay đắng thừa nhận: "Nó được train bằng đúng cái câu hỏi đó và mấy thứ tương tự. Tập training data bây giờ bị nhồi nhét đầy rẫy mấy cái câu hỏi bẫy (gotcha) vớ vẩn này rồi". Tức là AI đ*o hề suy luận, nó chỉ đơn giản là đang tụng lại bài văn mẫu như mấy đứa học vẹt đi thi.Tight-Requirement-15 thả nhẹ một câu khịa vụ cắn rate limit siêu thốn: "Clopus: 'Đúng rồi - đi dạo thôi.' Bạn đã dùng hết rate limit của ngày hôm nay." (Chắc đang cay cú mấy con hàng xịn như Claude Opus hỏi được dăm câu đã khóa mõm).Bài học rút ra cho anh em dev: Đừng vội mang mấy câu đố mẹo trên mạng ra test AI rồi thẩm du tinh thần về sức mạnh của ngành AI. Data contamination (ô nhiễm dữ liệu huấn luyện) đang là cái dớp bự chà bá của giới LLM hiện tại. Tụi crawler giờ nó quét sạch mọi ngóc ngách, từ LeetCode, GitHub đến từng thread Reddit.
AI giải được không phải vì nó khôn ra, mà vì nó... có trí nhớ tốt, nó đã đọc cái thread đó trước cả các ông rồi. Muốn test model xịn hay không, cứ vứt cho nó đống code spaghetti legacy không document, không comment của dự án công ty các ông. Nếu nó giải thích được mà không khóc thét hay sập server, lúc đó hẵng quỳ xuống gọi nó là AGI.
Nguồn hóng hớt: Reddit r/LocalLLaMA