Anthropic chính thức thả xích 1 triệu token context cho Claude 4.6. Anh em dev có nên dẹp mẹ RAG, hay chuẩn bị tinh thần bán thận trả tiền bill API?

Anthropic vừa thả một quả bom hạng nặng xuống làng công nghệ: 1 củ (triệu) token context giờ đã Generally Available (GA) cho cả Claude Opus 4.6 và Sonnet 4.6. Tạm biệt những ngày hì hục múa lân với RAG chăng?
Cho anh em nào chưa hình dung ra độ ảo ma của con số này, 1 triệu token nó tương đương cỡ 3-4 triệu chữ. Tức là các ông có thể ném nguyên cả series Harry Potter, cộng thêm cái source code legacy từ thời Napoleon cởi truồng, kẹp thêm vài cục log lỗi dài dằng dặc vào prompt mà con Claude vẫn "nhai" mượt.
Việc Anthropic đem tính năng này ra GA (trước đây chỉ giới hạn cho tay to hoặc beta) chứng tỏ họ đang muốn flex cơ bắp cực mạnh với đối thủ. Thay vì phải chẻ nhỏ dữ liệu ra, build hệ thống vector database lằng nhằng, giờ anh em dev lười chỉ việc Ctrl A + Ctrl C rồi quăng thẳng vào mặt AI.
Lướt một vòng Hacker News với X, anh em dev đang chém gió tưng bừng và chia làm 3 phe rõ rệt:
1. Phe Hưng Phấn (Team "RAG Tới Số Rồi") Nhiều đạo hữu mừng rớt nước mắt vì đ*o cần phải maintain mấy cái pipeline RAG cồng kềnh nữa. Cứ ném luôn cả cái repo vào cho AI nó tự bơi, tự debug. Vừa nhàn thân, vừa đỡ đau đầu cấu hình server các kiểu. Nhất là mấy cha nội đang xài các ai tools để generate code, giờ thì tha hồ mà mớm bối cảnh cho con bot.
2. Phe Thực Dụng (Team Giữ Ví) Tuy nhiên, mấy lão quái senior thì lại nhẩm tính: 1M token mỗi request? Quả này tiền API nó cắn thì đến cái nịt cũng chẳng còn. Gửi 1 request toang 1 phát là bay ly trà sữa, test vài chập thì sập cmn ví, lúc đấy bán thận đóng tiền mạng nhé. Thà tự thuê cloud vps mà host mấy con model open-source nhỏ nhỏ chạy RAG còn kinh tế hơn ngàn lần.
3. Phe Đa Nghi (Team "Lost in the middle") Có một sự thật mất lòng là mấy con LLM thường bị bệnh "cá vàng" khi context quá dài. Nhét 1 triệu token vào, liệu nó có nhớ được logic cốt lõi ở đoạn giữa, hay chỉ chém gió dựa trên phần đầu với phần đuôi? Nhiều pháp sư ẩn danh cho rằng công nghệ này dẫu mượt nhưng vẫn khá ma giáo, chưa chắc đã ngon như quảng cáo.
Nói đi cũng phải nói lại, việc mở khóa 1M token là một bước tiến xịn xò con bò. Nhưng đừng vì thế mà các ông lười đi.
Mô hình xịn không cứu được kiến trúc rác. Đừng coi cái prompt window 1M token là cái bãi rác để ném bừa bãi mọi thứ vào. Gửi càng nhiều data không cần thiết (noise) thì AI nó càng dễ bị ngáo (hallucinate), và tiền bill thì cứ thế nhân lên vô tội vạ. Học cách filter dữ liệu, viết prompt có tâm và cấu trúc code đàng hoàng vẫn là chân ái để sinh tồn trong kỷ nguyên AI này.
Nguồn: Claude Blog - 1M context is now generally available for Opus 4.6 and Sonnet 4.6