Drama làng AI lại nổi sóng. Các ông lớn như Anthropic đang bị cộng đồng khịa cực mạnh vì cái thói 'vừa ăn cướp vừa la làng' về chuyện dữ liệu training.

Chuyện là thế này, mấy hôm nay anh em dev trên Reddit đang cười ra nước mắt với một cái meme thâm thúy hơn cả code Spaghetti của mấy ông thực tập sinh. Nội dung xoay quanh cái gọi là "tiêu chuẩn kép" (double standard) của mấy ông trùm AI hiện nay.
Nói ngắn gọn: Khi các Big Tech cào nát cái Internet để train model thì họ gọi đó là "Training" (nghe sang mồm, đóng góp cho nhân loại). Nhưng khi cộng đồng open-source hoặc các bên nhỏ hơn dùng output của họ để train model nhỏ (gọi là Distillation) thì họ nhảy dựng lên bảo là "Ăn cắp bản quyền". Ảo ma Canada chưa?
Anh em làm AI chắc không lạ gì thuật ngữ "Knowledge Distillation". Nôm na là lấy một con AI "khôn" (Teacher model - ví dụ GPT-4, Claude 3.5 Sonnet) để dạy lại cho con AI "ngu" hơn nhưng nhẹ hơn (Student model). Cách này giúp anh em dev nghèo, GPU yếu vẫn có hàng ngon để xài.
Nhưng đời không như mơ. Các lab AI lớn (điển hình là OpenAI và gần đây là Anthropic) bắt đầu giở quẻ. Họ cấm tiệt việc dùng output của họ để train các model cạnh tranh. Điều khoản sử dụng (ToS) viết dài như sớ Táo Quân, tóm lại là: "Cấm copy tao dưới mọi hình thức".
Cái hài hước ở đây là gì? Chính mấy ông này ngày xưa xây dựng đế chế bằng cách "cào" (scrape) dữ liệu vô tội vạ từ Wikipedia, Reddit, GitHub (code của anh em mình đấy), và hàng tỷ website khác mà có xin phép ai đâu? Lúc đấy thì gọi là "Fair Use", là "Innovation". Giờ người khác làm y hệt trên quy mô nhỏ hơn thì bị gán mác tội đồ. Khôn như các ông quê tôi xích đầy.
Chủ đề này đang hot hòn họt trên r/LocalLLaMA, và dưới đây là mấy luồng ý kiến mà tôi thấy "thấm" nhất:
Một thuyết âm mưu đang được dân tình bàn tán xôn xao: Có bằng chứng (dù chưa xác thực 100%) cho rằng chính Anthropic cũng đã "distill" con hàng DeepSeek (một model ngon bổ rẻ của Tàu).
Anh em Reddit mỉa mai: "Claude Sonnet 4.6 có khi là hàng distill từ DeepSeek đấy". Nếu tin đồn này là thật thì đúng là đỉnh cao của sự lươn lẹo. Mình làm thì được, người ta làm thì toang.
Một comment nhận được cả đống upvote đã chốt hạ một câu xanh rờn: "Tại sao các ông lại đi ăn cắp dữ liệu mà tui đã mất công đi ăn cắp trước đó?".
Nghe vô lý nhưng lại rất thuyết phục. Dữ liệu gốc thuộc về nhân loại (và cả đống data bản quyền họ lờ đi), giờ họ đóng gói lại rồi nhận vơ là tài sản riêng bất khả xâm phạm. Logic này chắc chỉ có mấy ông luật sư lương triệu đô mới nghĩ ra được.
Có ông bạn Iory1998 cay cú (và tôi thấy cũng có lý) khi bảo rằng: Nếu anh em tưởng OpenAI đã tệ, thì Anthropic còn "bá đạo" hơn.
Sau vụ này, anh em dev mình rút ra được bài học gì để không bị "lùa gà"?
Thứ nhất, đừng thần thánh hóa bất kỳ Big Tech nào. Dù là OpenAI, Anthropic hay Google, mục đích cuối cùng của họ vẫn là chốt lời, bán gói API đắt lòi kèn cho anh em mình dùng, chứ không phải vì "hòa bình thế giới".
Thứ hai, Open Source là chân ái. Những drama kiểu này càng cho thấy tầm quan trọng của các model như Llama 3 hay Mistral. Nếu không có cộng đồng open-source, một ngày đẹp trời nào đó mấy ông lớn hứng lên "khóa mõm" API hoặc tăng giá gấp đôi thì anh em dev chỉ có nước khóc tiếng Mán.
Cuối cùng, cứ thực dụng mà chơi. Model nào ngon, rẻ, phục vụ được công việc thì dùng. Distill được cứ distill (trong phạm vi luật pháp cho phép hoặc lách được thì lách - just kidding). Đừng nghe những gì họ nói, hãy nhìn những gì họ làm. Cuộc chơi này vốn dĩ không công bằng, nên anh em phải tự trang bị "đồ chơi" cho mình thôi.
Nguồn: Reddit - LocalLLaMA