Đang ngồi code dạo bằng con máy quạt kêu như máy cày, lướt HN tự nhiên thấy một quả "Show HN" khá ảo ma: nhét tính năng Tool Calling của Gemini vào một cái model bé xíu xiu 26M tham số. Các pháp sư Cactus vừa thả xích con quái vật mini này, hứa hẹn chạy mượt trên cả mấy con điện thoại ghẻ, đồng hồ thông minh. Đúng kiểu nhỏ mà có võ.
Tóm tắt pha "ép xung" não AI xuống bằng hạt cát
Chuyện là thanh niên Henry từ team Cactus vừa open-source một con model tên là Needle. Nhìn sơ qua thông số thì anh em sẽ thấy nó dị nhường nào:
- Bé hạt tiêu: Nặng đúng 26M tham số (để dễ hình dung thì nó nhẹ hơn cả cái thư mục node_modules rác rưởi của anh em).
- Tốc độ bàn thờ: Quất 6000 token/s prefill và 1200 token/s decode ngay trên thiết bị cá nhân.
- Insight đi thẳng vào vấn đề: Mấy lão này nhận ra việc gắn tool (function calling) bản chất là bài toán tìm kiếm và lắp ráp (match query -> trích xuất tham số -> nhả JSON), đ*o phải suy luận triết học phức tạp. Bắt mấy con LLM siêu to khổng lồ làm việc này là đao to búa lớn.
- Kiến trúc dị giáo: Model này mạnh dạn vứt sạch mạng nơ-ron truyền thống (MLP/FFN). Chỉ có Attention và Gating. Tác giả bảo FFN là phí phạm tài nguyên nếu thông tin (facts) đã có sẵn trong input (kiểu RAG hay tool use).
- Cày cuốc: Pretrain 200B tokens mất 27 tiếng trên 16 con TPU v6e, sau đó post-train thêm 2B tokens data tổng hợp từ Gemini trong 45 phút.
- Thực chiến: Đấm vỡ mồm mấy con to con hơn như FunctionGemma-270M hay Qwen-0.6B trong bài test gọi hàm single-shot.
Giang cư mận chém gió gì về pha cắt xén này?
(Dù tác giả vừa post chưa kịp để lại nhiều comment, nhưng lượn lờ các diễn đàn thì anh em dev chia phe khá rõ rệt)
- Đội ngũ "thực dụng": Quá xịn xò con bò! Cuối cùng cũng có người hiểu rằng bắt con AI 70B tham số chỉ để bật cái đèn thông minh hay tạo file JSON là cực kỳ cắn RAM và hao điện. Nhét mấy cái ai tools nhỏ gọn này vào app là chân ái.
- Pháp sư đa nghi: Cắt bỏ FFN nghe rất ma giáo. Chạy single-shot thì mượt mượt đấy, nhưng liệu ghép vào chuỗi hội thoại phức tạp nhiều bối cảnh thì có bị ngáo ngơ không?
- Dân cày Local: Đã clone repo về finetune thử trên Mac. Chạy mấy cái này nhẹ đầu, không cần phải thuê máy chủ đắt đỏ hay ngốn sạch tài nguyên.
Góc nhìn từ Coding4Food: Bài học "biết mình biết ta"
Thực tế phũ phàng là anh em dev mình hay bị FOMO. Đụng cái là lôi OpenAI API hay tải mấy con LLM khủng bố về xài, trong khi task đôi khi chỉ là parse cái chuỗi string ra JSON hoặc gọi một cái API thời tiết. Vụ này chứng minh: Tool đúng việc thì nhỏ cũng có võ, không cần thiết lúc nào cũng vác dao mổ trâu đi giết gà.
Kiến trúc bỏ FFN của Cactus là một nước đi rất thú vị cho dân làm edge-computing. Đừng cố bắt một con AI làm thi sĩ khi bạn chỉ cần nó làm một thằng thu ngân biết đếm tiền. Chốt lại, vãn bối bái phục. Đạo hữu nào muốn tối ưu chi phí thì tải về nghịch ngay cho nóng!
Nguồn hóng hớt: Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model