Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
en
Trang chủChuyên mụcArcadeĐã lưu
Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
Bảo mật|Điều khoản

© 2026 Coding4Food. Viết bởi dev, cho dev.

Tất cả tin tức
Công nghệAI & Automation

Needle: Khi pháp sư ép Tool Calling của Gemini vào con AI bé bằng hột é

14 tháng 5, 20263 phút đọc

Cộng đồng mạng đang xôn xao vụ dev nhà Cactus nhét tính năng Tool Calling vào model 26M tham số, bỏ mịa luôn FFN. Chạy mượt trên điện thoại ghẻ!

Chia sẻ bài viết:
phone, iphone, mobile, green, smartphone
Nguồn gốc: https://coding4food.com/post/needle-ai-nhet-gemini-tool-calling-vao-model-26m. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/needle-ai-nhet-gemini-tool-calling-vao-model-26m. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/needle-ai-nhet-gemini-tool-calling-vao-model-26mNguồn gốc: https://coding4food.com/post/needle-ai-nhet-gemini-tool-calling-vao-model-26m. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/needle-ai-nhet-gemini-tool-calling-vao-model-26m. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/needle-ai-nhet-gemini-tool-calling-vao-model-26m
Nguồn gốc: https://coding4food.com/post/needle-ai-nhet-gemini-tool-calling-vao-model-26m. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/needle-ai-nhet-gemini-tool-calling-vao-model-26m. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/needle-ai-nhet-gemini-tool-calling-vao-model-26mNguồn gốc: https://coding4food.com/post/needle-ai-nhet-gemini-tool-calling-vao-model-26m. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/needle-ai-nhet-gemini-tool-calling-vao-model-26m. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/needle-ai-nhet-gemini-tool-calling-vao-model-26m
needle aigemini tool callingllmaimachine learningcactus computeai model
Chia sẻ bài viết:

Bình luận

Đang ngồi code dạo bằng con máy quạt kêu như máy cày, lướt HN tự nhiên thấy một quả "Show HN" khá ảo ma: nhét tính năng Tool Calling của Gemini vào một cái model bé xíu xiu 26M tham số. Các pháp sư Cactus vừa thả xích con quái vật mini này, hứa hẹn chạy mượt trên cả mấy con điện thoại ghẻ, đồng hồ thông minh. Đúng kiểu nhỏ mà có võ.

Tóm tắt pha "ép xung" não AI xuống bằng hạt cát

Chuyện là thanh niên Henry từ team Cactus vừa open-source một con model tên là Needle. Nhìn sơ qua thông số thì anh em sẽ thấy nó dị nhường nào:

  • Bé hạt tiêu: Nặng đúng 26M tham số (để dễ hình dung thì nó nhẹ hơn cả cái thư mục node_modules rác rưởi của anh em).
  • Tốc độ bàn thờ: Quất 6000 token/s prefill và 1200 token/s decode ngay trên thiết bị cá nhân.
  • Insight đi thẳng vào vấn đề: Mấy lão này nhận ra việc gắn tool (function calling) bản chất là bài toán tìm kiếm và lắp ráp (match query -> trích xuất tham số -> nhả JSON), đ*o phải suy luận triết học phức tạp. Bắt mấy con LLM siêu to khổng lồ làm việc này là đao to búa lớn.
  • Kiến trúc dị giáo: Model này mạnh dạn vứt sạch mạng nơ-ron truyền thống (MLP/FFN). Chỉ có Attention và Gating. Tác giả bảo FFN là phí phạm tài nguyên nếu thông tin (facts) đã có sẵn trong input (kiểu RAG hay tool use).
  • Cày cuốc: Pretrain 200B tokens mất 27 tiếng trên 16 con TPU v6e, sau đó post-train thêm 2B tokens data tổng hợp từ Gemini trong 45 phút.
  • Thực chiến: Đấm vỡ mồm mấy con to con hơn như FunctionGemma-270M hay Qwen-0.6B trong bài test gọi hàm single-shot.

Giang cư mận chém gió gì về pha cắt xén này?

(Dù tác giả vừa post chưa kịp để lại nhiều comment, nhưng lượn lờ các diễn đàn thì anh em dev chia phe khá rõ rệt)

  • Đội ngũ "thực dụng": Quá xịn xò con bò! Cuối cùng cũng có người hiểu rằng bắt con AI 70B tham số chỉ để bật cái đèn thông minh hay tạo file JSON là cực kỳ cắn RAM và hao điện. Nhét mấy cái ai tools nhỏ gọn này vào app là chân ái.
  • Pháp sư đa nghi: Cắt bỏ FFN nghe rất ma giáo. Chạy single-shot thì mượt mượt đấy, nhưng liệu ghép vào chuỗi hội thoại phức tạp nhiều bối cảnh thì có bị ngáo ngơ không?
  • Dân cày Local: Đã clone repo về finetune thử trên Mac. Chạy mấy cái này nhẹ đầu, không cần phải thuê máy chủ đắt đỏ hay ngốn sạch tài nguyên.

Góc nhìn từ Coding4Food: Bài học "biết mình biết ta"

Thực tế phũ phàng là anh em dev mình hay bị FOMO. Đụng cái là lôi OpenAI API hay tải mấy con LLM khủng bố về xài, trong khi task đôi khi chỉ là parse cái chuỗi string ra JSON hoặc gọi một cái API thời tiết. Vụ này chứng minh: Tool đúng việc thì nhỏ cũng có võ, không cần thiết lúc nào cũng vác dao mổ trâu đi giết gà.

Kiến trúc bỏ FFN của Cactus là một nước đi rất thú vị cho dân làm edge-computing. Đừng cố bắt một con AI làm thi sĩ khi bạn chỉ cần nó làm một thằng thu ngân biết đếm tiền. Chốt lại, vãn bối bái phục. Đạo hữu nào muốn tối ưu chi phí thì tải về nghịch ngay cho nóng!

Nguồn hóng hớt: Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model

Bài viết liên quan

evolution, artificial intelligence, brain, ghost, progress, smoke, digitization, change, matrix, printed circuit board, circuit board, control center, automation, evolution, evolution, evolution, evolution, evolution, artificial intelligence, artificial intelligence, artificial intelligence, artificial intelligence, brain, brain
AI & AutomationCông nghệ

Bóc trần sự thật AI: Khi giang cư mận phát hiện siêu trí tuệ chỉ là 'một đống weights'

Cười té ghế với bài parody 'They're made out of weights' trên Hacker News. Hóa ra AI thần thánh cũng chỉ là mấy ma trận số nhân với nhau mà thôi!

4 thg 64 phút đọc
Đọc tiếp →
ai generated, neural, brain, technology, network, digital, mind, data, information, neurons, biotech, nanotechnology, science, head, electronics, cybernetics, cyberspace, singularity, robot, future, computer, chip, processor, intelligence
Công nghệAI & Automation

Google thả xích Gemma 4 12B: Không thèm xài Encoder, kèo này thơm hay lại bánh vẽ?

Google vừa tung Gemma 4 12B với kiến trúc multimodal encoder-free. Giang cư mận HN đang rần rần. Liệu có đủ tuổi đọ lại Llama hay chỉ là content lùa gà?

4 thg 64 phút đọc
Đọc tiếp →
binary, one, cyborg, cybernetics, circuit board, technology, monitor, think, circuits, microprocessor mode, controlled, puppet, artificial intelligence, function, printed circuit board, digital, intelligent, futuristic, computer science, zero, robot, continents, earth, world, binary code, binary system, byte, bits, computer, computer viruses, computer virus, data, data exchange, communication, web, network, programming, server, script, trojan, virus, virus warning, artificial intelligence, artificial intelligence, artificial intelligence, artificial intelligence, artificial intelligence, computer science, server, server
AI & AutomationCông nghệ

Bóc phốt 'thợ gõ API': Stanford tung khóa CS336 dạy code LLM từ cõi hư vô

Stanford vừa ném vào mặt giới tech khóa học CS336: Language Modeling from Scratch. Đã đến lúc phân biệt AI Engineer real và thợ gọi API OpenAI.

2 thg 63 phút đọc
Đọc tiếp →
artificial intelligence, brain, think, control, computer science, electrical engineering, technology, developer, computer, man, intelligent, controlled, printed circuit board, board, information, data, function, microprocessor, person, data exchange, digital, communication, web, network, programming, server, script, artificial intelligence, artificial intelligence, brain, brain, technology, technology, technology, technology, technology, computer
Công nghệAI & Automation

Check xem tên ông có nằm trong 'não bộ' của ChatGPT không hay chỉ là hạt cát vô danh?

Một công cụ siêu dị giúp anh em check xem tên tuổi hay thương hiệu của mình đã được 'khắc cốt ghi tâm' vào hàng tỷ tham số của các mô hình AI chưa.

21 thg 64 phút đọc
Đọc tiếp →
programming, computer, environment, syntax, data processing, advertisement, hacker, html, web design, development, developer, language, code, software, coding, website, future programmer, computer science, electrical engineering, developer, software, software, software, coding, coding, coding, coding, coding, computer science, computer science
AI & AutomationCông nghệ

JetBrains chơi chiêu độc: Ra mắt Mellum cứu rỗi nạn 'cắn RAM' và độ trễ rùa bò của AI

Thần dân JetBrains chuẩn bị đón tin vui: Model AI Mellum cực nhẹ, siêu nhanh sắp giải cứu anh em khỏi cảnh chờ đợi mỏi mòn từ các chatbot cloud.

21 thg 64 phút đọc
Đọc tiếp →
ai generated, cloud computing, mining, gpu, server, blockchain, artificial intelligence, machine learning, data center, gpu, gpu, data center, data center, data center, data center, data center
Công nghệAI & Automation

Claude Fable 5 Thả Xích: Siêu AI 'Hủy Diệt' Mới Hay Lại Là Cú Lùa Gà Benchmark?

Anthropic vừa thả xích System Card của Claude Fable 5 làm dậy sóng giới dev với hơn 2100 điểm Hacker News. Liệu đây là bước nhảy vọt hay chỉ là bánh vẽ?

10 thg 64 phút đọc
Đọc tiếp →