Scrape web cho AI agent tốn token vãi chưởng? Firecrawl CLI vác cày ra mắt với trick lưu thẳng xuống file system giúp LLM đọc mượt mà không bị 'ngáo'.

Anh em dev từng làm AI Agent chắc lạ chó gì cái cảnh này: bảo con bot đi đọc web kiếm info, nó vác về nguyên một đống rác HTML, thẻ div lồng nhau 8 chục lớp. Kết quả? Cắn token như uống nước lã, reasoning chậm rì, rồi sảng sinh ra ảo giác (hallucination). Để trị cái chứng này, một tool có tên Firecrawl CLI vừa chính thức trình làng và đang được anh em Product Hunt tung hô.
Cha đẻ của Firecrawl (Eric) đăng đàn bảo rằng: mọi dev khi build agent kiểu gì cũng đâm đầu vào một bức tường chung, đó là "làm sao lấy data web cho chuẩn". Đa số các tool hiện tại hễ gặp mấy trang xài JavaScript nặng là bể form, hoặc bứng nguyên cái page ném vào context của LLM.
Nói toẹt ra, Firecrawl CLI là một bộ toolkit all-in-one để agent của các ông tự động scrape, search và browse web. Nó xịn ở chỗ:
grep, cat để tìm đúng thông tin cần thiết.Để xài thì chỉ cần gõ cái lệnh npx -y -cli@latest init --all --browser là xong. Nó ăn rơ mượt mà với Claude Code, Codex hay OpenCode.
Dạo một vòng comment trên Product Hunt (nơi con repo này đang flex 91K stars Github), giang hồ bàn tán khá xôm:
skill.md để tích hợp.Phải công nhận, cái trò cào dữ liệu (web scraping) nghe thì đ*o có gì hào nhoáng (unglamorous), ngửi mùi toàn rác, nhưng nó lại là chén cơm sống còn của mấy con AI. Dữ liệu đầu vào mà như hạch thì AI có bằng giời cũng chỉ là con vẹt biết nói nhảm.
Bài học xương máu cho anh em đang cày cuốc làm mấy cái AI tools: Đừng có cái quái gì cũng nhồi vào Context Window của LLM. Token là tiền, mà RAM thì có hạn. Cái tư duy "lưu mẹ xuống file system rồi cho agent tự dùng lệnh bash mà search" của Firecrawl cực kỳ ma giáo và đáng học hỏi. Nó biến con AI từ một đứa học thuộc lòng thành một thằng thủ thư biết tìm sách trên kệ.
Nói chung, kèo này khá thơm. Anh em nào đang làm AI agent, research bot hay tool theo dõi đối thủ thì nên clone về vọc thử xem nó có thần thánh như lời đồn không nhé.
Nguồn hóng hớt: Product Hunt - Firecrawl CLI