
Chào anh em đồng dâm dev. Dạo này loanh quanh trên mạng toàn thấy mấy con LLM sinh chữ múa mỏ, nhưng cái lõi đằng sau để làm RAG ngon nghẻ thì ít ai nhắc. Vừa rồi, Google mới ném ra quả bom mang tên "Gemini Embedding 2". Nghe chữ "embedding" có vẻ khô khan học thuật, nhưng đọc kỹ tài liệu thì quả này giải quyết đúng nỗi đau của anh em thợ code đấy.
Anh em nào từng làm AI search hay RAG chắc đều hiểu cái cảnh cồng kềnh của data đa phương tiện (multimodal). Hồi trước, muốn hệ thống hiểu được đống lẩu thập cẩm, các ông phải chạy qua 7749 bước tiền xử lý: âm thanh thì phải cắm vào speech-to-text, ảnh thì phải gọi API image-captioning, video thì băm frame ra rồi tính tiếp... Tóm lại là nát bét cái pipeline, chậm, dễ bug mà còn cắn tài nguyên máy chủ kinh khủng.
Nhưng với Gemini Embedding 2, Google cho phép dập tất cả text, ảnh, video, audio và file PDF vào chung một không gian (single embedding space) - và quan trọng là nó chạy native. Nghĩa là sao? Nghĩa là ông ném thẳng cái file mp3 vào, nó tự cắn mà đ*o cần qua bước phiên mã (transcription). Ảo ma chưa?
Vài thông số phần cứng cho anh em thị dâm:
Lượn lờ hóng hớt trên ProductHunt, đa số các lão quái đều gật gù pha này Google đánh trúng tim đen của dev.
Một pháp sư tên Rohan (chuyên review tool) khen lấy khen để vụ dẹp bỏ sự phân mảnh. Ông này chỉ ra rằng dev AI bây giờ có thể build hệ thống RAG, phân tích sentiment hay semantic search dễ thở hơn nhiều. Thay vì phải chắp vá các model riêng lẻ lại với nhau, giờ anh em xài một cục duy nhất là xong việc.
Nhiều anh em khác thì sướng rơn vì khả năng search chéo (cross-modal) giờ mượt hơn hẳn. Tưởng tượng các ông gõ một câu text và lôi ra được đúng đoạn video có cảnh đó, mà không cần phải cắm mặt viết metadata cho từng frame.
Thú thật thì đồ nhà Google đang ở mác "public preview", nên khuyên anh em đọc docs thì cứ trừ hao đi 30%. Test trên data mẫu của hãng thì lúc nào chả mượt cho đến khi các ông mang về đấm vào data rác thực tế của cty mình.
Nhưng tóm cái váy lại, xu hướng gom chung multimodal vào một model embedding nguyên bản chắc chắn là tương lai. Anh em nào đang cày cuốc làm AI Assistants, Knowledge Bases hay Search engine thì lo update giáo án dần đi. Việc bớt đi vài ba cái API tiền xử lý lẻ tẻ không chỉ tiết kiệm tiền server mà còn cứu rỗi hàng ngàn giờ debug ngu học. Đáng để thử!
Google ra mắt Gemini Embedding 2 gom text, ảnh, video, âm thanh vào chung một không gian. Pha này giúp anh em dev dẹp bỏ đống pipeline tiền xử lý cồng kềnh.