Coding4Food LogoCoding4Food
Trang chủChuyên mụcĐã lưu
en
Coding4Food LogoCoding4Food
Trang chủChuyên mụcĐã lưu
Bảo mật|Điều khoản

© 2026 Coding4Food. Viết bởi dev, cho dev.

Tất cả tin tức
AI & AutomationCông nghệ

Google nổ bom Gemini Embedding 2: Cứu rỗi pipeline cho anh em làm RAG hay lại 'lùa gà'?

11 tháng 3, 20263 phút đọc
cloud computing, network, internet, cloud computing concept, communication, networking, virtual, cloud technology, black computer, black technology, black laptop, black clouds, black network, black community, black internet, black communication, cloud computing, cloud computing, cloud computing, cloud computing, cloud computing
Nguồn gốc: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-ragNguồn gốc: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag
Nguồn gốc: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-ragNguồn gốc: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag
gemini embedding 2ragmultimodal aigoogle aisemantic searchai embedding
Chia sẻ bài viết:

Bình luận

Chào anh em đồng dâm dev. Dạo này loanh quanh trên mạng toàn thấy mấy con LLM sinh chữ múa mỏ, nhưng cái lõi đằng sau để làm RAG ngon nghẻ thì ít ai nhắc. Vừa rồi, Google mới ném ra quả bom mang tên "Gemini Embedding 2". Nghe chữ "embedding" có vẻ khô khan học thuật, nhưng đọc kỹ tài liệu thì quả này giải quyết đúng nỗi đau của anh em thợ code đấy.

Đỡ phải múa rườm rà - Tóm tắt nhanh hàng mới của anh Gồ

Anh em nào từng làm AI search hay RAG chắc đều hiểu cái cảnh cồng kềnh của data đa phương tiện (multimodal). Hồi trước, muốn hệ thống hiểu được đống lẩu thập cẩm, các ông phải chạy qua 7749 bước tiền xử lý: âm thanh thì phải cắm vào speech-to-text, ảnh thì phải gọi API image-captioning, video thì băm frame ra rồi tính tiếp... Tóm lại là nát bét cái pipeline, chậm, dễ bug mà còn cắn tài nguyên máy chủ kinh khủng.

Nhưng với Gemini Embedding 2, Google cho phép dập tất cả text, ảnh, video, audio và file PDF vào chung một không gian (single embedding space) - và quan trọng là nó chạy native. Nghĩa là sao? Nghĩa là ông ném thẳng cái file mp3 vào, nó tự cắn mà đ*o cần qua bước phiên mã (transcription). Ảo ma chưa?

Vài thông số phần cứng cho anh em thị dâm:

  • Xử lý một nhát lên tới 8192 token text.
  • Nhồi được 6 ảnh/request, video dài max 120 giây, và đọc lướt PDF 6 trang.
  • Hỗ trợ hơn 100 ngôn ngữ.
  • Có trò Matryoshka Representation Learning (nén dimension từ 3072 xuống 768) cho anh em nào thích tối ưu storage.

Giang cư mận và các pháp sư AI nói gì?

Lượn lờ hóng hớt trên ProductHunt, đa số các lão quái đều gật gù pha này Google đánh trúng tim đen của dev.

Một pháp sư tên Rohan (chuyên review tool) khen lấy khen để vụ dẹp bỏ sự phân mảnh. Ông này chỉ ra rằng dev AI bây giờ có thể build hệ thống RAG, phân tích sentiment hay semantic search dễ thở hơn nhiều. Thay vì phải chắp vá các model riêng lẻ lại với nhau, giờ anh em xài một cục duy nhất là xong việc.

Nhiều anh em khác thì sướng rơn vì khả năng search chéo (cross-modal) giờ mượt hơn hẳn. Tưởng tượng các ông gõ một câu text và lôi ra được đúng đoạn video có cảnh đó, mà không cần phải cắm mặt viết metadata cho từng frame.

Góc nhìn thực dụng từ Coding4Food

Thú thật thì đồ nhà Google đang ở mác "public preview", nên khuyên anh em đọc docs thì cứ trừ hao đi 30%. Test trên data mẫu của hãng thì lúc nào chả mượt cho đến khi các ông mang về đấm vào data rác thực tế của cty mình.

Nhưng tóm cái váy lại, xu hướng gom chung multimodal vào một model embedding nguyên bản chắc chắn là tương lai. Anh em nào đang cày cuốc làm AI Assistants, Knowledge Bases hay Search engine thì lo update giáo án dần đi. Việc bớt đi vài ba cái API tiền xử lý lẻ tẻ không chỉ tiết kiệm tiền server mà còn cứu rỗi hàng ngàn giờ debug ngu học. Đáng để thử!

Nguồn: Product Hunt - Gemini Embedding 2

Google ra mắt Gemini Embedding 2 gom text, ảnh, video, âm thanh vào chung một không gian. Pha này giúp anh em dev dẹp bỏ đống pipeline tiền xử lý cồng kềnh.

Chia sẻ bài viết:

Bài viết liên quan

ai generated, systems analyst, consultant, advisor, it-specialist, server, space, server room, hardware, computer, data, to process, server cabinets, information, technology, server, server, server, server, server, server room, server room, server room, server room
Công nghệAI & Automation

Google tung Gemini 3.1 Pro: Úp sọt trong đêm, giá sinh viên nhưng anh em dev chê mạnh khoản 'cầm tool'

Google vừa thả xích Gemini 3.1 Pro với giá giữ nguyên. Thông số ảo ma nhưng liệu có 'thơm' như lời đồn hay chỉ là cú lừa bình mới rượu cũ? Cùng C4F mổ xẻ.

20 thg 24 phút đọc
Đọc tiếp →