Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
en
Trang chủChuyên mụcArcadeĐã lưu
Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
Bảo mật|Điều khoản

© 2026 Coding4Food. Viết bởi dev, cho dev.

Tất cả tin tức
AI & AutomationCông nghệ

Google nổ bom Gemini Embedding 2: Cứu rỗi pipeline cho anh em làm RAG hay lại 'lùa gà'?

11 tháng 3, 20263 phút đọc
cloud computing, network, internet, cloud computing concept, communication, networking, virtual, cloud technology, black computer, black technology, black laptop, black clouds, black network, black community, black internet, black communication, cloud computing, cloud computing, cloud computing, cloud computing, cloud computing
Nguồn gốc: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-ragNguồn gốc: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag
Nguồn gốc: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-ragNguồn gốc: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemini-embedding-2-cuu-roi-pipeline-rag
gemini embedding 2ragmultimodal aigoogle aisemantic searchai embedding
Chia sẻ bài viết:

Bình luận

Chào anh em đồng dâm dev. Dạo này loanh quanh trên mạng toàn thấy mấy con LLM sinh chữ múa mỏ, nhưng cái lõi đằng sau để làm RAG ngon nghẻ thì ít ai nhắc. Vừa rồi, Google mới ném ra quả bom mang tên "Gemini Embedding 2". Nghe chữ "embedding" có vẻ khô khan học thuật, nhưng đọc kỹ tài liệu thì quả này giải quyết đúng nỗi đau của anh em thợ code đấy.

Đỡ phải múa rườm rà - Tóm tắt nhanh hàng mới của anh Gồ

Anh em nào từng làm AI search hay RAG chắc đều hiểu cái cảnh cồng kềnh của data đa phương tiện (multimodal). Hồi trước, muốn hệ thống hiểu được đống lẩu thập cẩm, các ông phải chạy qua 7749 bước tiền xử lý: âm thanh thì phải cắm vào speech-to-text, ảnh thì phải gọi API image-captioning, video thì băm frame ra rồi tính tiếp... Tóm lại là nát bét cái pipeline, chậm, dễ bug mà còn cắn tài nguyên máy chủ kinh khủng.

Nhưng với Gemini Embedding 2, Google cho phép dập tất cả text, ảnh, video, audio và file PDF vào chung một không gian (single embedding space) - và quan trọng là nó chạy native. Nghĩa là sao? Nghĩa là ông ném thẳng cái file mp3 vào, nó tự cắn mà đ*o cần qua bước phiên mã (transcription). Ảo ma chưa?

Vài thông số phần cứng cho anh em thị dâm:

  • Xử lý một nhát lên tới 8192 token text.
  • Nhồi được 6 ảnh/request, video dài max 120 giây, và đọc lướt PDF 6 trang.
  • Hỗ trợ hơn 100 ngôn ngữ.
  • Có trò Matryoshka Representation Learning (nén dimension từ 3072 xuống 768) cho anh em nào thích tối ưu storage.

Giang cư mận và các pháp sư AI nói gì?

Lượn lờ hóng hớt trên ProductHunt, đa số các lão quái đều gật gù pha này Google đánh trúng tim đen của dev.

Một pháp sư tên Rohan (chuyên review tool) khen lấy khen để vụ dẹp bỏ sự phân mảnh. Ông này chỉ ra rằng dev AI bây giờ có thể build hệ thống RAG, phân tích sentiment hay semantic search dễ thở hơn nhiều. Thay vì phải chắp vá các model riêng lẻ lại với nhau, giờ anh em xài một cục duy nhất là xong việc.

Nhiều anh em khác thì sướng rơn vì khả năng search chéo (cross-modal) giờ mượt hơn hẳn. Tưởng tượng các ông gõ một câu text và lôi ra được đúng đoạn video có cảnh đó, mà không cần phải cắm mặt viết metadata cho từng frame.

Góc nhìn thực dụng từ Coding4Food

Thú thật thì đồ nhà Google đang ở mác "public preview", nên khuyên anh em đọc docs thì cứ trừ hao đi 30%. Test trên data mẫu của hãng thì lúc nào chả mượt cho đến khi các ông mang về đấm vào data rác thực tế của cty mình.

Nhưng tóm cái váy lại, xu hướng gom chung multimodal vào một model embedding nguyên bản chắc chắn là tương lai. Anh em nào đang cày cuốc làm AI Assistants, Knowledge Bases hay Search engine thì lo update giáo án dần đi. Việc bớt đi vài ba cái API tiền xử lý lẻ tẻ không chỉ tiết kiệm tiền server mà còn cứu rỗi hàng ngàn giờ debug ngu học. Đáng để thử!

Nguồn: Product Hunt - Gemini Embedding 2

Google ra mắt Gemini Embedding 2 gom text, ảnh, video, âm thanh vào chung một không gian. Pha này giúp anh em dev dẹp bỏ đống pipeline tiền xử lý cồng kềnh.

Chia sẻ bài viết:

Bài viết liên quan

globe, world, languages, translate, translation, interpreting, interpreter communication, worldwide, languages, languages, translate, translation, translation, translation, translation, translation
AI & AutomationCông nghệ

Google tung chiêu Gemini 3.5 Live Translate: Dev hết bài lươn lẹo 'bất đồng ngôn ngữ' khi họp với Client?

Google vừa thả xích Gemini 3.5 Live Translate dịch giọng nói thời gian thực. Liệu đây là cứu cánh cho anh em dốt ngoại ngữ hay lại là một quả bánh vẽ cắn RAM?

11 thg 64 phút đọc
Đọc tiếp →
ai generated, neural, brain, technology, network, digital, mind, data, information, neurons, biotech, nanotechnology, science, head, electronics, cybernetics, cyberspace, singularity, robot, future, computer, chip, processor, intelligence
Công nghệAI & Automation

Google thả xích Gemma 4 12B: Không thèm xài Encoder, kèo này thơm hay lại bánh vẽ?

Google vừa tung Gemma 4 12B với kiến trúc multimodal encoder-free. Giang cư mận HN đang rần rần. Liệu có đủ tuổi đọ lại Llama hay chỉ là content lùa gà?

4 thg 64 phút đọc
Đọc tiếp →
microphone, vintage, cromatic, mic, voice, sound, music, microphone, microphone, microphone, microphone, microphone, mic, music
AI & AutomationCông nghệ

Bluedot 2.1: Khi Apple Watch Thành 'Máy Cài Cắm' Của Pháp Sư Claude AI

Bluedot 2.1 biến Apple Watch thành máy ghi âm tự động đồng bộ lên Claude qua MCP. Đỡ phải gõ phím, nhưng vụ privacy thì giang cư mận đang combat nảy lửa.

28 thg 54 phút đọc
Đọc tiếp →
camera, video, tv, video making, cinematography, television, movie camera, target, cinema, video camera, audiovisual, video, video, video, video, video, video camera, video camera
AI & AutomationCông nghệ

Gemini Omni Trình Làng: 'Pháp Sư' Dựng Video Mới Của Google Hay Lại Lùa Gà?

Google vừa thả xích Gemini Omni với lời hứa hẹn kết hợp tư duy logic và tạo video mượt mà. Đẳng cấp mới của GenAI hay chỉ là bánh vẽ? Cùng anh em dev mổ xẻ.

21 thg 54 phút đọc
Đọc tiếp →
lightning, eve, nature, night, clouds, lighting mood, thunderstorm
Công nghệAI & Automation

Google trình làng Gemini 3.5 Flash: Phép thuật 'lùa gà' hay chân ái cho dev nghèo?

Google vừa thả xích Gemini 3.5 Flash với lời hứa hẹn nhanh - rẻ - mượt. Cùng bóc phốt xem con hàng này có thực sự bá đạo hay chỉ là chiêu trò buff version.

20 thg 53 phút đọc
Đọc tiếp →
pixel art, pixel, retro, classic, video game, store, shop, market, robot, sci-fi, fastfood, pixel art shop, pixel art store, pixel art, pixel art, pixel art, pixel art, pixel art, pixel, pixel, pixel, video game, video game, video game, store, shop, robot, robot
AI & AutomationCông nghệ

Gemini 3.1 Flash-Lite: Nước cờ "bán máu" của Google và cái kết rẻ bèo cho anh em dev

Google vừa thả xích Gemini 3.1 Flash-Lite. Cắt giảm 60% chi phí, p95 dưới 1s. Liệu thế giới AI có đang chia phe 'suy nghĩ' và 'làm cu li'?

17 thg 54 phút đọc
Đọc tiếp →