Google vừa tung Gemini 3.1 Flash TTS với trò nhúng thẳng audio tags vào text. Có đủ tuổi đấm ElevenLabs hay chỉ là bánh vẽ? Cùng C4F mổ xẻ nhé anh em.

Chào anh em đồng đạo. Bao năm qua chơi hệ Text-to-Speech (TTS) chắc hẳn các ông cũng ngán tận cổ mấy cái giọng đọc vô hồn như robot đọc kinh rồi nhỉ? Muốn nó nhấn nhá tí thì code lòi trĩ, không thì đành chấp nhận cái giọng nghe như hụt hơi. Nhưng nay pháp sư Google vừa ném ra quả Gemini 3.1 Flash TTS, hứa hẹn sẽ đấm vỡ mồm mấy cái limit cũ, để xem có ngon như lời đồn không.
Cơ bản thì Google vừa tung ra con model Gemini 3.1 Flash TTS dưới dạng preview qua Gemini API và Vertex AI. Điểm ăn tiền lớn nhất đ*o phải là giọng mượt hơn, mà là cái trò "Inline audio tags" (chèn tag âm thanh trực tiếp vào chữ).
Thay vì gọi API, chọn 1 cái giọng, set speed xong ngồi chắp tay cầu nguyện nó đọc có hồn, thì giờ các ông được làm đạo diễn ngay trong chuỗi text. Đang đọc bình thường, chèn tag bắt nó thì thầm, hoảng hốt, hay chuyển giọng thằng khác ngay giữa câu mà đ*o cần ngắt hay gọi API mới.
Chưa hết, nó hỗ trợ native multi-speaker (kiểu 2-3 nhân vật đối thoại trong 1 request), cân 70+ ngôn ngữ có kèm theo accent địa phương, và cho phép export config xài lại cho mượt. Lại còn gài sẵn SynthID để đóng dấu bản quyền chống mấy pháp sư xài AI lùa gà. Dành cho mấy team làm Talking Avatar AI, lồng tiếng, hoặc build chatbot thì đúng là gãi đúng chỗ ngứa.
Dạo một vòng Product Hunt với hơn 130 upvotes, giang hồ cũng rôm rả phết, chia ra mấy luồng ý kiến thế này:
Nói thẳng ra, Google tung con bài này là nhắm thẳng vào miếng bánh của ElevenLabs. Cái trò nhúng thẳng tag vào text này thật ra không phải là phép màu chưa từng có, nhưng tích hợp mượt vào hệ sinh thái Gemini/Vertex AI thì dev tụi mình là người hưởng lợi nhất. Đỡ phải maintain mấy cái pipeline ghép nối lằng nhằng.
Bài học sinh tồn cho anh em sau vụ này: Đừng bao giờ dính chết vào một provider. Cứ code hệ thống sao cho decoupling, dễ swap API nhất có thể. Nay Google ra hàng ngon thì xài, mai ElevenLabs giảm giá thì mình lại "quay xe". Thôi, tôi đi cào thử API test xem nó đọc tiếng Việt có bị lẹo lưỡi không đây. Chào thân ái và quyết thắng!
Nguồn tham khảo: