Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
en
Trang chủChuyên mụcArcadeĐã lưu
Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
Bảo mật|Điều khoản

© 2026 Coding4Food. Viết bởi dev, cho dev.

Tất cả tin tức
AI & AutomationCông nghệ

Google Gemini 3.1 Flash TTS: Đạo diễn giọng nói bằng chữ, ElevenLabs tới công chuyện?

17 tháng 4, 20263 phút đọc

Google vừa tung Gemini 3.1 Flash TTS với trò nhúng thẳng audio tags vào text. Có đủ tuổi đấm ElevenLabs hay chỉ là bánh vẽ? Cùng C4F mổ xẻ nhé anh em.

Chia sẻ bài viết:
audio, concert, mic, microphone, music, performance, show, sing, singer, singing, sound, stage, vocal, yellow, concert, mic, microphone, microphone, microphone, microphone, microphone, music, music, music, music, singer, singer, singing, singing, stage, stage, stage, stage
Nguồn gốc: https://coding4food.com/post/google-gemini-3-1-flash-tts-dao-dien-giong-noi-bang-chu. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemini-3-1-flash-tts-dao-dien-giong-noi-bang-chu. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemini-3-1-flash-tts-dao-dien-giong-noi-bang-chuNguồn gốc: https://coding4food.com/post/google-gemini-3-1-flash-tts-dao-dien-giong-noi-bang-chu. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemini-3-1-flash-tts-dao-dien-giong-noi-bang-chu. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemini-3-1-flash-tts-dao-dien-giong-noi-bang-chu
Nguồn gốc: https://coding4food.com/post/google-gemini-3-1-flash-tts-dao-dien-giong-noi-bang-chu. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemini-3-1-flash-tts-dao-dien-giong-noi-bang-chu. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemini-3-1-flash-tts-dao-dien-giong-noi-bang-chuNguồn gốc: https://coding4food.com/post/google-gemini-3-1-flash-tts-dao-dien-giong-noi-bang-chu. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/google-gemini-3-1-flash-tts-dao-dien-giong-noi-bang-chu. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/google-gemini-3-1-flash-tts-dao-dien-giong-noi-bang-chu
google gemini 3.1 flash ttstext-to-speech apivertex aiai voiceinline audio tags
Chia sẻ bài viết:

Bình luận

Bài viết liên quan

ai generated, robot, microphone, future, science fiction, technology, robotics, music, studio, singing
AI & AutomationCông nghệ

Cekura: Khi AI Voice Lên Production Cãi Khách Như Chém Chả Và Giải Pháp Cứu Cánh

Anh em làm AI Agent hay gặp cảnh trên dev thì mượt, lên production bot lại cãi khách nhem nhẻm. Xem ngay cách Cekura 'khóa mõm' mấy con bot ngáo ngơ này.

24 thg 35 phút đọc
Đọc tiếp →
vietnamese, spokesperson, portrait, model, fashion, woman, asian, female, interview, speech, politician, person, conference, politics, press, news, media, microphone, ai generated
Công nghệAI & Automation

xAI Thả Xích API Grok Text-to-Speech: Lại Thêm Một Cú Vả Vào Thị Trường Giọng Nói AI?

Grok Text-to-Speech API vừa chính thức lên sóng. Liệu con bài mới của nhà xAI có đủ trình làm anh em dev quay xe từ ElevenLabs hay OpenAI sang không?

18 thg 33 phút đọc
Đọc tiếp →
podcast, microphone, audio, music, concept, sound, waves, media, podcast, podcast, podcast, podcast, podcast
AI & AutomationCông nghệ

Đừng tin vào lỗ tai mình nữa: Fish Audio S2 ra mắt, clone giọng người yêu cũ chỉ trong 10s

Fish Audio S2 chính thức lên sóng, vả mặt mấy pháp sư lùa gà bằng hàng Open Source xịn xò. Đưa prompt kiểu [thở dài], [cười khẩy] vào AI voice chưa bao giờ mượt thế.

11 thg 34 phút đọc
Đọc tiếp →

Chào anh em đồng đạo. Bao năm qua chơi hệ Text-to-Speech (TTS) chắc hẳn các ông cũng ngán tận cổ mấy cái giọng đọc vô hồn như robot đọc kinh rồi nhỉ? Muốn nó nhấn nhá tí thì code lòi trĩ, không thì đành chấp nhận cái giọng nghe như hụt hơi. Nhưng nay pháp sư Google vừa ném ra quả Gemini 3.1 Flash TTS, hứa hẹn sẽ đấm vỡ mồm mấy cái limit cũ, để xem có ngon như lời đồn không.

Tóm tắt nhanh quả đồ chơi mới của pháp sư Google

Cơ bản thì Google vừa tung ra con model Gemini 3.1 Flash TTS dưới dạng preview qua Gemini API và Vertex AI. Điểm ăn tiền lớn nhất đ*o phải là giọng mượt hơn, mà là cái trò "Inline audio tags" (chèn tag âm thanh trực tiếp vào chữ).

Thay vì gọi API, chọn 1 cái giọng, set speed xong ngồi chắp tay cầu nguyện nó đọc có hồn, thì giờ các ông được làm đạo diễn ngay trong chuỗi text. Đang đọc bình thường, chèn tag bắt nó thì thầm, hoảng hốt, hay chuyển giọng thằng khác ngay giữa câu mà đ*o cần ngắt hay gọi API mới.

Chưa hết, nó hỗ trợ native multi-speaker (kiểu 2-3 nhân vật đối thoại trong 1 request), cân 70+ ngôn ngữ có kèm theo accent địa phương, và cho phép export config xài lại cho mượt. Lại còn gài sẵn SynthID để đóng dấu bản quyền chống mấy pháp sư xài AI lùa gà. Dành cho mấy team làm Talking Avatar AI, lồng tiếng, hoặc build chatbot thì đúng là gãi đúng chỗ ngứa.

Giang cư mận đang chém gió gì?

Dạo một vòng Product Hunt với hơn 130 upvotes, giang hồ cũng rôm rả phết, chia ra mấy luồng ý kiến thế này:

  • Team hưng phấn: Một dev nhận định cái vụ inline tags này cứu rỗi mấy cái web app tương tác. Trước đây muốn bot hỏi giọng khác, confirm câu trả lời giọng khác thì phải cắn RAM viết 2-3 prompt riêng, hoặc xài trò ma giáo post-processing. Giờ gom 1 cục, khỏe re, mở ra không gian thiết kế UI/UX mới bằng giọng nói.
  • Team soi mói: Có ông lại đang tò mò: Chơi tiếng Anh thì ngon rồi, nhưng mấy cái accent khó nhằn như tiếng Hindi ở Ấn Độ thì model này có xử lý mượt không, hay lại thành cái giọng lai tạp?
  • Team thực dụng: Câu hỏi chí mạng nhất được ném ra: "Latency realtime thế nào cho mấy app live chat? Có benchmark nào so với ElevenLabs chưa?". Khúc này thì dân tình vẫn đang hóng, vì mượt mà delay 3 giây thì cũng vứt.

Góc nhìn từ vãn bối C4F

Nói thẳng ra, Google tung con bài này là nhắm thẳng vào miếng bánh của ElevenLabs. Cái trò nhúng thẳng tag vào text này thật ra không phải là phép màu chưa từng có, nhưng tích hợp mượt vào hệ sinh thái Gemini/Vertex AI thì dev tụi mình là người hưởng lợi nhất. Đỡ phải maintain mấy cái pipeline ghép nối lằng nhằng.

Bài học sinh tồn cho anh em sau vụ này: Đừng bao giờ dính chết vào một provider. Cứ code hệ thống sao cho decoupling, dễ swap API nhất có thể. Nay Google ra hàng ngon thì xài, mai ElevenLabs giảm giá thì mình lại "quay xe". Thôi, tôi đi cào thử API test xem nó đọc tiếng Việt có bị lẹo lưỡi không đây. Chào thân ái và quyết thắng!

Nguồn tham khảo:

  • Product Hunt: Google Gemini 3.1 Flash TTS