Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
en
Trang chủChuyên mụcArcadeĐã lưu
Coding4Food LogoCoding4Food
Trang chủChuyên mụcArcadeĐã lưu
Bảo mật|Điều khoản

© 2026 Coding4Food. Viết bởi dev, cho dev.

Tất cả tin tức
AI & AutomationCông nghệ

Kitten TTS V0.8: Model AI đọc văn bản siêu tí hon, nhẹ hơn cả ảnh selfie của crush

20 tháng 2, 20264 phút đọc

Kitten TTS V0.8 vừa ra mắt, nặng chưa đến 25MB mà cân đẹp cả CPU. Giải pháp cứu cánh cho anh em nhà nghèo không có GPU xịn nhưng vẫn muốn chơi AI.

Chia sẻ bài viết:
AI speech to text
Nguồn gốc: https://coding4food.com/post/kitten-tts-v0-8-model-ai-doc-van-ban-sieu-nhe. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/kitten-tts-v0-8-model-ai-doc-van-ban-sieu-nhe. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/kitten-tts-v0-8-model-ai-doc-van-ban-sieu-nheNguồn gốc: https://coding4food.com/post/kitten-tts-v0-8-model-ai-doc-van-ban-sieu-nhe. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/kitten-tts-v0-8-model-ai-doc-van-ban-sieu-nhe. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/kitten-tts-v0-8-model-ai-doc-van-ban-sieu-nhe
Nguồn gốc: https://coding4food.com/post/kitten-tts-v0-8-model-ai-doc-van-ban-sieu-nhe. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/kitten-tts-v0-8-model-ai-doc-van-ban-sieu-nhe. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/kitten-tts-v0-8-model-ai-doc-van-ban-sieu-nheNguồn gốc: https://coding4food.com/post/kitten-tts-v0-8-model-ai-doc-van-ban-sieu-nhe. Nội dung thuộc bản quyền Coding4Food. Original source: https://coding4food.com/post/kitten-tts-v0-8-model-ai-doc-van-ban-sieu-nhe. Content is property of Coding4Food. This content was scraped without permission from https://coding4food.com/post/kitten-tts-v0-8-model-ai-doc-van-ban-sieu-nhe
kitten ttstext to speechai siêu nhẹkittenmloffline ttsapache 2.0gpu-poormodel ai 25mb
Chia sẻ bài viết:

Bình luận

Thời đại này cái gì cũng đòi GPU hàng khủng, cắn VRAM như cắn kẹo làm anh em "GPU-poor" chúng ta thở không ra hơi. Nhưng mới đây, KittenML vừa tung ra con Kitten TTS V0.8 khiến dân tình phải dụi mắt vì độ ảo ma: Một model Text-to-Speech (TTS) siêu nhỏ nhưng chất lượng lại thuộc hàng SOTA (State-of-the-Art).

Toàn cảnh vụ "Mèo con" quậy tung giới AI

Nói cho vuông thì Kitten TTS không phải là một con quái vật ngốn tài nguyên. Nó là một bộ ba model siêu mẫu, mình hạc xương mai nhưng giọng đọc thì cực kỳ truyền cảm. Dưới đây là những gì anh em cần biết để không bị tối cổ:

  • Ba kích cỡ cho mọi loại cấu hình: Bao gồm các bản 80M, 40M và đặc biệt là bản Nano 14M.
  • Nhẹ hều: Con Nano chỉ nặng chưa đầy 25MB. Cỡ này thì lưu trong USB từ thời Tống vẫn còn dư chỗ chán.
  • Bái bai GPU: Thiết kế dành riêng cho các thiết bị biên (edge devices) và máy cỏ. Nó chạy phăm phăm trên CPU, khỏi lo chuyện sập server hay cháy card đồ họa.
  • Giọng đọc đa dạng: Có sẵn 8 giọng (4 nam, 4 nữ) cực kỳ biểu cảm, không bị đơ đơ như mấy con robot đọc số điện thoại tổng đài ngày xưa.
  • Giấy thông hành Apache 2.0: Nghĩa là anh em cứ tự nhiên mà dùng, đóng gói vào sản phẩm thương mại cũng chẳng ai khóa mõm hay đòi tiền bản quyền.

So với bản V0.1 cũ thì bản V0.8 này là một cú "quay xe" về chất lượng nhờ pipeline training xịn hơn và dataset lớn gấp 10 lần.

Giang hồ Reddit đang bàn tán gì?

Dân tình trên Reddit vốn khó tính như mẹ chồng nhưng lần này cũng phải dành lời khen cho độ thực dụng của Kitten TTS. Tuy nhiên, drama nhẹ cũng bắt đầu nổ ra xung quanh cách làm việc của các pháp sư KittenML:

  • Cái tội "lười" làm demo: Một ông có nick Xamanthas cùng nhiều anh em khác đang réo tên dev vì tội lên Hugging Face mà không thèm up lấy một file audio nghe thử. "Cứ bắt người ta tải về mới được nghe giọng thì hơi bị khổ dâm đấy nhé", đại loại thế.
  • Kèo thơm cho các extension: Có thanh niên pondy12 gợi ý ngay: Làm ngay một cái extension Firefox/Chrome chạy offline để đọc báo đi. Hiện tại mấy cái extension khác đa số đều thu thập dữ liệu hoặc bắt trả phí, nếu Kitten làm cái này thì đảm bảo lên top 1 trending trong một nốt nhạc.
  • Hóng hớt đa ngôn ngữ: Hiện tại model mới chỉ hỗ trợ tiếng Anh. Anh em dev Việt và các nước khác đang hỏi gắt về cách train cho ngôn ngữ riêng. Cứ đà này, ngày chúng ta có một con AI đọc truyện đêm khuya bằng tiếng Việt trên cái máy tính bảng cũ rích chắc không còn xa.
  • Hào hứng tột độ: Nhiều ông vừa ngủ dậy thấy tin đã thốt lên "Banger!" (Quá chất) vì cuối cùng cũng thấy một thứ AI thực dụng, không cần đốt tiền vào đám mây.

Góc nhìn từ Coding4Food: Bài học về tính thực dụng

Tóm cái váy lại, vụ Kitten TTS này cho chúng ta thấy một bài học xương máu: Đôi khi "nhỏ mà có võ" mới là thứ giúp anh em kiếm cơm.

Giữa lúc thiên hạ đang mải mê chạy đua những model tỷ tham số, tốn hàng triệu đô tiền điện thì việc tối ưu một model xuống còn 25MB mà vẫn chạy ngon trên CPU là một hướng đi cực kỳ khôn ngoan. Nó mở ra cơ hội cho những indie hacker, những anh em làm app mobile hoặc nhúng (IoT) có thể tích hợp AI vào sản phẩm mà không lo về chi phí API hay độ trễ mạng.

Nhưng mà các ông ạ, làm gì thì làm, nhớ kèm theo cái demo. Đừng để user phải vác code về rồi mới biết giọng AI nó có hợp gu hay không. Thời buổi này ai cũng bận, cứ phải "mắt thấy tai nghe" thì anh em mới xuống tiền (hoặc xuống star GitHub) được.

Kitten TTS vẫn còn chặng đường dài để hoàn thiện đa ngôn ngữ, nhưng ít nhất nó đã chứng minh: AI không nhất thiết phải là một con quái vật ngốn RAM.

Nguồn: Reddit - LocalLLaMA

Bài viết liên quan

vietnamese, spokesperson, portrait, model, fashion, woman, asian, female, interview, speech, politician, person, conference, politics, press, news, media, microphone, ai generated
Công nghệAI & Automation

xAI Thả Xích API Grok Text-to-Speech: Lại Thêm Một Cú Vả Vào Thị Trường Giọng Nói AI?

Grok Text-to-Speech API vừa chính thức lên sóng. Liệu con bài mới của nhà xAI có đủ trình làm anh em dev quay xe từ ElevenLabs hay OpenAI sang không?

18 thg 33 phút đọc
Đọc tiếp →