This article is not yet available in English. Showing the Vietnamese version.
Kitten TTS V0.8 vừa ra mắt, nặng chưa đến 25MB mà cân đẹp cả CPU. Giải pháp cứu cánh cho anh em nhà nghèo không có GPU xịn nhưng vẫn muốn chơi AI.

Thời đại này cái gì cũng đòi GPU hàng khủng, cắn VRAM như cắn kẹo làm anh em "GPU-poor" chúng ta thở không ra hơi. Nhưng mới đây, KittenML vừa tung ra con Kitten TTS V0.8 khiến dân tình phải dụi mắt vì độ ảo ma: Một model Text-to-Speech (TTS) siêu nhỏ nhưng chất lượng lại thuộc hàng SOTA (State-of-the-Art).
Nói cho vuông thì Kitten TTS không phải là một con quái vật ngốn tài nguyên. Nó là một bộ ba model siêu mẫu, mình hạc xương mai nhưng giọng đọc thì cực kỳ truyền cảm. Dưới đây là những gì anh em cần biết để không bị tối cổ:
So với bản V0.1 cũ thì bản V0.8 này là một cú "quay xe" về chất lượng nhờ pipeline training xịn hơn và dataset lớn gấp 10 lần.
Dân tình trên Reddit vốn khó tính như mẹ chồng nhưng lần này cũng phải dành lời khen cho độ thực dụng của Kitten TTS. Tuy nhiên, drama nhẹ cũng bắt đầu nổ ra xung quanh cách làm việc của các pháp sư KittenML:
Tóm cái váy lại, vụ Kitten TTS này cho chúng ta thấy một bài học xương máu: Đôi khi "nhỏ mà có võ" mới là thứ giúp anh em kiếm cơm.
Giữa lúc thiên hạ đang mải mê chạy đua những model tỷ tham số, tốn hàng triệu đô tiền điện thì việc tối ưu một model xuống còn 25MB mà vẫn chạy ngon trên CPU là một hướng đi cực kỳ khôn ngoan. Nó mở ra cơ hội cho những indie hacker, những anh em làm app mobile hoặc nhúng (IoT) có thể tích hợp AI vào sản phẩm mà không lo về chi phí API hay độ trễ mạng.
Nhưng mà các ông ạ, làm gì thì làm, nhớ kèm theo cái demo. Đừng để user phải vác code về rồi mới biết giọng AI nó có hợp gu hay không. Thời buổi này ai cũng bận, cứ phải "mắt thấy tai nghe" thì anh em mới xuống tiền (hoặc xuống star GitHub) được.
Kitten TTS vẫn còn chặng đường dài để hoàn thiện đa ngôn ngữ, nhưng ít nhất nó đã chứng minh: AI không nhất thiết phải là một con quái vật ngốn RAM.
Nguồn: Reddit - LocalLLaMA