Kitten TTS V0.8: Model AI đọc văn bản siêu nhẹ dưới 25MB

Thời đại này cái gì cũng đòi GPU hàng khủng, cắn VRAM như cắn kẹo làm anh em "GPU-poor" chúng ta thở không ra hơi. Nhưng mới đây, KittenML vừa tung ra con Kitten TTS V0.8 khiến dân tình phải dụi mắt vì độ ảo ma: Một model Text-to-Speech (TTS) siêu nhỏ nhưng chất lượng lại thuộc hàng SOTA (State-of-the-Art).

Toàn cảnh vụ "Mèo con" quậy tung giới AI

Nói cho vuông thì Kitten TTS không phải là một con quái vật ngốn tài nguyên. Nó là một bộ ba model siêu mẫu, mình hạc xương mai nhưng giọng đọc thì cực kỳ truyền cảm. Dưới đây là những gì anh em cần biết để không bị tối cổ:

Ba kích cỡ cho mọi loại cấu hình: Bao gồm các bản 80M, 40M và đặc biệt là bản Nano 14M.
Nhẹ hều: Con Nano chỉ nặng chưa đầy 25MB. Cỡ này thì lưu trong USB từ thời Tống vẫn còn dư chỗ chán.
Bái bai GPU: Thiết kế dành riêng cho các thiết bị biên (edge devices) và máy cỏ. Nó chạy phăm phăm trên CPU, khỏi lo chuyện sập server hay cháy card đồ họa.
Giọng đọc đa dạng: Có sẵn 8 giọng (4 nam, 4 nữ) cực kỳ biểu cảm, không bị đơ đơ như mấy con robot đọc số điện thoại tổng đài ngày xưa.
Giấy thông hành Apache 2.0: Nghĩa là anh em cứ tự nhiên mà dùng, đóng gói vào sản phẩm thương mại cũng chẳng ai khóa mõm hay đòi tiền bản quyền.

So với bản V0.1 cũ thì bản V0.8 này là một cú "quay xe" về chất lượng nhờ pipeline training xịn hơn và dataset lớn gấp 10 lần.

Giang hồ Reddit đang bàn tán gì?

Dân tình trên Reddit vốn khó tính như mẹ chồng nhưng lần này cũng phải dành lời khen cho độ thực dụng của Kitten TTS. Tuy nhiên, drama nhẹ cũng bắt đầu nổ ra xung quanh cách làm việc của các pháp sư KittenML:

Cái tội "lười" làm demo: Một ông có nick Xamanthas cùng nhiều anh em khác đang réo tên dev vì tội lên Hugging Face mà không thèm up lấy một file audio nghe thử. "Cứ bắt người ta tải về mới được nghe giọng thì hơi bị khổ dâm đấy nhé", đại loại thế.
Kèo thơm cho các extension: Có thanh niên pondy12 gợi ý ngay: Làm ngay một cái extension Firefox/Chrome chạy offline để đọc báo đi. Hiện tại mấy cái extension khác đa số đều thu thập dữ liệu hoặc bắt trả phí, nếu Kitten làm cái này thì đảm bảo lên top 1 trending trong một nốt nhạc.
Hóng hớt đa ngôn ngữ: Hiện tại model mới chỉ hỗ trợ tiếng Anh. Anh em dev Việt và các nước khác đang hỏi gắt về cách train cho ngôn ngữ riêng. Cứ đà này, ngày chúng ta có một con AI đọc truyện đêm khuya bằng tiếng Việt trên cái máy tính bảng cũ rích chắc không còn xa.
Hào hứng tột độ: Nhiều ông vừa ngủ dậy thấy tin đã thốt lên "Banger!" (Quá chất) vì cuối cùng cũng thấy một thứ AI thực dụng, không cần đốt tiền vào đám mây.

Góc nhìn từ Coding4Food: Bài học về tính thực dụng

Tóm cái váy lại, vụ Kitten TTS này cho chúng ta thấy một bài học xương máu: Đôi khi "nhỏ mà có võ" mới là thứ giúp anh em kiếm cơm.

Giữa lúc thiên hạ đang mải mê chạy đua những model tỷ tham số, tốn hàng triệu đô tiền điện thì việc tối ưu một model xuống còn 25MB mà vẫn chạy ngon trên CPU là một hướng đi cực kỳ khôn ngoan. Nó mở ra cơ hội cho những indie hacker, những anh em làm app mobile hoặc nhúng (IoT) có thể tích hợp AI vào sản phẩm mà không lo về chi phí API hay độ trễ mạng.

Nhưng mà các ông ạ, làm gì thì làm, nhớ kèm theo cái demo. Đừng để user phải vác code về rồi mới biết giọng AI nó có hợp gu hay không. Thời buổi này ai cũng bận, cứ phải "mắt thấy tai nghe" thì anh em mới xuống tiền (hoặc xuống star GitHub) được.

Kitten TTS vẫn còn chặng đường dài để hoàn thiện đa ngôn ngữ, nhưng ít nhất nó đã chứng minh: AI không nhất thiết phải là một con quái vật ngốn RAM.

Nguồn: Reddit - LocalLLaMA

Toàn cảnh vụ "Mèo con" quậy tung giới AI

Ba kích cỡ cho mọi loại cấu hình: Bao gồm các bản 80M, 40M và đặc biệt là bản Nano 14M.

Nhẹ hều: Con Nano chỉ nặng chưa đầy 25MB. Cỡ này thì lưu trong USB từ thời Tống vẫn còn dư chỗ chán.

Bái bai GPU: Thiết kế dành riêng cho các thiết bị biên (edge devices) và máy cỏ. Nó chạy phăm phăm trên CPU, khỏi lo chuyện sập server hay cháy card đồ họa.

Giọng đọc đa dạng: Có sẵn 8 giọng (4 nam, 4 nữ) cực kỳ biểu cảm, không bị đơ đơ như mấy con robot đọc số điện thoại tổng đài ngày xưa.

Giấy thông hành Apache 2.0: Nghĩa là anh em cứ tự nhiên mà dùng, đóng gói vào sản phẩm thương mại cũng chẳng ai khóa mõm hay đòi tiền bản quyền.

So với bản V0.1 cũ thì bản V0.8 này là một cú "quay xe" về chất lượng nhờ pipeline training xịn hơn và dataset lớn gấp 10 lần.

Giang hồ Reddit đang bàn tán gì?

Cái tội "lười" làm demo: Một ông có nick Xamanthas cùng nhiều anh em khác đang réo tên dev vì tội lên Hugging Face mà không thèm up lấy một file audio nghe thử. "Cứ bắt người ta tải về mới được nghe giọng thì hơi bị khổ dâm đấy nhé", đại loại thế.

Kèo thơm cho các extension: Có thanh niên pondy12 gợi ý ngay: Làm ngay một cái extension Firefox/Chrome chạy offline để đọc báo đi. Hiện tại mấy cái extension khác đa số đều thu thập dữ liệu hoặc bắt trả phí, nếu Kitten làm cái này thì đảm bảo lên top 1 trending trong một nốt nhạc.

Hóng hớt đa ngôn ngữ: Hiện tại model mới chỉ hỗ trợ tiếng Anh. Anh em dev Việt và các nước khác đang hỏi gắt về cách train cho ngôn ngữ riêng. Cứ đà này, ngày chúng ta có một con AI đọc truyện đêm khuya bằng tiếng Việt trên cái máy tính bảng cũ rích chắc không còn xa.

Hào hứng tột độ: Nhiều ông vừa ngủ dậy thấy tin đã thốt lên "Banger!" (Quá chất) vì cuối cùng cũng thấy một thứ AI thực dụng, không cần đốt tiền vào đám mây.

Góc nhìn từ Coding4Food: Bài học về tính thực dụng

Tóm cái váy lại, vụ Kitten TTS này cho chúng ta thấy một bài học xương máu: Đôi khi "nhỏ mà có võ" mới là thứ giúp anh em kiếm cơm.

Kitten TTS vẫn còn chặng đường dài để hoàn thiện đa ngôn ngữ, nhưng ít nhất nó đã chứng minh: AI không nhất thiết phải là một con quái vật ngốn RAM.

Kitten TTS V0.8: Model AI đọc văn bản siêu tí hon, nhẹ hơn cả ảnh selfie của crush

Bình luận

Related posts

Inworld Drops Realtime TTS-2: Is the Deadpan Robot Voice Era Over?

xAI Uncages Grok's Text-to-Speech API: Time to Ditch ElevenLabs?

Kitten TTS V0.8: Model AI đọc văn bản siêu tí hon, nhẹ hơn cả ảnh selfie của crush

Toàn cảnh vụ "Mèo con" quậy tung giới AI

Giang hồ Reddit đang bàn tán gì?

Góc nhìn từ Coding4Food: Bài học về tính thực dụng

Bình luận

Related posts

Inworld Drops Realtime TTS-2: Is the Deadpan Robot Voice Era Over?

xAI Uncages Grok's Text-to-Speech API: Time to Ditch ElevenLabs?

Toàn cảnh vụ "Mèo con" quậy tung giới AI

Giang hồ Reddit đang bàn tán gì?

Góc nhìn từ Coding4Food: Bài học về tính thực dụng