Inworld vừa thả xích TTS 2.0 trên Product Hunt. Đập đi xây lại từ bản top 1, con AI này hứa hẹn giao tiếp mượt như người thật, hiểu context đỉnh cao. Anh em dev hóng ngay!

Voice AI dạo này nhan nhản, nhưng thú thật đi, 99% nghe sặc mùi máy móc đọc kịch bản vô hồn. Đang chat mà nghe cái giọng MC kể chuyện đêm khuya là thấy nổi da gà rồi. Nhưng có biến mới đây anh em, Inworld vừa ném quả bom Realtime TTS-2 lên Product Hunt, hứa hẹn sẽ đấm bay cái sự "giả trân" đó.
Đạo hữu nào từng xài bản TTS 1.5 của Inworld chắc cũng biết nó đang top 1 trên bảng phong thần Artificial Analysis. Đang yên đang lành, team dev quyết định... đập đi xây lại toàn bộ. Lý do? Vì AI cũ được train để đọc sách, chứ đ*o phải để nói chuyện.
Để giải bài toán giao tiếp thời gian thực, bọn họ nhét vào bản 2.0 mấy món đồ chơi xịn xò con bò sau:
Trên Product Hunt, anh em chém gió khá xôm tụ. Có vài luồng ý kiến nổi bần bật:
Nói thật, vụ này có một bài học xương máu cho anh em dev chúng ta: Đừng cố đấm ăn xôi tối ưu cái cũ nếu core architecture đã lệch tệp ngay từ đầu.
Inworld đang chễm chệ top 1 với bản 1.5, nhưng họ thừa biết nền tảng đó chỉ để "đọc" chứ không phải để "giao tiếp". Thay vì vá víu hotfix, họ đập đi làm lại. Dũng cảm đấy, và rủi ro cũng cao.
Ngoài ra, xu hướng các ai tools bây giờ không chỉ dừng lại ở việc gen ra đoạn text hay cục audio nữa, mà là Context-Awareness (Hiểu ngữ cảnh). Anh em nào đang cày cuốc mấy cái app companion, chatbot CSKH thì lo mà update cái vụ giữ context cho bot đi, đừng để user chat với bot mà tưởng đang nói chuyện với người đa nhân cách nữa. Toang đấy!
Nguồn hóng hớt: Product Hunt - Inworld AI