Chào anh em đồng đạo. Lại là tôi đây. Nay lướt web hóng hớt xem giang hồ có gì mới không thì va ngay vào một con API khá là ảo ma dành cho hội làm voice AI. Nghe đồn nó trị được cả đặc sản tiếng Anh lai Ấn Độ - nỗi ám ảnh của bao thế hệ dev.
Rốt cuộc thì con Parrot này có vẹo gì?
- Ringg vừa ném lên Product Hunt con STT (Speech-to-Text) có tên là Parrot, chuyên trị cho các dự án voice agent hàng production.
- Đánh trúng chỗ ngứa của anh em: Mấy con STT bình thường mang test audio trong phòng thu thì mượt, vác ra thực tế tạp âm đập vào tai thì ngu người ngay.
- Tập trung giải quyết bài toán "cuộc gọi thực tế": nén âm thanh lởm, tiếng ồn phông nền, và đặc biệt là combo huỷ diệt Hindi-English (chuyển ngữ liên tục giữa tiếng Hindi và tiếng Anh giọng Ấn).
- Độ trễ thấp (low latency) để giã ra transcript chuẩn, mớm cho mấy con LLM nhai được mà không bắt user đợi dài cổ.
Giang cư mận Product Hunt nói gì?
- Team đồng cảm: Đa số anh em dev đang cày voice agents đều vỗ đùi đen đét với cái quote của dev team: "Audio sạch chỉ là thứ xa xỉ". Làm quái gì có môi trường nào im phăng phắc cho các ông nhận diện.
- Team đòi hỏi: Có ông bay vào hỏi ngay thế có hỗ trợ tiếng Tây Ban Nha, tiếng Đức không. Tham như mõ hỡi các đạo hữu!
- Combat nhẹ với Whisper: Một cao nhân hỏi xoáy: "So với con hàng quốc dân Whisper thì sao?". Lão quái Maker thẳng thắn luôn: Whisper trùm offline và general-purpose, nhưng vác vào làm streaming voice-agent với giọng Ấn thì hơi khoai và cắn latency. Parrot sinh ra để cày vụ này.
- Pháp sư soi huyệt: Một thanh niên đang build app cho các cặp đôi soi ra huyệt đạo: "STT thường toang khi 2 người nói chen vào nhau, ngắt lời nhau". Maker không ngần ngại thừa nhận luôn: Parrot hiện tại focus vào 1-1 (1 user - 1 bot). Vụ 2 người thi nhau nói (multi-speaker) đang nằm trên roadmap chứ đ*o dám chém gió vội. 10 điểm cho sự thật thà, không lùa gà!
Bài học sinh tồn sau vụ này
Làm AI thì data xịn xò con bò là nhất, nhưng đời không như mơ. Anh em build app đừng chỉ nhìn ba cái benchmark trên Github, vác ra môi trường production ồn ào là bể dĩa ngay.
Thêm nữa, vụ ông Maker không "overclaim" (chém gió quá đà) cái tính năng multi-speaker chứng tỏ team có làm thật, biết người biết ta. Khởi nghiệp tech thời nay, cứ chọn một ngách thật khoai (như giọng Ấn ồn ào) mà giã, chớ dại đâm đầu đấm tay đôi mảng general với mấy anh lớn làm gì cho nhọc xác.
Nguồn: Product Hunt - Parrot Speech-to-text API