Cohere vừa thả xích model âm thanh Transcribe 2B open-weights với WER 5.42%. Cùng bóc tách xem con hàng này ngon cỡ nào hay chỉ giỏi cắn RAM anh em.

Dạo này giang hồ AI đua nhau ra mắt model âm thanh liên tục. Chắc anh em cũng mệt với ba cái văn mẫu "kẻ hủy diệt Whisper" hay "đột phá công nghệ" rồi đúng không? Nhưng khoan, nay tôi ngoi lên kể cho các ông nghe một con hàng mới từ nhà Cohere: Cohere Transcribe. Không AI-isms dài dòng, đi thẳng vào vấn đề nhé.
Cohere vừa quăng một quả bom mã nguồn mở (thực ra là open-weights) tên là Cohere Transcribe. Model này vác trên lưng 2 tỷ tham số (2B parameters), không quá bự so với mấy ông lớn nhưng đủ để vắt kiệt sức con lap của bạn nếu thiếu RAM.
Điểm ăn tiền nằm ở đâu? Tỷ lệ lỗi từ (WER) vỏn vẹn 5.42% hỗ trợ 14 ngôn ngữ. Nó được thiết kế để bào hiệu năng cực mạnh (high throughput) cho các tác vụ enterprise (doanh nghiệp). Nói chung là tốc độ dịch cực mượt, lý tưởng cho anh em ôm về chạy local hoặc nhét vào máy chủ riêng đặng giữ bí mật dữ liệu công ty không cho thiên hạ soi mói.
Dạo một vòng Product Hunt với mấy ổ Reddit, dân tình đang combat và phân tích khá xôm tụ. Có vài luồng quan điểm thế này:
Model mới ra thì ầm ĩ vậy thôi, nhưng nhìn dưới góc độ cần câu cơm thì đây là một mảnh ghép bá đạo cho hệ thống đề cao privacy. Lời khuyên cho anh em: thích mày mò tự sướng thì cứ tải về vọc.
Nếu anh em đang làm mấy cái ai tools liên quan đến speech-to-text thì nên nghía qua để benchmark. Nhưng nhớ, AI xịn đến mấy mà phần tiền xử lý (pre-processing) và hậu xử lý (post-processing) anh em code như hạch thì app vẫn bể như thường. Đi làm thợ code thì tư duy hệ thống và cách xào nấu mắm muối mới là thứ phân biệt Senior với Intern, chứ cứ bám đít vào framework với model mới thì mạt kiếp.
Nguồn tham khảo: Product Hunt - Cohere Transcribe