Avaturn vừa ném quả bom AVTR-1 vào cộng đồng dev: Model AI Avatar tạo hình nguyên mặt real-time, nghe hiểu thái độ, chạy mượt trên RTX 4060, lại còn free!

Lại một ngày nữa mở máy lên và thấy AI sắp giật bát cơm của anh em mình, nhưng lần này là bát cơm của mấy idol "mỏ hỗn" trên mạng. Vừa qua, Product Hunt được phen xôn xao khi Avaturn tung ra AVTR-1 – một model Talking Avatar AI hứa hẹn cho mấy con hàng như HeyGen hay Tavus ra chuồng gà chơi.
Nói ngắn gọn, lão Sergei Sherman (CEO của Avaturn) vừa vứt lên bàn một con model real-time AI avatar với license open-weights. Anh em có thể xách về nghịch, tùy chỉnh, đem đi khè sếp với giá 0 đồng (miễn là công ty anh em chưa kiếm quá 10 củ đô/năm, mà tới tầm đó thì mua license cmn đi cho sang).
Điểm ăn tiền của con hàng này:
Như mọi khi, có hàng ngon là dân tình bu vào mổ xẻ. Dạo quanh mấy cái comments thì thấy anh em chia làm mấy luồng chính thế này:
Phe trầm trồ vì đôi mắt hết "vô hồn": Pháp sư Chris Messina (tên quen vl) khen lấy khen để vụ active listening kết hợp với empathetic response. Lão bẩu bình thường anh em gào lên với mấy con bot là "Nhà tao cháy rồi!", nó vẫn cứ mở to mắt, nháy nháy mồm cười "Ồ, thật là một tin thú vị". Nhưng với con AVTR-1 này, thái độ của nó đổi theo context lời nói. Cảm giác như nói chuyện với người thật, cực kỳ tiềm năng để build mấy cái AI sale hoặc onboarding flow.
Phe săm soi thông số (QA trá hình): Có một lão quái tên Adin nhảy vào khịa ngay cái vụ "9x faster". Bẩu là: "Ủa anh trai, sub-300ms cách đây 2 năm thì là ảo ma canada, chứ giờ nó là tiêu chuẩn tối thiểu rồi. Tính end-to-end thì rốt cuộc là bao nhiêu?". Sergei cũng không phải dạng vừa, nhảy vào đỡ đòn ngay: Model gen chỉ mất 80-90ms thôi mấy má! Cái 300ms kia là độ trễ pipeline do phải buffer audio trước khi mấp máy môi. Còn end-to-end thật thì phụ thuộc vào mạng mẽo, anh em thuê máy chủ lởm ping cao thì ráng chịu chứ AI gánh sao nổi.
Phe lười (Thích so sánh): "Thế nó khác quái gì HeyGen với Tavus?" - Một user hỏi. Câu trả lời quá rõ ràng: Nó open-weights, anh em tự vác về cài trên máy mình tốn 0 đồng, không phải cúng tiền subcription hàng tháng cho mấy nền tảng kia. Thêm nữa là độ mượt khi giao tiếp hai chiều.
Phải công nhận là vụ vác open-weights ra khè nhau dạo này thành meta mới của giới tech rồi. Mấy startup AI tung model ra cho dev dùng free (cỡ nhỏ) để lấy danh tiếng, ép mấy ông lớn SaaS phải đổ mồ hôi hột.
Đối với anh em dev tụi mình, bài học rút ra là gì? Đừng có cắm đầu vào code chay nữa. Cái thời mà real-time video gen là thứ gì đó ma giáo xa vời qua rồi. Tụi nó đã đóng gói sẵn codebase, streaming infrastructure ném thẳng mặt rồi. Hãy tranh thủ mấy con hàng free này, làm một cái side-project, ví dụ tích hợp AI Avatar vào app học tiếng Anh hay app CSKH, mang đi lòe sếp, khéo lại x2 lương chứ đùa.
Nguồn: Product Hunt - AVTR-1