Vozo vừa ra mắt Visual Translate giúp dịch text thẳng trong video. Tạm biệt chuỗi ngày làm culi After Effects, nhưng liệu có mượt như quảng cáo?

Chắc mấy ông từng làm qua mảng localize (địa phương hóa) nội dung cũng hiểu, làm sub hay lồng tiếng thì dễ, nhưng đụng đến cái text nằm chết dí trong video (như slide, biểu đồ, UI) thì đúng là một cực hình. Mở After Effects lên, track lại motion, mask chữ cũ, gõ chữ mới, căn chỉnh font, rồi render... cắn RAM thì đ*o chịu được mà hãm tài vô cùng.
Nhưng hôm nay, cõi Product Hunt vừa rần rần vì một con hàng có tên là Visual Translate của nhà Vozo. Bọn này tuyên bố đã giải quyết xong "lớp khiên" cuối cùng của video dịch thuật. Nghe ảo ma Canada phết, để tôi bóc tách cho anh em xem thực hư thế nào.
Cha đẻ của Vozo là CY - một cựu researcher nhà Google từng quẩy core video cho Android. Sau khi làm sub và lồng tiếng chán chê, team này nhận ra: "Ê, text trong video mới là chỗ chứa nhiều info nhất (đặc biệt là mấy video training hay thuyết trình)". Thế là Visual Translate ra đời.
Đại khái quy trình của con AI này là: Nó quét khung hình -> bóc tách text hiện có -> dịch sang ngôn ngữ mới -> đắp lại vào video mà giữ nguyên layout, style và cả animation.
Nhưng điểm ăn tiền nhất đ*o phải là con AI sinh ra video cuối cùng, mà là nó cho phép anh em EDIT LẠI phần text đó. Nước đi này khá khôn ngoan vì dân trong nghề đều hiểu, AI dịch thì kiểu gì chẳng có lúc ngáo, không cho sửa bằng tay thì có mà vứt sọt rác.
Credit vụ này phải dành cho Naro - nữ dev của team Vozo. Đạo hữu này đã tự code xong bản prototype từ tháng 10 năm ngoái. Thấy chạy mượt quá nên cả team xúm vào đập đi xây lại thành product xịn xò con bò bán lấy tiền luôn.
Lượn một vòng comment, đa số các lão quái đều gật gù ưng cái bụng, nhưng cũng tòi ra mấy câu hỏi rất ma giáo:
1. Bọn editor khóc thét vì sung sướng: Có ông comment thẳng: "Cái này cứu rỗi hàng tá giờ làm After Effects thủ công." Giữa một rừng ai tools dạo này toàn vẽ vời từ con số 0, thì một công cụ đấm thẳng vào pain-point thực tế của dân làm content như này ăn điểm tuyệt đối.
2. Bài toán muôn thuở: Dịch xong chữ dài thò lò ra ngoài thì sao? Một dân chơi hỏi câu chí mạng: "Ê, tiếng Anh dịch sang tiếng Trung hay tiếng Việt nó dài ra, bể layout thì sao?". Team Vozo đáp trả khá tự tin: Hệ thống sẽ tự tính toán lại layout, reflow text, bẻ dòng và thu nhỏ font cho vừa cái khung gốc. Nghe thì mượt đấy, nhưng thực tế anh em code UI/UX chắc đều biết quả overflow nó ám ảnh thế nào, để xem AI xử lý có khét thật không.
3. Support tiếng Do Thái (RTL) thì sao? Toang! Có người dùng hỏi bao giờ support tiếng Do Thái (viết từ phải sang trái). Dev team thú nhận luôn là hiện tại chưa làm được. Vì RTL không chỉ là đổi hướng chữ, mà còn phải lật ngược (flip) cả các element đồ họa (như thanh progress bar, mũi tên) để trông cho hợp lý. Một pha quay xe rất thực tế, hứa hẹn update sau thay vì bốc phét lùa gà.
Từ góc nhìn của Coding4Food, con hàng Visual Translate này đi đúng vào một triết lý mà nhiều anh em làm product hay quên: Editability (Tính chỉnh sửa) > Full Generation (Tạo ra tất cả).
Anh em dev dạo này hay bị cuồng cái kiểu prompt 1 câu ra nguyên cục product. Nhưng user thực tế họ đ*o cần một cái hộp đen (black-box) khóa mõm họ lại. Họ đã có sẵn video, họ chỉ cần một tool tự động hóa những bước culi nhàm chán, và cuối cùng vẫn phải cho họ quyền kiểm soát (sửa chữ, đổi màu).
Bài học ở đây là: Đừng cố dùng AI để thay thế hoàn toàn con người. Hãy dùng AI để skip qua mấy cái task hãm tài, rồi nhường lại cái nút "Save & Export" cho người dùng bấm. Thế mới là product làm ra tiền!
Nguồn hóng hớt: Product Hunt - Visual Translate by Vozo