Anh em đã bao giờ code xong một con bot AI cực thông minh nhưng cứ ném vào group chat là nó lại spam vô tri và nói leo chưa? Humalike sinh ra để sửa cái nết này.

Các ông đã bao giờ code xong một con AI chatbot cực kỳ thông minh, đọc hết cả thư viện tri thức nhân loại, nhưng vừa ném nó vào group chat Telegram hay Discord là chỉ muốn "đội quần" vì nó nói leo, spam liên tục và hoàn toàn "mù" tín hiệu xã hội chưa? Cảm giác như mời một giáo sư thiên tài nhưng mắc chứng sợ giao tiếp xã hội về làm quản trị viên nhóm vậy.
Đừng lo, một nhóm dev ít ngủ từ Tây Ban Nha và Ba Lan vừa tung ra một bộ API cực kỳ hứa hẹn mang tên Humalike nhằm cứu rỗi những tâm hồn AI vô tri này.
Mọi chuyện bắt đầu khi đội ngũ Humalike tự tay build một con AI quản lý cộng đồng. Vừa thả xích cho nó vào group chat một phát, tất cả mọi người nhận ra ngay đó là một con bot. Lý do không phải vì nó dốt, mà vì nó... kém duyên. Nó nói leo, không biết khi nào nên ngậm miệng, và liên tục làm phiền người khác.
Nhận ra việc cố nhồi thêm tính năng hay nâng cấp model xịn hơn chẳng giải quyết được cái nết của bot, họ đã quay xe để phát triển Humalike – một hạ tầng hành vi (behavioral infrastructure) cung cấp "kỹ năng mềm" cho AI thông qua 7 bộ API bá đạo:
Đặc biệt, bộ API này chạy độc lập với model và stack công nghệ của các ông, tập trung mạnh vào các nhóm chat đông người chứ không chỉ là chat 1-1 thông thường.
Ngay khi dự án này lên sóng Product Hunt, các đạo hữu lập trình viên đã nhảy vào mổ xẻ kịch liệt vì đây đúng là cái gai mà ai làm chatbot cũng từng bị đâm.
Một dev chuyên làm AI gọi điện chăm sóc người già chia sẻ nỗi đau thấu trời: "Cái khó nhất khi làm AI thoại là các cụ già thường dừng lại giữa câu để tìm từ ngữ. Cứ mỗi lần họ im lặng một tí là hệ thống Voice Activity Detection (VAD) lại tưởng họ nói xong rồi và thế là bot nhảy vào cướp lời. Turn-Taking của các ông xử lý vụ này thế nào?"
Đại diện Humalike thẳng thắn thừa nhận đây là ca khó mà chưa ai giải quyết triệt để. Hiện tại họ đang tập trung xử lý mượt mà trên môi trường text/chat trước, đồng thời đang nghiên cứu một model end-to-end riêng cho giọng nói để giải quyết tận gốc vấn đề này dựa trên cá tính và ngữ cảnh giao tiếp.
Một cao nhân khác thì thắc mắc về tính năng bắt tín hiệu ẩn: "Khi chạy độc lập với stack, làm sao các ông bắt được mấy vụ xóa nháp hay rút lại reaction? Mấy cái đó thường nằm ở phía client mà?"
Phía Humalike giải thích rất ma giáo: Các ông (nhà phát triển) sẽ hứng các event đó từ nền tảng (WhatsApp, Telegram...) rồi bắn qua API của Humalike. Việc khó nhất của Humalike là phân tích xem hành động "rút lại reaction" đó mang ý nghĩa gì trong ngữ cảnh hiện tại, chứ không chỉ đơn thuần là ghi nhận sự kiện.
Bên cạnh đó, việc đánh giá "Theory of Mind" (Thuyết tâm trí) cũng bị hoài nghi. Founder Humalike chia sẻ rằng LLM hiện tại đã có khả năng hiểu tâm lý trên lý thuyết (literal theory of mind), nhưng để nó tự điều chỉnh hành vi của mình cho phù hợp (functional theory of mind) thì lại là một khoảng cách rất lớn mà họ đang nỗ lực lấp đầy bằng các nghiên cứu nội bộ.
Tóm cái váy lại, đây là một hướng đi cực kỳ thực dụng. Giới công nghệ đang phát điên vì đua nhau xem model nào thông minh hơn, đạt điểm benchmark cao hơn. Nhưng trong thực tế đời sống, một kẻ thông minh mà ứng xử như một gã dở hơi thì cũng sớm bị người dùng "khóa mõm" và kick khỏi group.
Nếu các ông đang triển khai các agent tự động trên máy chủ riêng hay chạy cloud, việc tống thêm một layer ứng xử tinh tế như Humalike rõ ràng là một điểm cộng lớn giúp giữ chân người dùng. Nó biến AI từ một công cụ tra cứu lạnh lùng thành một "đồng nghiệp" thực thụ biết nóng lạnh, biết lựa lời mà nói.
Hiện tại họ đang cho free $20 token trải nghiệm và có sẵn plugin mã nguồn mở tích hợp thẳng vào Hermes Agent. Anh em nào đang build bot chat group thì dại gì không vào húp thử xem có đỡ "vô tri" hơn không nhé!
Nguồn: Product Hunt