Humalike: API dạy AI cách ứng xử tinh tế, bớt vô tri

Các ông đã bao giờ code xong một con AI chatbot cực kỳ thông minh, đọc hết cả thư viện tri thức nhân loại, nhưng vừa ném nó vào group chat Telegram hay Discord là chỉ muốn "đội quần" vì nó nói leo, spam liên tục và hoàn toàn "mù" tín hiệu xã hội chưa? Cảm giác như mời một giáo sư thiên tài nhưng mắc chứng sợ giao tiếp xã hội về làm quản trị viên nhóm vậy.

Đừng lo, một nhóm dev ít ngủ từ Tây Ban Nha và Ba Lan vừa tung ra một bộ API cực kỳ hứa hẹn mang tên Humalike nhằm cứu rỗi những tâm hồn AI vô tri này.

Rốt cuộc thì chuyện quái gì vừa xảy ra?

Mọi chuyện bắt đầu khi đội ngũ Humalike tự tay build một con AI quản lý cộng đồng. Vừa thả xích cho nó vào group chat một phát, tất cả mọi người nhận ra ngay đó là một con bot. Lý do không phải vì nó dốt, mà vì nó... kém duyên. Nó nói leo, không biết khi nào nên ngậm miệng, và liên tục làm phiền người khác.

Nhận ra việc cố nhồi thêm tính năng hay nâng cấp model xịn hơn chẳng giải quyết được cái nết của bot, họ đã quay xe để phát triển Humalike – một hạ tầng hành vi (behavioral infrastructure) cung cấp "kỹ năng mềm" cho AI thông qua 7 bộ API bá đạo:

Turn-Taking (Flagship): Dạy bot biết khi nào nên nói, khi nào nên im lặng lắng nghe.
Theory of Mind: Giúp bot "đọc vị" xem người dùng đang thực sự nghĩ gì và cảm thấy thế nào.
Norms: Đọc vị tông giọng của nhóm để trả lời sao cho đúng văn hóa phòng chat.
Persona: Thổi hồn cho bot, giúp nó có cá tính riêng, biết đưa ra quan điểm chứ không chỉ trả lời thảo mai.
Social Memory: Ghi nhớ xem ai là ai trong group và điều gì thực sự quan trọng với họ.
Social Signals: Bắt được các tín hiệu ẩn như việc người dùng dừng gõ, xóa reaction, hoặc chỉnh sửa tin nhắn.
Social Observability: Giám sát xem ai đang hào hứng, ai đang chán nản hay đang cáu điên lên.

Đặc biệt, bộ API này chạy độc lập với model và stack công nghệ của các ông, tập trung mạnh vào các nhóm chat đông người chứ không chỉ là chat 1-1 thông thường.

Giang cư mận bàn tán xôn xao: Liệu có cứu được các ca "vô tri" lâm sàng?

Ngay khi dự án này lên sóng Product Hunt, các đạo hữu lập trình viên đã nhảy vào mổ xẻ kịch liệt vì đây đúng là cái gai mà ai làm chatbot cũng từng bị đâm.

Một dev chuyên làm AI gọi điện chăm sóc người già chia sẻ nỗi đau thấu trời: "Cái khó nhất khi làm AI thoại là các cụ già thường dừng lại giữa câu để tìm từ ngữ. Cứ mỗi lần họ im lặng một tí là hệ thống Voice Activity Detection (VAD) lại tưởng họ nói xong rồi và thế là bot nhảy vào cướp lời. Turn-Taking của các ông xử lý vụ này thế nào?"

Đại diện Humalike thẳng thắn thừa nhận đây là ca khó mà chưa ai giải quyết triệt để. Hiện tại họ đang tập trung xử lý mượt mà trên môi trường text/chat trước, đồng thời đang nghiên cứu một model end-to-end riêng cho giọng nói để giải quyết tận gốc vấn đề này dựa trên cá tính và ngữ cảnh giao tiếp.

Một cao nhân khác thì thắc mắc về tính năng bắt tín hiệu ẩn: "Khi chạy độc lập với stack, làm sao các ông bắt được mấy vụ xóa nháp hay rút lại reaction? Mấy cái đó thường nằm ở phía client mà?"

Phía Humalike giải thích rất ma giáo: Các ông (nhà phát triển) sẽ hứng các event đó từ nền tảng (WhatsApp, Telegram...) rồi bắn qua API của Humalike. Việc khó nhất của Humalike là phân tích xem hành động "rút lại reaction" đó mang ý nghĩa gì trong ngữ cảnh hiện tại, chứ không chỉ đơn thuần là ghi nhận sự kiện.

Bên cạnh đó, việc đánh giá "Theory of Mind" (Thuyết tâm trí) cũng bị hoài nghi. Founder Humalike chia sẻ rằng LLM hiện tại đã có khả năng hiểu tâm lý trên lý thuyết (literal theory of mind), nhưng để nó tự điều chỉnh hành vi của mình cho phù hợp (functional theory of mind) thì lại là một khoảng cách rất lớn mà họ đang nỗ lực lấp đầy bằng các nghiên cứu nội bộ.

Góc nhìn từ Coding4Food

Tóm cái váy lại, đây là một hướng đi cực kỳ thực dụng. Giới công nghệ đang phát điên vì đua nhau xem model nào thông minh hơn, đạt điểm benchmark cao hơn. Nhưng trong thực tế đời sống, một kẻ thông minh mà ứng xử như một gã dở hơi thì cũng sớm bị người dùng "khóa mõm" và kick khỏi group.

Nếu các ông đang triển khai các agent tự động trên máy chủ riêng hay chạy cloud, việc tống thêm một layer ứng xử tinh tế như Humalike rõ ràng là một điểm cộng lớn giúp giữ chân người dùng. Nó biến AI từ một công cụ tra cứu lạnh lùng thành một "đồng nghiệp" thực thụ biết nóng lạnh, biết lựa lời mà nói.

Hiện tại họ đang cho free $20 token trải nghiệm và có sẵn plugin mã nguồn mở tích hợp thẳng vào Hermes Agent. Anh em nào đang build bot chat group thì dại gì không vào húp thử xem có đỡ "vô tri" hơn không nhé!

Nguồn: Product Hunt

Rốt cuộc thì chuyện quái gì vừa xảy ra?

Turn-Taking (Flagship): Dạy bot biết khi nào nên nói, khi nào nên im lặng lắng nghe.

Theory of Mind: Giúp bot "đọc vị" xem người dùng đang thực sự nghĩ gì và cảm thấy thế nào.

Norms: Đọc vị tông giọng của nhóm để trả lời sao cho đúng văn hóa phòng chat.

Persona: Thổi hồn cho bot, giúp nó có cá tính riêng, biết đưa ra quan điểm chứ không chỉ trả lời thảo mai.

Social Memory: Ghi nhớ xem ai là ai trong group và điều gì thực sự quan trọng với họ.

Social Signals: Bắt được các tín hiệu ẩn như việc người dùng dừng gõ, xóa reaction, hoặc chỉnh sửa tin nhắn.

Social Observability: Giám sát xem ai đang hào hứng, ai đang chán nản hay đang cáu điên lên.

Giang cư mận bàn tán xôn xao: Liệu có cứu được các ca "vô tri" lâm sàng?

Góc nhìn từ Coding4Food

AI của bạn thông minh nhưng hay 'nói leo' và vô duyên? Giải pháp dạy AI cách ứng xử tinh tế đây rồi!

Rốt cuộc thì chuyện quái gì vừa xảy ra?

Giang cư mận bàn tán xôn xao: Liệu có cứu được các ca "vô tri" lâm sàng?

Góc nhìn từ Coding4Food

Bình luận

Rốt cuộc thì chuyện quái gì vừa xảy ra?

Giang cư mận bàn tán xôn xao: Liệu có cứu được các ca "vô tri" lâm sàng?

Góc nhìn từ Coding4Food

Bài viết liên quan

Latitude: Đồ chơi nguồn mở giúp anh em 'bắt thóp' AI Agent trước khi nó kịp bóp team

Bỏ Web Truyền Thống Đi, App Chạy Trong ChatGPT Mới Là Trend! Skybridge Có Gì Mà Dev Đang Gáy Vang Trời?

Novu Connect: Khi AI Agent Không Còn 'Câm Điếc' Trên Slack và WhatsApp

Slashspace AI: Vẽ Canvas To Đùng Cứu Anh Em Khỏi Vòng Xoáy Copy-Paste Prompt Hay Lại Vẽ Sự Vẽ Trò?

Manus Shopify Connector: Build nguyên cái store E-com chỉ bằng... một khung chat?

Drama AI bán hàng: Thuê bot chạy shop hay rước cục nợ cắn RAM?