$TGT
-4.53%
哈哈 没想到十多天前奶快归零的 $TGT 这么猛,再继续奶下@SentientAGI 今天的消息有点炸裂 @SentientAGI团队和 Princeton、UT Austin 一起搞了个叫 SPIN-Bench 的新玩意。 我本来以为又是那种“学术套话”项目,结果仔细看完…直接被震住。 简单说,SPIN-Bench 是一个教 AI 玩社会游戏的试炼场。不再是单人解题,而是多智能体博弈、合作、谈判的“大乱斗”。 也就是说,AI 不再是背书机,而要学会做人了。 要能猜别人心思、懂信任与欺骗、还能在局中保持冷静。——有点像让 ChatGPT 去打《三国杀》。 以往的 AI 测试都太“短平快”:一问一答、一题一解,就像跑 100 米。而 SPIN-Bench 直接拉到“铁人三项”级别:要规划长远目标、适应队友、预测敌人、处理不确定性。这玩意不是跑步,是打仗。 它的名字其实藏着野心:SPIN = Strategic Planning, Interaction, Negotiation。 战略规划、交互、谈判——这不就是“智能体版的《权力的游戏》”吗?从 PDDL 规划(长线任务拆解),到对抗博弈(下棋、对弈),到合作卡牌(部分信息 + 模糊沟通)再到外交式谈判(联盟、背叛、换盟友)每个环节都在逼 AI 动脑,不只是算力堆料。 它还很硬核。 每个智能体都要走同一个循环:观察 → 发消息 → 行动。消息还有 token 限制,时间还有限,就像“你有 10 秒,告诉队友你要干啥,但不能暴露太多”。 ——一场真正的“社交理性”考试。 每次测试都会生成完整日志(状态、信息、行动、奖励),确保结果可复现。换句话说:你能装聪明,但装不久。 重点是,它让我们第一次能“量化”AI 的战略与社交智商。以前只能测模型答题对不对,现在能测它到底懂不懂“人性”。这才是智能的终极试炼。 所以别再说“大模型已经无所不能”。真正的挑战,才刚刚开始。 SPIN-Bench 就像 AI 的《月光宝盒》——打开之后,机器才真正踏上‘理解人类’的旅程。 想研究?这几条直接收藏: 👉 论文:https://t.co/Urq3OBcbqE 👉 技术博客:https://t.co/FaVWzGrH1f 👉 代码仓库:https://t.co/SGT2unk7J3 #Sentient #KaitoYap @KaitoAI #Yaps
来自推特

免责声明: 以上内容仅为作者观点, 不代表CoinNX的任何立场, 不构成与CoinNX相关的任何投资建议。