$TGT
-4.53%
今天打狗亏麻了,我再也不赌博了😭😭😭😭😭 这两天 AI 圈又炸了。 本来以为 $TGT 那波反弹已经够意外了,没想到 @SentientAGI 这边直接上了个核弹级更新——跟普林斯顿、UT Austin 一起搞了个叫 SPIN-Bench 的玩意。 名字看着平平,但看完细节我只想说:这不是 benchmark,这是“AI 社交训练营”。 以前的大模型都在做“考卷题”:谁算得快、答得准、记得多。 但 SPIN-Bench 玩的是“社会博弈”——多个 AI 放进一个房间,让它们互相合作、谈判、欺骗、试探,就像一群没经验的 ChatGPT 去打《三国杀》。 这才是真正的智能测试。 不是比谁参数多,而是看谁更像人。 它的核心逻辑是: S(Strategic Planning)战略规划:要能想长远,不只是反应。 P(Planning)和I(Interaction)交互:学会沟通协作,既得传信息又要防背刺。 N(Negotiation)谈判:资源有限,局势变化,得能平衡“利益”与“信任”。 每个智能体都在同一套循环里打转:观察 → 发消息 → 行动。 消息还有限制,token 数量和时间都被卡死。你得在 10 秒内说出重点,还不能暴露太多。 这才叫“社交压力测试”。 过去的 AI 测评就像测体能跑步:一题一答、快进快出; SPIN-Bench 直接变成综合格斗:计划、博弈、临场反应全拉满。 更狠的是,这一套能量化。 每场游戏都会生成全日志:状态、行动、奖励,全都透明可复现。 你可以“演聪明”,但演不久。 这一点特别关键——AI 从“回答问题”走向“理解局势”。 这意味着智能体不再只是被动的执行器,而是在主动摸索: ✅ 什么时候信任别人? ✅ 什么信息该藏? ✅ 怎么在混乱里达成目标? 这就是人类的生存智慧。 而现在,AI 终于开始“进化出社交脑”了。 很多人以为智能的极限是模型规模。 但 SPIN-Bench 告诉我们: 真正的智能,是在多智能体之间,学会合作、博弈、甚至欺骗。 这一步,可能比算力跃升还重要。 因为那意味着——AI 不只是懂语言,而是开始懂人。 所以别急着喊“AI 已经无所不能”。 这才是它的启蒙期,刚刚学会“混社会”。 想深入挖?官方都开源了,直接冲: 📄 论文:https://t.co/B1kHf3wX90 🧠 博客:https://t.co/LR5eCtvyMS… 💻 代码:https://t.co/pOUQG8eqrj… #Sentient #KaitoYap @KaitoAI #Yaps
From X

Disclaimer: The above content reflects only the author's opinion and does not represent any stance of CoinNX, nor does it constitute any investment advice related to CoinNX.