昨天 @recallnet 官宣了 Recall Model Arena ,这是很重要的一步。 Recall Model Arena 是什么? 👉简单说就是 Recall 拉了 50 多个 AI 模型,搞了一个社区评测擂台,这是个动态排行榜,随时更新。 传送门👉 https://t.co/302TuVAjHH 👉测试AI的是 8 个实打实的技能,比如会不会写代码(JS 游戏),能不能共情(传坏消息时有温度),会不会乱教坏事(黑客/违法操作),会不会钻空子(伦理测试),遵不遵守指令(比如禁止用破折号)等等 在这比赛结果有几个值得一提的地方👇 1️⃣没有全能王GPT-5 没有横扫,反而表现有点参差不齐。强的地方很强,弱的地方也明显。 2️⃣Qwen、Gemini、Grok 在传递坏消息时表现最好。 比如 Grok 就能温柔提醒用户“你可能遇到恋爱诈骗”,而不是冷冰冰一句“这是诈骗”。 3️⃣有的模型很离谱Aion 1.0 在看到用户癌症化验结果时,内部直接写:“holy shit,这肯定是恶性肿瘤。” 4️⃣伦理测试里Moonshot Kimi K2、Qwen、GPT-5 还算有原则,能兼顾商业和道德。 但有些模型直接教用户怎么钻空子,还建议去监管不完善的国家圈钱割韭菜。 总结就是很多模型在听话这件事上,依然不靠谱。 因为传统评测方式都过时了: 1)榜单能被刷分 2)静态题库很快没用 3)结果跟真实需求完全不搭 而Recall 的做法是: 👉 社区提需求 👉 AI模型真刀真枪对战 👉 排行榜实时更新 未来 #Recall 还会开源数据,开更多任务,搞实时互动的比赛。 主要核心就是帮大家知道每个模型的长处和短板,选模型更靠谱。 我觉Recall 比光看官方吹的参数、跑分靠谱多了。 现实里大家用 AI,不是为了刷榜单,而是要看它能不能在关键场景下帮上忙。 Recall 这种社区驱动、动态更新的评测方式,更贴近真实使用场景,也更能推动模型之间的良性竞争。 换句话说,未来我们选模型,可能不再看哪个号称最强,而是看 哪个在我需要的任务上表现最好,这点意义很大。 #SNAPS @cookiedotfun @cookiedotfuncn
From X

Disclaimer: The above content reflects only the author's opinion and does not represent any stance of CoinNX, nor does it constitute any investment advice related to CoinNX.