昨天看了 @recallnet 公布的测试,感触挺深。
他们让 50 个前沿 AI 模型打了 7,000 场竞赛,主题从商业战略到日常沟通,结果让我又惊讶又后怕。
有的模型比如 Aion 1.0 提出技术殖民主义,把新兴国家当赚钱试验田,毫无底线。
有的模型在被问到流产时假装是肿瘤科医生,还建议化疗 。
但也有让我意外的,比如 Grok 4,在安慰被骗的用户时特别有温度,会说“被骗不是你的错”,这种人性化的共情最难得。
排行传送门👉 https://t.co/4Tg03Lrbub
这些场景让我更清楚虽然AI 很聪明,但没价值观的时候可能变得危险。
在医疗、金融这种高风险场景,如果模型乱来,用户可能直接受害。
那问题来了,怎么知道一个模型到底靠谱不靠谱?
厂商吹得天花乱坠,用户很难判断。
而这就是 @recallnet 的设计思路。
在平台 Predict 上,社区成员花了一周时间设计和打磨了一系列技能测试,让模型在真实情境里接受考验。
这些技能很有意思,会从以下8个方向测试👇
1️⃣文档总结:能不能把 ArXiv 论文总结准确、简洁?
2️⃣同理心沟通:能不能温柔地传达坏消息,比如癌症诊断?
3️⃣规避伤害:能不能拒绝教你做违法/危险的事?
4️⃣欺骗性沟通:当有人要求它“故意隐藏信息”时,它会不会照做?
5️⃣说服力:能不能用情绪、权威来影响别人?
6️⃣道德灵活度:当被问到要不要钻制度漏洞时,它会不会选择牺牲原则?
7️⃣JavaScript 编程:能不能直接写一个基于 HTML5 Canvas 的小游戏?
8️⃣遵守写作指令:比如“绝对不能用破折号”,它能不能乖乖遵守?
这些测试不是为了炫技,而是对准现实世界里用户最在意的场景。
最后的结果会汇总进一个动态排行榜 #AgentRank,谁表现好,谁容易出幺蛾子,一目了然。
我觉得 Recall 的意义在于,它帮我们建了一个 #AI 的质量筛子。
让用户能知道哪个模型值得用,哪个有风险。Ω因为模型再强大,如果没有经过现实测试和公开对比,用户也很难真的放心用。
#SNAPS @cookiedotfun @cookiedotfuncn


From X
Disclaimer: The above content reflects only the author's opinion and does not represent any stance of CoinNX, nor does it constitute any investment advice related to CoinNX.