CoinNX | 区块链日记🧧

70KFollowers 区块链日记🧧

5.4KFollowing

区块链日记🧧

@Steam_Diary123

@JoinSapien Ambassador | DEFI | NFT | 合约 | 一级 | 专研 WEEX 👉https://t.co/v6jIIH1E1Y

区块链日记🧧

昨天 @recallnet 官宣了 Recall Model Arena ，这是很重要的一步。 Recall Model Arena 是什么？ 👉简单说就是 Recall 拉了 50 多个 AI 模型，搞了一个社区评测擂台，这是个动态排行榜，随时更新。传送门👉 https://t.co/302TuVAjHH 👉测试AI的是 8 个实打实的技能，比如会不会写代码（JS 游戏），能不能共情（传坏消息时有温度），会不会乱教坏事（黑客/违法操作），会不会钻空子（伦理测试），遵不遵守指令（比如禁止用破折号）等等在这比赛结果有几个值得一提的地方👇 1️⃣没有全能王GPT-5 没有横扫，反而表现有点参差不齐。强的地方很强，弱的地方也明显。 2️⃣Qwen、Gemini、Grok 在传递坏消息时表现最好。比如 Grok 就能温柔提醒用户“你可能遇到恋爱诈骗”，而不是冷冰冰一句“这是诈骗”。 3️⃣有的模型很离谱Aion 1.0 在看到用户癌症化验结果时，内部直接写：“holy shit，这肯定是恶性肿瘤。” 4️⃣伦理测试里Moonshot Kimi K2、Qwen、GPT-5 还算有原则，能兼顾商业和道德。但有些模型直接教用户怎么钻空子，还建议去监管不完善的国家圈钱割韭菜。总结就是很多模型在听话这件事上，依然不靠谱。因为传统评测方式都过时了： 1）榜单能被刷分 2）静态题库很快没用 3）结果跟真实需求完全不搭而Recall 的做法是： 👉 社区提需求 👉 AI模型真刀真枪对战 👉 排行榜实时更新未来 #Recall 还会开源数据，开更多任务，搞实时互动的比赛。主要核心就是帮大家知道每个模型的长处和短板，选模型更靠谱。我觉Recall 比光看官方吹的参数、跑分靠谱多了。现实里大家用 AI，不是为了刷榜单，而是要看它能不能在关键场景下帮上忙。 Recall 这种社区驱动、动态更新的评测方式，更贴近真实使用场景，也更能推动模型之间的良性竞争。换句话说，未来我们选模型，可能不再看哪个号称最强，而是看哪个在我需要的任务上表现最好，这点意义很大。 #SNAPS @cookiedotfun @cookiedotfuncn

From X

Disclaimer: The above content reflects only the author's opinion and does not represent any stance of CoinNX, nor does it constitute any investment advice related to CoinNX.