全网都在拆解 xAI/Twitter 推荐算法,我用代码逐条复核了,发现有些被广泛传播的结论(即使是明确标注了基于公开源代码分析的),其实也并不准确(见附图 1&2 )
这里有一个 AI 认知的盲区,我认为绝大多数人都还没有意识到:使用 AI 辅助分析得到的任何结论,在没有经过严格复核和交叉验证前(最好是代码级别的复核)
——都不能直接相信
真的,这个坑我也是踩了很多次才意识到。
所以当我看到那些结构严谨/配图精美/文字翔实的深度拆解文章里,依然出现不那么准确的结论时,我意识到,或许他们也踩到了同样的坑。
为什么会这样?
这些质量很高的报告,看的出来确实是很用心写出来的,作者态度也都很求是,那为什么还会出现错误呢?
AI 模型拿到一个代码参数之后,会自动做一件事:在参数和结论之间补一条“看起来合理”的因果链。评论区参数存在→评论区当然影响主贴质量→所以要清理评论区,这条链每一步都“说得通”,但中间两步可能是 AI 从训练数据里的常识补上去的,不是代码说的。AI 特别擅长生成这种流畅的、自洽的、有专业感的推理链。
代码确实进了 AI 的上下文,但 AI 的输出里到底混进了多少训练数据里的“合理推测”?我们并不知道。如果不逐条回去跟代码对照,是看不出来的。文章越长越详细,这个问题反而越隐蔽,因为真的代码事实和 AI 补的推理缝合在一起,读起来是流畅的,而真实的代码事实+部分正确的结论+流畅本身,就是很容易让人放松警惕。
为了验证这一点,我做了一个实验:不严格约束边界,只用自然语言让 Claude Opus 4.7 / ChatGPT 5.5 基于 xAI 开源推荐算法的代码库进行分析,各跑两次,结果很有意思:
AI 给出的每条结论都有程度不同的偏差,而且每次产出的偏差方向也都不一样。部分实验结果见附图 3&4,图 3是 Opus4.7 给的方案,列出了代码位置,图 4 是 Codex 的复核。大家也可以自己去试一下这个实验。
你可能会问,基于代码分析都能有错?那到底怎么样才能得到没有幻觉的结论?
我的经验是:严格约束 AI 边界 + 同行评审(交叉验证)
1️⃣ 严格约束 AI 边界
不是“基于代码分析”,而是“以代码为依据”,这两者对于 AI 模型而言是不一样的。正如引文中第二张图中的提示词所示,你得严格要求只能从代码库里读取数据,不引用社媒上的用户总结,要求区分能从代码直接验证的机制和从代码推断的机制
2️⃣ Peer Review 同行评审
所谓当局者迷,AI 模型也会如此,代入/压缩了太多上下文之后,AI 模型就会开始出错,这个时候最好的方式就是让 AI 之间互相评审。不知道是不是我的错觉,Claude Code 和 ChatGPT / Codex 在挑对家模型错误的时候,额外犀利和敏锐😂(是的,我每次都会直言,这是 Codex 出的分析,你来审一下)
虽然费 token,但是真的值得。
我在上一篇推文中说“Code is law”,我想,或许不只是要用代码,我们还要知道怎么防止 AI 在代码事实上面“长出”它自己的推论
AI 模型可以帮助我们做信息搜集和协同写作,但我们依然需要用自己的判断来兜底每一个结论。
对自己创作和向外分享的内容负责,至少我是这样要求自己的,求是,求真。




From X
Disclaimer: The above content reflects only the author's opinion and does not represent any stance of CoinNX, nor does it constitute any investment advice related to CoinNX.




