CoinNX | Jiaran 嘉然

AI 实践者｜AI 工具实测长文｜复杂的事简单的讲｜vibe coding & 投资｜ No shills — just my real human thoughts from lived experience. @PaoKa1024 ⬇️🔗公众号/小红书：嘉然学习笔记

Jiaran 嘉然

全网都在拆解 xAI/Twitter 推荐算法，我用代码逐条复核了，发现有些被广泛传播的结论（即使是明确标注了基于公开源代码分析的），其实也并不准确（见附图 1&2 ）这里有一个 AI 认知的盲区，我认为绝大多数人都还没有意识到：使用 AI 辅助分析得到的任何结论，在没有经过严格复核和交叉验证前（最好是代码级别的复核） ——都不能直接相信真的，这个坑我也是踩了很多次才意识到。所以当我看到那些结构严谨/配图精美/文字翔实的深度拆解文章里，依然出现不那么准确的结论时，我意识到，或许他们也踩到了同样的坑。为什么会这样？这些质量很高的报告，看的出来确实是很用心写出来的，作者态度也都很求是，那为什么还会出现错误呢？ AI 模型拿到一个代码参数之后，会自动做一件事：在参数和结论之间补一条“看起来合理”的因果链。评论区参数存在→评论区当然影响主贴质量→所以要清理评论区，这条链每一步都“说得通”，但中间两步可能是 AI 从训练数据里的常识补上去的，不是代码说的。AI 特别擅长生成这种流畅的、自洽的、有专业感的推理链。代码确实进了 AI 的上下文，但 AI 的输出里到底混进了多少训练数据里的“合理推测”？我们并不知道。如果不逐条回去跟代码对照，是看不出来的。文章越长越详细，这个问题反而越隐蔽，因为真的代码事实和 AI 补的推理缝合在一起，读起来是流畅的，而真实的代码事实+部分正确的结论+流畅本身，就是很容易让人放松警惕。为了验证这一点，我做了一个实验：不严格约束边界，只用自然语言让 Claude Opus 4.7 / ChatGPT 5.5 基于 xAI 开源推荐算法的代码库进行分析，各跑两次，结果很有意思： AI 给出的每条结论都有程度不同的偏差，而且每次产出的偏差方向也都不一样。部分实验结果见附图 3&4，图 3是 Opus4.7 给的方案，列出了代码位置，图 4 是 Codex 的复核。大家也可以自己去试一下这个实验。你可能会问，基于代码分析都能有错？那到底怎么样才能得到没有幻觉的结论？我的经验是：严格约束 AI 边界 + 同行评审（交叉验证） 1️⃣ 严格约束 AI 边界不是“基于代码分析”，而是“以代码为依据”，这两者对于 AI 模型而言是不一样的。正如引文中第二张图中的提示词所示，你得严格要求只能从代码库里读取数据，不引用社媒上的用户总结，要求区分能从代码直接验证的机制和从代码推断的机制 2️⃣ Peer Review 同行评审所谓当局者迷，AI 模型也会如此，代入/压缩了太多上下文之后，AI 模型就会开始出错，这个时候最好的方式就是让 AI 之间互相评审。不知道是不是我的错觉，Claude Code 和 ChatGPT / Codex 在挑对家模型错误的时候，额外犀利和敏锐😂（是的，我每次都会直言，这是 Codex 出的分析，你来审一下）虽然费 token，但是真的值得。我在上一篇推文中说“Code is law”，我想，或许不只是要用代码，我们还要知道怎么防止 AI 在代码事实上面“长出”它自己的推论 AI 模型可以帮助我们做信息搜集和协同写作，但我们依然需要用自己的判断来兜底每一个结论。对自己创作和向外分享的内容负责，至少我是这样要求自己的，求是，求真。

Jiaran 嘉然 @_jiaran ·

你们知道吗？Grok 给的关于自家 X 的信息也并非完全准确，因为信息来源中存在很多过时/错误的信息，让 AI 模型产生了幻觉。今天时间线上突然全是各种关于 X 算法更新的帖文，博主们都在“惊呼”以前的攻略没用了，我心想，这不是今年 1 .20 就已经上了全新推荐算法了吗😂 再仔细看了几篇，大多数都 AI https://t.co/zJTBdsqLGR

From X

Disclaimer: The above content reflects only the author's opinion and does not represent any stance of CoinNX, nor does it constitute any investment advice related to CoinNX.

Hot