Cursor 用强化学习训练 Composer 自动压缩上下文,不靠 prompt 了。 compaction 错误减少 50%,能跑需要几百步操作的复杂任务了。 以前 AI agent 跑长任务,上下文快满时要把历史记忆压缩一遍,但压缩靠的是提示词,压错了任务就跑偏了。很多 agent 长任务失败在这里。 Cursor 不靠 prompt 了,让模型用 RL 自己学怎么压缩,学几轮之后,它自己知道什么该留什么能扔。 RL 开始接管之前靠 prompt 硬撑长任务稳定性一直是大问题。
From X

Disclaimer: The above content reflects only the author's opinion and does not represent any stance of CoinNX, nor does it constitute any investment advice related to CoinNX.

0