Sentient 推出了一种新的 multi-agent 开源架构,叫做 ROMA,推理和搜索成绩意外地非常高。 先做个简单的科普,ROMA 这次使用的三个题库分别是什么? Seal-0 题库:它里面是精挑细选的一小套极难问题,每题都被迭代到“多款前沿模型多次尝试仍几乎全错”的强度。它考察 AI 用网页搜索/工具的模型做事实查证,在冲突、噪声或无用检索结果下的推理与去噪能力。 FRAMES 题库:Google/Harvard 提出的 RAG 统一评测集(Factuality + Retrieval + Reasoning),多跳、多约束问题(官方给出 824 题 + 论文 & 数据集)。它考察AI 检索是否找对、引用是否正确、推理是否到位。 SimpleQA 题库:OpenAI 的短事实问答基准集,题目短小、易判分、覆盖广。它主要考察 AI 是否答对且少幻觉,还能评估模型自我校准(自信度与实际正确率的匹配)。 然后聊聊它是怎么实现的? ROMA 主要通过任务拆解来做的,是三步走: 1. 判断和拆解:父节点判断任务是简单 or 复杂,如是复杂任务则拆解为若干子任务; 2. 对症下药:子节点找到最适合的 AI Agent 和工具来解决子任务; 3. 总结汇报:结果汇总+逐层上报聚合成最终答案。 这样,ROMA 得到了推理+搜索的高分(当然,缺点是也会给服务器带来更高的负载以及更长的思考时间)。 另外,过去一些 multi-agent 也采用类似的架构,但是很多会遇到一个问题,叫做“错误累积”。 举个例子,如果单个 AI 的正确率是90%,积累六层,正确率也只剩 50% 左右了。 @SentientAGI ROMA 架构的思路是把整个推理过程透明化,并且开源,这样方便后面的开发者对整个过程,有针对性地进行微调,以增加长任务的正确率。 这就是开源的好处。
From X

Disclaimer: The above content reflects only the author's opinion and does not represent any stance of CoinNX, nor does it constitute any investment advice related to CoinNX.