一个 Agent 拿到「帮我分析上周的广告投放数据并优化建议」这样一句自然语言,是怎么一步步把它做完的?答案不是一条从上到下的流水线,而是一个持续「思考 → 行动 → 观察 → 调整」的智能循环。这篇把整张架构图拆开讲透。
整张架构图讲的是同一件事:用户丢来一句自然语言需求,一个 AI Agent 如何自主地把它完成。 图顶端的例子很典型——「帮我分析上周的广告投放数据并优化建议」。这句话既不给步骤、也不给数据路径,Agent 得自己想清楚要做什么、调什么工具、看结果对不对,直到交出答案。
要理解这张图,先记住它最想强调的一句话,它写在整张图的最底部:
这不是一条从上到下的流水线,而是一个持续迭代的智能循环。Agent 通过不断的思考、行动、观察和调整,逐步完成复杂任务。
换句话说:图里那些框框看起来是自上而下排的,但真正的执行顺序是绕圈跑的。理解了这一点,下面每一块才对得上位置。我们按「底座 → 核心循环 → 模型交互 → 总结」的顺序拆:先看托住一切的运行时底座,再看在它上面转的思考循环,最后看循环里模型怎么被调用、结果怎么流回来。
把 Agent 想成一位刚接到任务的分析师坐在工位上。运行时(Runtime)是他的办公室——桌子、文件柜、日程本、报销额度都在这;思考循环(Reasoning Loop)是他脑子里「想一下 → 动手做一步 → 看看结果 → 再想」的工作节奏;可调用资源是他随手能用的工具(数据库、浏览器、报表模板);基础模型就是他这颗会推理的大脑。他不会一口气把整份报告写完,而是查一段、看一眼、调整方向,循环着把活干完。
在钻进细节前,先建立一张整体地图。整个系统由五块构成,它们的关系不是「谁在谁上面」,而是「谁围着谁转」:
这五块分别是:① Agent Runtime(运行时底座)、② Reasoning Loop(思考循环)、③ 可调用资源、④ Foundation Model(基础模型)、⑤ Runtime Context(贯穿全程的状态)。下面逐块拆。
Runtime 具体负责这七件事,也就是图里 Harness 那一排的七个组件:
维护 Agent 当前所处的状态,记录「进行到哪一步了」。
管理短期与长期记忆,让 Agent 记得住之前发生过什么。
把散落各处的信息聚合成模型每一轮的输入。
控制资源消耗(token、调用次数、成本),避免无限烧下去。
驱动并管住 Reasoning Loop,决定继续迭代还是退出。
出错时重试或恢复,让流程不至于一崩到底。
接住模型的工具调用指令,实际去执行工具并取回结果。
状态维护、上下文聚合、循环控制、工具调度、错误处理、资源管理、预算控制。它是贯穿整个 Agent 生命周期的全局运行环境,但自己不做推理。
如果说 Runtime 是办公室,那 Runtime Context 就是这间办公室里那张越堆越满的工作台。它是 Agent 的状态,图里明确写着它「贯穿整个循环,每轮持续更新」——每转一圈,新信息就往里加,越积越多。
这八类信息合在一起,就是 Agent 在任意时刻「知道的一切」。注意最后一项 临时草稿 Scratchpad:它是 Agent 边做边打的草稿纸,记录中间推演和临时结论。
Context 不是一次性填好的输入,而是随着循环一圈圈转、持续累积的。第一轮它可能只有用户那句话;跑了几轮之后,它已经装满了工具查回来的数据、模型的中间判断、检索到的文档。正是这份不断变厚的状态,让 Agent 能「记着上文」把长任务接着往下做。
这是整张图的核心控制流,图里给它的定性是「闭环迭代」,并写明循环会一直转,直到任务完成或达成退出条件。它由四个阶段组成(其中 Plan 是可选的):
理解问题、分析现状、回忆相关信息、发现关键点、形成思路。这是每一轮的起点——先想清楚「现在是什么情况、该往哪走」。
制定计划、拆解任务、选择策略、确定下一步。图里特别标注:Plan 是可选的,「部分范式中并入 Think」——也就是说有些 Agent 不单独设 Plan 阶段,而是把规划直接揉进思考里。
选择要使用的资源(Skill / Workflow / Tool)并执行行动。这是唯一真正「动手」的阶段——图里强调「每轮 Act 时按需调用资源」,资源是在这一步被挑选和触发的。
接收结果、分析反馈、评估进展,并回答两个决定命运的问题:「是否完成?」「需要调整吗?」 这一步的判断决定了:跳出循环交付,还是带着新观察回到 Think 再转一圈。
流水线是走一遍就完(A→B→C→出货);闭环是Observe 会把控制权送回 Think,形成回路。正因如此,Agent 才能在中途发现「数据不对/方向偏了」时自我纠偏,而不是一条道走到黑。图底部那句「不断的思考、行动、观察和调整」说的就是这个回路。
Act 阶段要「选资源」,那有哪些资源可选?图里列了三类,并特别用一句话点明它们的关系:「横向调用,不是顺序流水线」——意思是这三类不是「先用这个再用那个」的固定次序,而是每一轮 Act 按当下需要横向挑一个来用。
很容易把 Skills → Workflow → Tools 看成三道先后工序,那是错的。图里明说是横向调用:它们是三个并列的资源池,Agent 在每轮 Act 时,按这一步到底需要什么,横向地从中挑一个(可能是调一个 Skill,可能是跑一个 Workflow,也可能是点一个 Tool)。Workflow 内部才是有顺序的;三类资源之间没有固定顺序。
Skills 像大厨的拿手菜(「来一份宫保鸡丁」一句话搞定);Workflow 像一张菜谱流程(备料→切→炒→装盘,一步步走);Tools 像厨房里的各种电器与外部供应(冰箱、烤箱、外卖平台)。做每道菜时,你是横向地看「这一步该用拿手菜、走菜谱、还是开个电器」,而不是被逼着「必须先用完拿手菜才能碰烤箱」。
循环转到要「问模型」的时候,Runtime 得先把一堆零散信息拼成这一轮喂给模型的输入。图里把这一步叫「组装本轮模型输入(动态聚合 Context)」,并列出了拼进去的七种成分:
七种成分是:System Prompt(角色设定) + Instructions(任务指令) + Memory(记忆) + History(历史对话) + Tool Schema(工具描述) + Observations(工具结果) + Retrieved Docs(RAG 检索),聚合后 → 生成本轮 Model Context(输入)。
为什么强调「动态聚合」?因为这不是一份写死的 prompt。每转一轮,History 更长了、Observations 换成了最新的工具结果、Memory 也可能更新——所以每一轮拼给模型的 Context 都是当轮现攒的、内容各不相同。这正是前面 Context「持续累积」在模型输入侧的体现。
模型读完这一轮的 Model Context 后,产出会走向两条路之一:
任务完成,返回最终结果。这条路意味着循环可以结束、把答案交给用户。
需要调用工具,返回调用指令与参数。这条路意味着还没完,得先去动手用个工具,再看结果继续转。
模型每轮输出要么是 Final Answer(→ 结束,交付),要么是 Tool Call(→ 继续,去执行工具再回来)。理解这个二选一,就理解了闭环是怎么被驱动、又是怎么被终止的:只要模型还在吐 Tool Call,循环就继续;一旦吐出 Final Answer,循环就收尾。
当模型选了「Tool Call」这条路,接下来发生的事由 Runtime 执行。图里把它拆成三步,并接上最关键的一环——结果如何流回去:
模型输出一个 Tool Call,指明要用哪个工具、传什么参数。
Runtime 里的工具调度器接过指令,实际去把这个工具跑起来。
工具执行完,产出结果,这个结果就是 Observation(观察)。
「工具执行结果 Observation 回流到 Runtime Context,驱动下一轮推理与行动」——这句话是整张图的枢纽。它把「模型的输出」变回「模型下一轮的输入」,让一次次孤立的调用串成一个真正转起来的循环。
图右侧的「关键概念说明」和右下的「核心原则」,其实是把前面所有块提炼成几条要点。放在一起对照,正好收束全篇。
| 关键概念 | 说的是什么 |
|---|---|
| 闭环迭代 | Agent 通过 Think → Act → Observe 的循环不断逼近目标,直到完成。 |
| 资源按需调用 | Skills / Workflow / Tools 在每一轮 Act 阶段按需选择和调用(横向,不是固定顺序)。 |
| Context 贯穿全程 | Runtime Context 持续累积和更新,每一轮动态聚合为模型输入。 |
| 模型在循环内调用 | Foundation Model 在循环的每一轮被调用,输出驱动下一步决策。 |
| 工具结果回流 | 工具执行结果 Observation 回流到 Runtime Context,驱动下一轮推理与行动。 |
「资源按需调用」对应资源横向挑;「状态持续累积 + Context 贯穿全程」对应那份越堆越厚的 Runtime Context;「模型反复调用」对应大脑在循环里被反复喂输入;「闭环迭代 + 工具结果回流」对应 Observation 把结果送回去、把循环闭上。本质上,它们都在说同一件事的不同侧面:一个会自我更新、自我驱动的循环。
用户给一句自然语言需求;Runtime(Harness)这个不推理的底座,管着状态、循环、工具与预算,托住整场运行;在它之上,Reasoning Loop 以「Think →(Plan)→ Act → Observe」一圈圈转;每轮 Act 时,从 Skills / Workflow / Tools 里横向按需取一个来用;每轮都把七类信息动态聚合成 Context,喂给 Foundation Model 这颗大脑;模型要么给出 Final Answer 收尾,要么发一个 Tool Call;工具跑完的 Observation 回流进 Context,驱动下一轮——如此往复,直到任务完成。
所以最后再强调一次图底部那句题眼:
这不是一条从上到下的流水线,而是一个持续迭代的智能循环。Agent 通过不断的思考、行动、观察和调整,逐步完成复杂任务。