从 Cursor、Devin、Manus 到 LangGraph 与中国开源模型军团,这份文档梳理 2025–2026 年 agent 生态五个层面的现状,并收束到一个核心问题:harness(执行外壳)到底是护城河,还是终将被商品化的耗材?
如果只有 30 秒,这个行业的故事是这样的:2025 年,一批不训练大模型、只做「让模型干活的产品」的第三方公司率先跑出了惊人的商业规模——Cursor 三年做到 20 亿美元年化收入,Manus 上线八个月宣称年化收入破亿美元。但从 2025 年中开始,模型厂商自己下场做产品:Anthropic 的 Claude Code 一年做到 25 亿美元级别的年化收入,OpenAI 重启 Codex,Google 推出 Antigravity。与此同时,中国厂商(Qwen、Kimi、DeepSeek、GLM)用开源权重 + 超低价订阅从底部掀桌子。三股力量交汇,把整个生态逼到一个结构性问题面前:当模型和「壳」由同一家公司做,且开源壳免费、开源模型够用,第三方还剩下什么?
先把「谁在哪一层」画清楚。这个生态大体是一个四层结构:最底层是模型,最上层是用户,中间夹着两层——面向开发者的框架层,和面向使用者的harness/产品层。行业结构之争,争的就是中间这两层的归属。
读完本文你会带走五件事:每个赛道头部玩家的现状(第 03–06 章)、模型厂商下场后的打法(第 07 章),以及一个可以自己检验的行业结构分析框架(第 08 章)。
回到 2023–2024 年:那时 AI 写代码的主流形态是「聊天补全」——你问,它答,你自己复制粘贴。模型已经很聪明,但它像一个被关在玻璃房里的专家:看不到你的文件,碰不到你的终端,改不了你的代码。瓶颈不在智能,而在「手脚」。
于是一类新东西出现了:给模型装上手脚的执行外壳。它负责把模型接进真实环境——读写文件、跑命令、开浏览器、循环验证「改完之后测试过没过」。行业给这层外壳起的名字,就是 harness。2025 年 2 月 Anthropic 发布的 Claude Code 把这个形态定型为「终端里的 agent」,随后一年里被几乎所有厂商复刻。
围绕大模型搭建的一整套执行设施:工具调用、文件读写、终端与沙箱、权限控制、上下文管理、验证循环。模型负责「想」,harness 负责「让想法落地并兜底」。
同一个模型,配不同的 harness,实际表现差距很大——Anthropic 在其 2026 年报告中称,仅基础设施配置就能让基准测试成绩摆动 5 个百分点以上。2026 年 5 月,评测机构 Artificial Analysis 干脆推出了首个按「模型 + harness」整体打分的 Coding Agent Index,承认二者已不可拆开评价。
Claude Code、Cursor、OpenCode 都是 harness;它们可以驱动同一个模型,但工具设计、上下文策略、验证方式各不相同,产出质量也不同。
| 术语 | 一句话解释 |
|---|---|
| Agent(智能体) | 能自己拆解任务、调用工具、根据结果调整下一步的 AI 程序;区别于「一问一答」的聊天机器人。 |
| BYOK | Bring Your Own Key,「自带钥匙」:工具本身免费/开源,你填自己的模型 API key,费用直接付给模型厂商,工具不赚差价。 |
| 开源权重 | 模型参数文件公开可下载,任何人可自己部署、微调甚至商用(视许可证);区别于只给 API 的闭源模型。 |
| MoE | Mixture of Experts,混合专家架构:模型总参数极大,但每次推理只激活一小部分,「体量大、油耗低」。写作「1T 总参 / 32B 激活」。 |
| ARR / 年化收入 | Annualized Run-Rate Revenue:把最近的月收入 ×12 得出的年化口径,创业公司常用来展示增长势头,注意它不等于实际年收入。 |
| SWE-bench / Terminal-Bench | 两个主流 agent 编程基准:前者测「修真实 GitHub issue」的能力,后者测「在终端里完成任务」的能力。 |
| MCP | Model Context Protocol,Anthropic 2024 年底提出的开放协议,让 agent 用统一方式接外部工具与数据源,已成事实标准之一。 |
| Acqui-hire / 反向收购雇佣 | 大公司不买公司、只「买人 + 授权技术」的操作;Google 对 Windsurf 创始团队的 24 亿美元交易即典型案例。 |
下面这条时间线值得花一分钟看完——生态的每一次结构变化,几乎都能对应到其中某个事件。
💡 读时间线的一个视角:2025 年上半年的主角是第三方(Cursor/Manus 的爆发);下半年主角换成模型厂商(Codex 重启、Claude Code 冲刺 $1B);2026 年的主角则是「资本收编」与「中国开源」。三幕戏,正好对应第 08 章要讨论的三股结构性力量。
编程是 agent 落地最快的场景,原因很朴素:代码任务有明确的对错反馈(测试通过与否),模型可以自我验证、自我修正,这正是 agent 循环最需要的土壤。也因此,这条赛道聚集了最多的钱和最激烈的结构冲突。四个代表玩家,恰好代表四种不同的生存策略。
Cursor 是一个 VS Code 的深度改造版(fork),核心体验是「Tab 补全 + 内嵌 agent」。它的商业成绩是全行业的标杆:据 TechCrunch 报道,其年化收入从 2025 年 1 月的 $100M 一路涨到 2026 年 2 月的 $2B,公司自称 64% 的财富 500 强在使用(注意这是官方口径)。但对理解行业结构而言,Cursor 更重要的是两个动作:
2026 年 6 月 16 日,刚完成 IPO 的 SpaceX 宣布以 $60B 全股票收购 Anysphere(CNBC、TechCrunch 均报道;预计 Q3 交割,尚待监管批准)。最大的独立 harness,最终没有以「独立」收场。
Cognition 走的是另一条路:不做「辅助工具」,直接做「AI 软件工程师」——Devin 从 2024 年发布起就定位为能独立领任务的数字员工。2025 年 7 月的 Windsurf 事变(时间线橙色节点)让它捡到大礼:OpenAI 对 Windsurf 约 $3B 的收购谈崩,Google 以 $2.4B「反向收购雇佣」只带走 CEO 和研究负责人,Cognition 在 72 小时内签约,拿下 Windsurf 的 IP、产品和约 210 名剩余员工(TechCrunch;当时 Windsurf ARR 约 $82M)。
整合效果按其披露相当可观:2026 年 5 月 ARR 达 $492M,Series D 融资超 $1B、投后估值 $26B;2026 年 6 月 2 日 Windsurf 正式更名 Devin Desktop,「自主 agent + IDE」双形态合一。定价上,Devin 以 ACU(计算单元)计量:Core $20/月起,按 $2.25/ACU 计费;企业版主打 VPC 私有部署与合规——Goldman Sachs、Mercedes-Benz、NASA 等被列为客户。企业集成与私有化,是它区别于 Cursor 的护城河叙事。
Cline 是 VS Code 生态里最大的开源 coding agent 扩展(约 500 万安装、48k star),核心主张是 BYOK:工具开源免费,用户自带模型 key,费用直接付给模型商,Cline 不加价、prompt 全透明。2025 年它完成 $32M 融资(Emergence、Pace 领投),推出面向企业的 Cline Teams(集中计费、组织管理),并宣称 SAP、三星等将其作为选用的 coding agent。它证明了一件事:在第一方和闭源第三方的夹缝里,「透明 + 中立」本身可以是卖点——尤其对不愿被单一模型厂商锁定的企业。
OpenCode(由 SST 团队创建,现属 Anomaly Innovations)是终端 TUI 形态的开源 harness,接入 75+ 模型提供商,Plan/Build 双模式切换。它最惊人的数据是:截至 2026 年 6 月,GitHub star 约 18 万,超过了 Claude Code 本体(约 13.5 万)。一个不收一分钱的社区项目,在开发者声量上压过年入 25 亿美元的官方产品——这就是「harness 商品化」论最直观的证据:壳的功能本身,社区几个月就能追平。
| 玩家 | 形态 | 商业模式 | 模型策略 | 2026 年中状态 |
|---|---|---|---|---|
| Cursor | VS Code fork(IDE) | 订阅($16+/月) | 多模型路由 + 自研 Composer(基于 Kimi K2.5 底座) | ARR ~$2.6B;被 SpaceX $60B 收购(待交割) |
| Devin / Cognition | 自主 agent + IDE(Devin Desktop) | $20/月起 + ACU 用量计费;企业 VPC | 依赖前沿闭源模型 + 自研中 | ARR $492M;估值 $26B |
| Cline | 开源 VS Code 扩展 / CLI / SDK | 工具免费,BYOK;企业版 Teams 收费 | 完全中立,任意模型 | 5M 安装;$32M 融资 |
| OpenCode | 开源终端 TUI | 完全免费,只付模型钱 | 75+ 提供商,极端中立 | ~180k star,超越 Claude Code |
🔎 本章小结:四家代表四条路——Cursor 证明「壳可以长成模型公司,但终局是被收购」;Cognition 证明「企业集成是真护城河」;Cline 和 OpenCode 则证明「壳的基础功能正在归零定价」。这三个结论会在第 08 章重新汇合。
如果说编程 agent 服务的是开发者,通用 agent 想服务的是所有打工人:丢给它一句「帮我筛这 50 份简历」「做一份行业分析报告」,它在云端虚拟机里自己开浏览器、查资料、写文件,最后交付成品。这个品类的开创者叙事属于 Manus。
3 月 6 日邀请制上线,演示视频(自主筛简历、做股票分析)20 小时破百万播放,邀请码一度被炒卖。公司 Butterfly Effect 创立于中国、后总部迁至新加坡。
4 月获 Benchmark 领投 $75M Series B(腾讯、红杉中国 HSG 亦为股东);上线八个月后公司宣称年化收入超过 $100M(官方口径)。
Meta 宣布收购 Manus,报道口径交易估值 $2–3B(CNBC)——巨头用支票承认了「通用 agent」品类。
4 月 27 日,中国发改委叫停该交易,要求撤回;6 月 15 日 Meta 宣布正式与 Manus 切割(SiliconANGLE 等报道)。Manus 回到独立运营状态,产品仍在增长。
Manus 的技术本质并不神秘:它不训练前沿大模型,而是在别人的模型(公开报道多次提及 Claude 系)之上做多 agent 编排 + 云端虚拟机 + 任务模板——一个面向普通用户的通用 harness。它的三幕剧因此格外有结构意义:市场先用真金白银证明这层壳有价值($2–3B 估值),地缘监管又证明这层壳的归属已是国家级议题。
Manus 最直接的对手 Genspark(MainFunc,前百度高管 Eric Jing 等创办,注册于帕洛阿尔托)走「Mixture-of-Agents」路线——同一任务混用 GPT、Claude、Gemini 多家模型互相校验。据 Sacra 估算,其 ARR 在 2026 年 1 月达 $100M,官方称 2026 年 4 月突破 $250M(上线仅 12 个月),同期 Series B 扩至 $385M。此外这个品类还有 Kortix 等玩家,以及一个绕不开的对手:ChatGPT 和 Claude 自己——两者都在往「自带浏览器、自带虚拟机」的方向演进,通用 agent 创业公司与模型厂商的正面碰撞比编程赛道来得更直接。
⚠️ 社区视角的冷水(观点,非事实):TechTimes 等媒体在 2026 年 5 月的评论指出,这个品类「融资远远跑在证明有效之前」——高额 token 成本、任务成功率不稳定、与基座模型产品的同质化,都是公开讨论中的常见质疑。引用时请与官方增长口径对照着看。
框架层和上面两章的「产品」不同:它卖给的是要自己搭 agent 的开发者。2023–2024 年这里曾百花齐放,但到 2026 年,主线剧情只有一个词:合并收敛。原因也直白——框架本身极难收费(都开源),真正能收钱的是框架背后的平台(观测、托管、企业治理),而平台生意有规模效应,养不活太多家。
💡 框架层的结构判断:这一层商品化最彻底——五个主流框架全部开源免费,没有一家靠框架本身赚钱。选型建议因此很简单:企业长线项目看 LangGraph 或 Microsoft Agent Framework(有稳定承诺),快速原型看 CrewAI 或 smolagents,而任何绑定单一厂商可视化建站工具的方案都要三思(Agent Builder 的下场就在眼前)。
中国厂商在这场结构之争里扮演的角色非常清晰,可以概括成一套组合拳:模型权重开源(逼近闭源前沿)→ API 和订阅卖到极低价 → 自带一个复刻 Claude Code 形态的 CLI。这套打法不直接与美国第一方拼产品,而是釜底抽薪——把「模型智能」这个上游原料的价格打下来,从而系统性地强化「harness 商品化」一侧的论据。
2025 年 7 月的 Qwen3-Coder(480B 总参 / 35B 激活,MoE)是开源 agent 编程模型的标志性release,官方称其 agentic coding 能力比肩当时的 Claude Sonnet 4。配套的 Qwen Code CLI(Apache 2.0)长期提供免费 API 额度——社区普遍解读为市场份额补贴。2026 年的 Qwen3-Coder-Next 走向另一个极端:80B 总参、仅 3B 激活,专为「便宜地跑长程 agent 循环」设计。
Moonshot 的 K2(2025.7 开源权重)以编程能力出圈;9 月上线的 OK Computer 把 Kimi 变成能产出多页网站、可编辑幻灯片的通用 agent(对标 Manus);2026 年 1 月 K2.5(1T 总参 / 32B 激活)、4 月 K2.6 相继发布,官方称 K2.6 的 Agent Swarm 可协调 300 个子 agent(官方宣传口径)。但 Kimi 在行业结构里最重要的一笔,是Cursor 的 Composer 2 公开承认以 K2.5 base 为底座——中国开源权重不再只是「便宜替代品」,而是成了美国头部产品的上游。
DeepSeek V4(2026 上半年发布)分两档:V4-Pro(1.6T 总参 / 49B 激活)与 V4-Flash(284B / 13B),均支持 1M 上下文、MIT 许可。多个第三方评测称 V4-Pro 在 LiveCodeBench 等编程基准上领先包括闭源模型在内的所有对手(以各评测原文为准)。它同时提供官方 CLI「Deep Code」,并被 Claude Code、OpenCode 等主流 harness 直接列为可选模型——开源模型与开源壳的自由组合,正是第一方订阅捆绑的最大解构力量。
智谱的打法最贴身:GLM Coding Plan 以约 $10/月起的价格,提供兼容 Claude Code 等主流 harness 的模型服务——你继续用你喜欢的壳,只是把里面的模型换成 GLM。2026 年 2 月 12 日 GLM-5 发布(官方称编程能力对齐 Claude Opus 4.5),Coding Plan 当日售罄,随后因灰度太慢等问题于 2 月 21 日公开致歉;此后 GLM-5.1(3 月)、GLM-5.2(6 月 13 日,~753B MoE、MIT 许可、1M 上下文)快速迭代。这是「模型作为可插拔耗材」最纯粹的商业形态。
🧭 对行业结构的含义:中国生态的存在,让「换掉模型」从理论可能变成了日常操作——OpenRouter、CLIProxyAPI、OpenClaw 这类路由/网关工具专门服务于此。上游原料越便宜、越可替换,壳的「多模型中立」策略就越有生存空间;但同一件事反过来也压缩了壳靠转售 token 赚差价的利润。低价是双刃剑,第 08 章展开。
理解了第三方,再看第一方就清楚了:三大模型厂商在 2025 年先后想通了同一件事——与其把模型批发给别人做产品,不如自己直接触达用户,既拿走产品利润,又拿到最宝贵的真实使用数据。但三家的落子方式并不相同。
Claude Code(2025 年 2 月亮相、5 月 GA)定义了「终端 agent」这个形态:纯命令行、直接操作代码库、hooks/子 agent/MCP 全套可扩展。商业成绩是第一方下场论最硬的证据:2025 年 11 月年化收入破 $1B,2026 年初翻倍至 $2.5B+,占 Anthropic 企业收入的一半以上(公司披露口径);第三方统计称 2026 年 2 月约 4% 的公开 GitHub 提交由 Claude Code 署名。同时 Anthropic 通过 Agent SDK 把 Claude Code 的底层开放出来——既做产品,又当第三方的地基,两头下注。
OpenAI 在 2025 年 5 月把旧品牌 Codex 重启为云端自主编程 agent(独立沙箱里长时间跑任务),CLI 与桌面端随 ChatGPT 订阅捆绑。其 2026 年公开的技术叙事「harness engineering」揭示了更深的意图:让模型原生学会使用工具和沙箱,把过去属于外壳的能力内化到模型层(所谓 model-native harness)。如果这条路走通,第三方壳的技术空间会被从下方直接抽走。基准上,Codex + GPT-5.x 组合在 Terminal-Bench 上领先,Claude 系在 SWE-bench 上领先(2026 年中各评测口径)。
Google 起步稍晚但动作最大:2025 年 6 月的 Gemini CLI 以每天 1000 次免费请求横扫入门市场;2025 年 11 月推出 agent 优先的 IDE「Antigravity」;到 I/O 2026(5 月),Antigravity 2.0 升级为完整桌面平台(并行管理多个本地 agent、定时任务),Gemini CLI 品牌整体过渡为 Antigravity CLI,同时在 Gemini API 里推出 Managed Agents——一个 API 调用就给你一个带 Linux 沙箱的托管 agent。官方明确宣传其 harness 与 Gemini 3.5 联合优化(co-optimized)——垂直整合说得最直白的一家。注意一个细节:连 Google 自己的 harness 品牌(Gemini CLI)都在一年内被合并重组——第一方的壳同样在剧烈换代。
| 厂商 | 产品线 | 战略重心 | 对第三方的挤压方式 |
|---|---|---|---|
| Anthropic | Claude Code + Agent SDK | 品类定义者,收入验证 | 订阅捆绑 + 最强编程模型的「亲儿子」体验;同时向第三方供 SDK,两头下注 |
| OpenAI | Codex(云端+CLI)+ Agents SDK | 把 harness 能力内化进模型 | model-native:模型越强,外壳的独立价值越小 |
| Antigravity 平台 + Managed Agents API | 平台化 + 免费额度换分发 | 价格战(免费额度)+ 与自家全家桶(Chrome/Cloud/Android)绑定 |
💡 一个别忽略的信号:2026 年上半年,多家媒体报道 Claude Code、Copilot、Codex、Gemini 系产品先后提价或收紧用量。第一方靠补贴换份额的阶段正在过去——这对按用量透明计费的第三方(Cline、Devin 的 ACU 模式)反而是相对利好。
前面七章的所有事实,最终都在喂养两套针锋相对的叙事。先把两边最强的证据摆出来,再给出综合判断。
证据链完整:Windsurf 在被三家轮番争夺后失去独立存在;OpenAI 自己的 Agent Builder 两年内停服;开源社区把基础壳的价格打到零。只做「模型 API + 好看界面」的公司,2026 年已无新故事。
企业不愿被单一模型厂商锁定,这是真实需求(Cline 的 SAP/三星案例、Cursor 的路由降本、OpenRouter 的存在都是证据)。但注意其内在矛盾:中立做得最成功的 Cursor,最终选择自研模型——中立可能是通往垂直整合的过渡态,而非稳定终态。
Tab 补全的手感(Cursor)、终端 TUI 的极简(OpenCode)、并行 agent 管理(Antigravity/Devin)——体验差异真实存在且用户愿意付费。但这是最脆弱的一块:UX 可以被抄,且第一方抄起来带着订阅捆绑的价格优势。
VPC 部署、SSO、审计、PII 治理、与存量系统的缝合(Devin Enterprise、CrewAI 平台、Cline Teams 的卖点全在此)。这块空间最持久——模型厂商没有动力去做每个行业的脏活,「outer harness」(业务规则、验证、权限)天然属于买方和贴身服务商。社区把这个分工总结为:labs 吃掉通用 inner harness,企业侧 outer harness 留给第三方。
2025.7 Windsurf→Cognition;2025.12 Manus→Meta(被中国监管叫停,暴露地缘变量);2026.6 Cursor→SpaceX($60B)。三个头部案例无一例外走向「并入更大的资本/算力体」;而尚未被收购的 Cognition 和被收购前的 Cursor,都选择了自研模型。两条终局路径,没有第三条叫「永远做独立的壳」。
OpenCode/Cline 把壳变成公共品后,竞争焦点被迫上移到「模型 + 订阅 + 数据飞轮」——恰恰是第一方最强的三样。开源壳杀死的不是第一方,而是平庸的闭源第三方。
⚠️ 本判断的不确定性,诚实列出:① model-native harness 若完全走通,幸存空间二会进一步收窄——目前它仍是 OpenAI 的方向性叙事而非既成事实;② 中国开源模型能否长期保持前沿水平存在政策与算力变量;③ SpaceX-Cursor 尚未交割,Meta-Manus 的反转说明大额并购在当前地缘环境下随时可能生变;④ 各家 ARR 均为公司口径的年化数,横向比较需谨慎。
2025–2026 年的 agent 生态完成了一次「价值层级的显影」:框架层已经归零商品化;通用壳的功能正在归零商品化;真正守得住的只有三样东西——模型与壳的联合优化能力、真实使用数据的飞轮、以及通往企业和用户的分发管道。第三方的理性策略因此不是「做更好的壳」,而是三选一:向下长出模型(Cursor 路线)、向企业扎根合规集成(Devin/Cline 路线)、或把壳彻底开源换取生态位(OpenCode 路线)。至于模型厂商——它们下场做壳从来不是为了壳,而是为了数据和入口。看懂这一点,后面每一条新闻都不再意外。