Agent Ecosystem · Industry Structure

第三方 Agent 生态与行业结构
——当模型厂商亲自下场做「壳」之后

从 Cursor、Devin、Manus 到 LangGraph 与中国开源模型军团,这份文档梳理 2025–2026 年 agent 生态五个层面的现状,并收束到一个核心问题:harness(执行外壳)到底是护城河,还是终将被商品化的耗材?

调研时间:2026-07-05 · 基于 20+ 公开来源交叉核实 · 快速迭代领域,细节请以官方最新文档为准

🗺️ 01 · 开篇速览:30 秒版本

先看全貌,再逐层深入

如果只有 30 秒,这个行业的故事是这样的:2025 年,一批不训练大模型、只做「让模型干活的产品」的第三方公司率先跑出了惊人的商业规模——Cursor 三年做到 20 亿美元年化收入,Manus 上线八个月宣称年化收入破亿美元。但从 2025 年中开始,模型厂商自己下场做产品:Anthropic 的 Claude Code 一年做到 25 亿美元级别的年化收入,OpenAI 重启 Codex,Google 推出 Antigravity。与此同时,中国厂商(Qwen、Kimi、DeepSeek、GLM)用开源权重 + 超低价订阅从底部掀桌子。三股力量交汇,把整个生态逼到一个结构性问题面前:当模型和「壳」由同一家公司做,且开源壳免费、开源模型够用,第三方还剩下什么?

$2.6B

Cursor 年化收入(2026.6,被 SpaceX 以 $60B 全股票收购前)

$2.5B+

Claude Code 年化收入(2026 年初,上线仅约一年)

180k+

OpenCode GitHub star 数——一个完全免费的开源 harness,star 超过 Claude Code

先把「谁在哪一层」画清楚。这个生态大体是一个四层结构:最底层是模型,最上层是用户,中间夹着两层——面向开发者的框架层,和面向使用者的harness/产品层。行业结构之争,争的就是中间这两层的归属。

图 1 · Agent 生态四层定位图:行业结构之争的本质,是中间两层(harness 层与框架层)的价值归属之争——模型厂商在向上吃,开源社区在把价格打到零。

读完本文你会带走五件事:每个赛道头部玩家的现状(第 03–06 章)、模型厂商下场后的打法(第 07 章),以及一个可以自己检验的行业结构分析框架(第 08 章)。

🧩 02 · 背景与关键术语:为什么 2025 年是分水岭

先补齐词汇表,后面的故事才读得顺

回到 2023–2024 年:那时 AI 写代码的主流形态是「聊天补全」——你问,它答,你自己复制粘贴。模型已经很聪明,但它像一个被关在玻璃房里的专家:看不到你的文件,碰不到你的终端,改不了你的代码。瓶颈不在智能,而在「手脚」。

于是一类新东西出现了:给模型装上手脚的执行外壳。它负责把模型接进真实环境——读写文件、跑命令、开浏览器、循环验证「改完之后测试过没过」。行业给这层外壳起的名字,就是 harness。2025 年 2 月 Anthropic 发布的 Claude Code 把这个形态定型为「终端里的 agent」,随后一年里被几乎所有厂商复刻。

📖 核心术语:Harness(执行外壳)

是什么

围绕大模型搭建的一整套执行设施:工具调用、文件读写、终端与沙箱、权限控制、上下文管理、验证循环。模型负责「想」,harness 负责「让想法落地并兜底」。

为什么重要

同一个模型,配不同的 harness,实际表现差距很大——Anthropic 在其 2026 年报告中称,仅基础设施配置就能让基准测试成绩摆动 5 个百分点以上。2026 年 5 月,评测机构 Artificial Analysis 干脆推出了首个按「模型 + harness」整体打分的 Coding Agent Index,承认二者已不可拆开评价。

例子

Claude Code、Cursor、OpenCode 都是 harness;它们可以驱动同一个模型,但工具设计、上下文策略、验证方式各不相同,产出质量也不同。

💬 换个说法讲一遍

把大模型想成一台很强的发动机。发动机自己不能上路——需要底盘、变速箱、方向盘、刹车。harness 就是这套「除了发动机之外的整车工程」。行业争论的「harness 商品化」,本质上是在问:整车厂(第三方产品公司)有没有独立价值,还是发动机厂(模型厂商)顺手就把车也造了?

术语	一句话解释
Agent(智能体)	能自己拆解任务、调用工具、根据结果调整下一步的 AI 程序;区别于「一问一答」的聊天机器人。
BYOK	Bring Your Own Key,「自带钥匙」:工具本身免费/开源,你填自己的模型 API key,费用直接付给模型厂商,工具不赚差价。
开源权重	模型参数文件公开可下载,任何人可自己部署、微调甚至商用(视许可证);区别于只给 API 的闭源模型。
MoE	Mixture of Experts,混合专家架构:模型总参数极大,但每次推理只激活一小部分,「体量大、油耗低」。写作「1T 总参 / 32B 激活」。
ARR / 年化收入	Annualized Run-Rate Revenue:把最近的月收入 ×12 得出的年化口径,创业公司常用来展示增长势头,注意它不等于实际年收入。
SWE-bench / Terminal-Bench	两个主流 agent 编程基准:前者测「修真实 GitHub issue」的能力,后者测「在终端里完成任务」的能力。
MCP	Model Context Protocol,Anthropic 2024 年底提出的开放协议,让 agent 用统一方式接外部工具与数据源,已成事实标准之一。
Acqui-hire / 反向收购雇佣	大公司不买公司、只「买人 + 授权技术」的操作;Google 对 Windsurf 创始团队的 24 亿美元交易即典型案例。

⏳ 两年时间线:从实验品到万亿级并购

下面这条时间线值得花一分钟看完——生态的每一次结构变化,几乎都能对应到其中某个事件。

图 2 · 2024.10–2026.7 生态时间线。橙色节点是三次「结构性事件」:Windsurf 事变、Meta-Manus 收购与被叫停、SpaceX 收购 Cursor——它们共同揭示了第三方 harness 的终局形态(详见第 08 章)。

💡 读时间线的一个视角:2025 年上半年的主角是第三方(Cursor/Manus 的爆发);下半年主角换成模型厂商(Codex 重启、Claude Code 冲刺 $1B);2026 年的主角则是「资本收编」与「中国开源」。三幕戏,正好对应第 08 章要讨论的三股结构性力量。

💻 03 · IDE / 编程类第三方:钱最多、火最旺的战场

Cursor · Cognition(Devin + Windsurf)· Cline · OpenCode

编程是 agent 落地最快的场景,原因很朴素:代码任务有明确的对错反馈(测试通过与否),模型可以自我验证、自我修正,这正是 agent 循环最需要的土壤。也因此,这条赛道聚集了最多的钱和最激烈的结构冲突。四个代表玩家,恰好代表四种不同的生存策略。

🖱️ Cursor(Anysphere):从「壳」长成「模型公司」,再被 $60B 收购

Cursor 是一个 VS Code 的深度改造版(fork),核心体验是「Tab 补全 + 内嵌 agent」。它的商业成绩是全行业的标杆:据 TechCrunch 报道,其年化收入从 2025 年 1 月的 $100M 一路涨到 2026 年 2 月的 $2B,公司自称 64% 的财富 500 强在使用(注意这是官方口径)。但对理解行业结构而言,Cursor 更重要的是两个动作:

自研模型 Composer(2025.11):不再纯粹依赖 Anthropic/OpenAI。2026 年 3 月的 Composer 2 技术报告披露,它以开源的 Kimi K2.5 base 为底座继续预训练,再在模拟 Cursor 使用场景的环境里做大规模强化学习——一家美国明星公司的自研模型,建立在中国开源权重之上,这是 2026 年生态最有象征意义的事实之一。
多模型路由降本:把部分流量路由到更便宜的模型(包括中国模型),据报道借此实现了毛利转正——「多模型中立」在这里首先是一门成本生意。

2026 年 6 月 16 日,刚完成 IPO 的 SpaceX 宣布以 $60B 全股票收购 Anysphere(CNBC、TechCrunch 均报道;预计 Q3 交割,尚待监管批准)。最大的独立 harness,最终没有以「独立」收场。

🤖 Cognition(Devin)+ Windsurf:一场并购吃出双形态

Cognition 走的是另一条路:不做「辅助工具」,直接做「AI 软件工程师」——Devin 从 2024 年发布起就定位为能独立领任务的数字员工。2025 年 7 月的 Windsurf 事变(时间线橙色节点)让它捡到大礼:OpenAI 对 Windsurf 约 $3B 的收购谈崩,Google 以 $2.4B「反向收购雇佣」只带走 CEO 和研究负责人,Cognition 在 72 小时内签约,拿下 Windsurf 的 IP、产品和约 210 名剩余员工(TechCrunch;当时 Windsurf ARR 约 $82M)。

整合效果按其披露相当可观:2026 年 5 月 ARR 达 $492M,Series D 融资超 $1B、投后估值 $26B;2026 年 6 月 2 日 Windsurf 正式更名 Devin Desktop,「自主 agent + IDE」双形态合一。定价上,Devin 以 ACU(计算单元)计量:Core $20/月起,按 $2.25/ACU 计费;企业版主打 VPC 私有部署与合规——Goldman Sachs、Mercedes-Benz、NASA 等被列为客户。企业集成与私有化,是它区别于 Cursor 的护城河叙事。

🔓 Cline:开源 + BYOK,「不赚 token 差价」的透明路线

Cline 是 VS Code 生态里最大的开源 coding agent 扩展(约 500 万安装、48k star),核心主张是 BYOK:工具开源免费,用户自带模型 key,费用直接付给模型商,Cline 不加价、prompt 全透明。2025 年它完成 $32M 融资(Emergence、Pace 领投),推出面向企业的 Cline Teams(集中计费、组织管理),并宣称 SAP、三星等将其作为选用的 coding agent。它证明了一件事:在第一方和闭源第三方的夹缝里,「透明 + 中立」本身可以是卖点——尤其对不愿被单一模型厂商锁定的企业。

⌨️ OpenCode:star 数超过 Claude Code 的免费终端 agent

OpenCode(由 SST 团队创建,现属 Anomaly Innovations)是终端 TUI 形态的开源 harness,接入 75+ 模型提供商,Plan/Build 双模式切换。它最惊人的数据是:截至 2026 年 6 月,GitHub star 约 18 万,超过了 Claude Code 本体(约 13.5 万)。一个不收一分钱的社区项目,在开发者声量上压过年入 25 亿美元的官方产品——这就是「harness 商品化」论最直观的证据:壳的功能本身,社区几个月就能追平。

玩家	形态	商业模式	模型策略	2026 年中状态
Cursor	VS Code fork(IDE)	订阅($16+/月)	多模型路由 + 自研 Composer(基于 Kimi K2.5 底座)	ARR ~$2.6B;被 SpaceX $60B 收购(待交割)
Devin / Cognition	自主 agent + IDE(Devin Desktop)	$20/月起 + ACU 用量计费;企业 VPC	依赖前沿闭源模型 + 自研中	ARR $492M;估值 $26B
Cline	开源 VS Code 扩展 / CLI / SDK	工具免费,BYOK;企业版 Teams 收费	完全中立,任意模型	5M 安装;$32M 融资
OpenCode	开源终端 TUI	完全免费,只付模型钱	75+ 提供商,极端中立	~180k star,超越 Claude Code

🔎 本章小结:四家代表四条路——Cursor 证明「壳可以长成模型公司,但终局是被收购」;Cognition 证明「企业集成是真护城河」;Cline 和 OpenCode 则证明「壳的基础功能正在归零定价」。这三个结论会在第 08 章重新汇合。

🤖 04 · 通用自主 Agent:Manus 现象与它的同类

「给 AI 一台云端电脑,让它替你把整件事做完」

如果说编程 agent 服务的是开发者,通用 agent 想服务的是所有打工人:丢给它一句「帮我筛这 50 份简历」「做一份行业分析报告」,它在云端虚拟机里自己开浏览器、查资料、写文件,最后交付成品。这个品类的开创者叙事属于 Manus。

🦋 Manus(Butterfly Effect):爆红、收编、又被叫停的三幕剧

爆红(2025.3)

3 月 6 日邀请制上线,演示视频(自主筛简历、做股票分析)20 小时破百万播放,邀请码一度被炒卖。公司 Butterfly Effect 创立于中国、后总部迁至新加坡。

商业化超预期(2025)

4 月获 Benchmark 领投 $75M Series B(腾讯、红杉中国 HSG 亦为股东);上线八个月后公司宣称年化收入超过 $100M(官方口径)。

Meta 收购(2025.12)

Meta 宣布收购 Manus,报道口径交易估值 $2–3B(CNBC)——巨头用支票承认了「通用 agent」品类。

监管反转(2026.4–6)

4 月 27 日,中国发改委叫停该交易,要求撤回;6 月 15 日 Meta 宣布正式与 Manus 切割(SiliconANGLE 等报道)。Manus 回到独立运营状态,产品仍在增长。

Manus 的技术本质并不神秘:它不训练前沿大模型,而是在别人的模型(公开报道多次提及 Claude 系)之上做多 agent 编排 + 云端虚拟机 + 任务模板——一个面向普通用户的通用 harness。它的三幕剧因此格外有结构意义:市场先用真金白银证明这层壳有价值($2–3B 估值),地缘监管又证明这层壳的归属已是国家级议题。

✨ Genspark 及同类:第二名反而跑得更快?

Manus 最直接的对手 Genspark(MainFunc,前百度高管 Eric Jing 等创办,注册于帕洛阿尔托)走「Mixture-of-Agents」路线——同一任务混用 GPT、Claude、Gemini 多家模型互相校验。据 Sacra 估算,其 ARR 在 2026 年 1 月达 $100M,官方称 2026 年 4 月突破 $250M(上线仅 12 个月),同期 Series B 扩至 $385M。此外这个品类还有 Kortix 等玩家,以及一个绕不开的对手:ChatGPT 和 Claude 自己——两者都在往「自带浏览器、自带虚拟机」的方向演进,通用 agent 创业公司与模型厂商的正面碰撞比编程赛道来得更直接。

⚠️ 社区视角的冷水(观点,非事实):TechTimes 等媒体在 2026 年 5 月的评论指出,这个品类「融资远远跑在证明有效之前」——高额 token 成本、任务成功率不稳定、与基座模型产品的同质化,都是公开讨论中的常见质疑。引用时请与官方增长口径对照着看。

🧱 05 · 框架层:从百花齐放到加速合并

LangGraph · CrewAI · OpenAI Swarm→Agents SDK · Microsoft Agent Framework · smolagents

框架层和上面两章的「产品」不同:它卖给的是要自己搭 agent 的开发者。2023–2024 年这里曾百花齐放,但到 2026 年,主线剧情只有一个词:合并收敛。原因也直白——框架本身极难收费(都开源),真正能收钱的是框架背后的平台(观测、托管、企业治理),而平台生意有规模效应,养不活太多家。

图 3 · 框架层的三条演化线:OpenAI 两年内换了三代方案(且高层封装 Agent Builder 已宣布停服);Microsoft 把两个框架合并成一个;LangChain 系收敛到 LangGraph 1.0。存活逻辑全都指向「框架免费、平台收费」。

各家一句话画像 + 关键事实

LangGraph:把 agent 建模为「图状态机」,主打持久化执行(服务器重启后 agent 还能接着跑)。2025 年 10 月与 LangChain 同步发布 1.0,承诺 2.0 前不破坏兼容;官方列出 Uber、LinkedIn、Klarna、JPMorgan 等生产用户。事实上的企业自建 agent 默认选项,真正的收入来自 LangSmith(观测/评估平台)。
CrewAI:「角色扮演式」多 agent(研究员 + 写手 + 审校协作),上手最快。$18M Series A(Insight Partners 领投);官方宣称过去 12 个月约 20 亿次执行、60% 财富 500 强有使用(注意为官方口径)。收费点在企业平台:SOC2、SSO、PII 脱敏等治理能力。
OpenAI Swarm → Agents SDK:Swarm 只是 2024 年 10 月的教育实验;2025 年 3 月被生产级的 Agents SDK 取代(保留 handoff 概念,加上 guardrails、tracing、sessions)。2026 年的演化方向值得注意:沙箱执行与「模型原生 harness」——把原本属于外壳的能力直接吸进模型与 SDK。而 DevDay 2025 发布的 AgentKit 中,可视化的 Agent Builder 与 Evals 已宣布于 2026 年 11 月 30 日停服:连平台方自己的高层封装都活不过两年,这是框架层选型最重要的一课。
Microsoft Agent Framework:2026 年 4 月 3 日 1.0 发布,正式合并 AutoGen(研究向多 agent)与 Semantic Kernel(企业向 SDK),两个旧框架进入只修 bug 的维护模式。微软系企业的默认答案。
smolagents:Hugging Face 出品,~28k star,理念独特——agent 用「写 Python 代码」而非 JSON 来表达动作(天然支持循环、嵌套)。定位轻量原型与教学,不追求企业平台。

💡 框架层的结构判断:这一层商品化最彻底——五个主流框架全部开源免费,没有一家靠框架本身赚钱。选型建议因此很简单:企业长线项目看 LangGraph 或 Microsoft Agent Framework(有稳定承诺),快速原型看 CrewAI 或 smolagents,而任何绑定单一厂商可视化建站工具的方案都要三思(Agent Builder 的下场就在眼前)。

🇨🇳 06 · 中国生态:开源权重 + 低价订阅的「掀桌子」打法

Qwen · Kimi(Moonshot)· DeepSeek · GLM(智谱 / Z.ai)

中国厂商在这场结构之争里扮演的角色非常清晰,可以概括成一套组合拳:模型权重开源(逼近闭源前沿)→ API 和订阅卖到极低价 → 自带一个复刻 Claude Code 形态的 CLI。这套打法不直接与美国第一方拼产品,而是釜底抽薪——把「模型智能」这个上游原料的价格打下来,从而系统性地强化「harness 商品化」一侧的论据。

🌊 Qwen(阿里):最激进的开源 + 免费补贴

2025 年 7 月的 Qwen3-Coder(480B 总参 / 35B 激活,MoE)是开源 agent 编程模型的标志性release,官方称其 agentic coding 能力比肩当时的 Claude Sonnet 4。配套的 Qwen Code CLI(Apache 2.0)长期提供免费 API 额度——社区普遍解读为市场份额补贴。2026 年的 Qwen3-Coder-Next 走向另一个极端:80B 总参、仅 3B 激活,专为「便宜地跑长程 agent 循环」设计。

🌙 Kimi / Moonshot:从 K2 到「给 Cursor 当底座」

Moonshot 的 K2(2025.7 开源权重)以编程能力出圈;9 月上线的 OK Computer 把 Kimi 变成能产出多页网站、可编辑幻灯片的通用 agent(对标 Manus);2026 年 1 月 K2.5(1T 总参 / 32B 激活)、4 月 K2.6 相继发布,官方称 K2.6 的 Agent Swarm 可协调 300 个子 agent(官方宣传口径)。但 Kimi 在行业结构里最重要的一笔,是Cursor 的 Composer 2 公开承认以 K2.5 base 为底座——中国开源权重不再只是「便宜替代品」,而是成了美国头部产品的上游。

🐋 DeepSeek:极致性价比的开源前沿

DeepSeek V4(2026 上半年发布)分两档:V4-Pro(1.6T 总参 / 49B 激活)与 V4-Flash(284B / 13B),均支持 1M 上下文、MIT 许可。多个第三方评测称 V4-Pro 在 LiveCodeBench 等编程基准上领先包括闭源模型在内的所有对手(以各评测原文为准)。它同时提供官方 CLI「Deep Code」,并被 Claude Code、OpenCode 等主流 harness 直接列为可选模型——开源模型与开源壳的自由组合,正是第一方订阅捆绑的最大解构力量。

📐 GLM / 智谱(Z.ai):用「Coding Plan」直接抢订阅

智谱的打法最贴身:GLM Coding Plan 以约 $10/月起的价格,提供兼容 Claude Code 等主流 harness 的模型服务——你继续用你喜欢的壳,只是把里面的模型换成 GLM。2026 年 2 月 12 日 GLM-5 发布(官方称编程能力对齐 Claude Opus 4.5),Coding Plan 当日售罄,随后因灰度太慢等问题于 2 月 21 日公开致歉;此后 GLM-5.1(3 月)、GLM-5.2(6 月 13 日,~753B MoE、MIT 许可、1M 上下文)快速迭代。这是「模型作为可插拔耗材」最纯粹的商业形态。

MIT / Apache

DeepSeek V4、GLM-5.2、Qwen3-Coder 均以宽松许可开源权重,可商用

~$10/月

GLM Coding Plan 起步价——第一方同类订阅的几分之一

76–78%

GLM-5 / K2.5 在 SWE-bench 上的社区汇总成绩,已进入前沿区间(第三方口径)

🧭 对行业结构的含义:中国生态的存在,让「换掉模型」从理论可能变成了日常操作——OpenRouter、CLIProxyAPI、OpenClaw 这类路由/网关工具专门服务于此。上游原料越便宜、越可替换,壳的「多模型中立」策略就越有生存空间;但同一件事反过来也压缩了壳靠转售 token 赚差价的利润。低价是双刃剑,第 08 章展开。

🏭 07 · 模型厂商下场:第一方 harness 的三种打法

Anthropic · OpenAI · Google——同一个动作,三种战略表达

理解了第三方,再看第一方就清楚了:三大模型厂商在 2025 年先后想通了同一件事——与其把模型批发给别人做产品,不如自己直接触达用户,既拿走产品利润,又拿到最宝贵的真实使用数据。但三家的落子方式并不相同。

Anthropic:Claude Code——先发定义品类,收入证明模式

Claude Code(2025 年 2 月亮相、5 月 GA)定义了「终端 agent」这个形态:纯命令行、直接操作代码库、hooks/子 agent/MCP 全套可扩展。商业成绩是第一方下场论最硬的证据:2025 年 11 月年化收入破 $1B,2026 年初翻倍至 $2.5B+,占 Anthropic 企业收入的一半以上(公司披露口径);第三方统计称 2026 年 2 月约 4% 的公开 GitHub 提交由 Claude Code 署名。同时 Anthropic 通过 Agent SDK 把 Claude Code 的底层开放出来——既做产品,又当第三方的地基,两头下注。

OpenAI:Codex——云端自主 + 把 harness 吸进模型

OpenAI 在 2025 年 5 月把旧品牌 Codex 重启为云端自主编程 agent(独立沙箱里长时间跑任务),CLI 与桌面端随 ChatGPT 订阅捆绑。其 2026 年公开的技术叙事「harness engineering」揭示了更深的意图:让模型原生学会使用工具和沙箱,把过去属于外壳的能力内化到模型层(所谓 model-native harness)。如果这条路走通,第三方壳的技术空间会被从下方直接抽走。基准上,Codex + GPT-5.x 组合在 Terminal-Bench 上领先,Claude 系在 SWE-bench 上领先(2026 年中各评测口径)。

Google:Antigravity——用平台和免费额度打分发战

Google 起步稍晚但动作最大:2025 年 6 月的 Gemini CLI 以每天 1000 次免费请求横扫入门市场;2025 年 11 月推出 agent 优先的 IDE「Antigravity」;到 I/O 2026(5 月),Antigravity 2.0 升级为完整桌面平台(并行管理多个本地 agent、定时任务),Gemini CLI 品牌整体过渡为 Antigravity CLI,同时在 Gemini API 里推出 Managed Agents——一个 API 调用就给你一个带 Linux 沙箱的托管 agent。官方明确宣传其 harness 与 Gemini 3.5 联合优化(co-optimized)——垂直整合说得最直白的一家。注意一个细节:连 Google 自己的 harness 品牌(Gemini CLI)都在一年内被合并重组——第一方的壳同样在剧烈换代。

厂商	产品线	战略重心	对第三方的挤压方式
Anthropic	Claude Code + Agent SDK	品类定义者,收入验证	订阅捆绑 + 最强编程模型的「亲儿子」体验;同时向第三方供 SDK,两头下注
OpenAI	Codex(云端+CLI)+ Agents SDK	把 harness 能力内化进模型	model-native:模型越强,外壳的独立价值越小
Google	Antigravity 平台 + Managed Agents API	平台化 + 免费额度换分发	价格战(免费额度)+ 与自家全家桶(Chrome/Cloud/Android)绑定

💡 一个别忽略的信号:2026 年上半年,多家媒体报道 Claude Code、Copilot、Codex、Gemini 系产品先后提价或收紧用量。第一方靠补贴换份额的阶段正在过去——这对按用量透明计费的第三方(Cline、Devin 的 ACU 模式)反而是相对利好。

⚖️ 08 · 行业结构判断:harness 商品化 vs 垂直整合

两套叙事的证据对撞,以及第三方剩下的三块生存空间

前面七章的所有事实,最终都在喂养两套针锋相对的叙事。先把两边最强的证据摆出来,再给出综合判断。

图 4 · 两套叙事的证据对撞。注意两边引用的是同一个生态的不同侧面——分歧不在事实,而在「哪一层的价值能守住」。

类比

把 harness 想成浏览器史:浏览器「功能」早已商品化(内核开源、免费分发),但 Chrome 依然是 Google 最重要的资产之一——因为它守住的不是功能,而是分发入口和数据回流。2026 年的 agent 壳正在走向同一格局:壳本身不值钱,壳的位置值钱。

🧷 综合判断(本文档的分析,非单一来源结论)

「纯壳」的空间确实在坍缩

证据链完整:Windsurf 在被三家轮番争夺后失去独立存在;OpenAI 自己的 Agent Builder 两年内停服;开源社区把基础壳的价格打到零。只做「模型 API + 好看界面」的公司,2026 年已无新故事。

幸存空间一:多模型中立 + 成本套利

企业不愿被单一模型厂商锁定,这是真实需求(Cline 的 SAP/三星案例、Cursor 的路由降本、OpenRouter 的存在都是证据)。但注意其内在矛盾:中立做得最成功的 Cursor,最终选择自研模型——中立可能是通往垂直整合的过渡态,而非稳定终态。

幸存空间二:差异化 UX 与工作流

Tab 补全的手感(Cursor)、终端 TUI 的极简(OpenCode)、并行 agent 管理(Antigravity/Devin)——体验差异真实存在且用户愿意付费。但这是最脆弱的一块:UX 可以被抄,且第一方抄起来带着订阅捆绑的价格优势。

幸存空间三:企业集成、私有化与合规

VPC 部署、SSO、审计、PII 治理、与存量系统的缝合(Devin Enterprise、CrewAI 平台、Cline Teams 的卖点全在此)。这块空间最持久——模型厂商没有动力去做每个行业的脏活,「outer harness」(业务规则、验证、权限)天然属于买方和贴身服务商。社区把这个分工总结为:labs 吃掉通用 inner harness,企业侧 outer harness 留给第三方。

头部第三方的终局:被收购,或自己变成模型公司

2025.7 Windsurf→Cognition;2025.12 Manus→Meta(被中国监管叫停,暴露地缘变量);2026.6 Cursor→SpaceX($60B)。三个头部案例无一例外走向「并入更大的资本/算力体」;而尚未被收购的 Cognition 和被收购前的 Cursor,都选择了自研模型。两条终局路径,没有第三条叫「永远做独立的壳」。

开源壳的角色:公共品,反而抬高第一方

OpenCode/Cline 把壳变成公共品后,竞争焦点被迫上移到「模型 + 订阅 + 数据飞轮」——恰恰是第一方最强的三样。开源壳杀死的不是第一方,而是平庸的闭源第三方。

⚠️ 本判断的不确定性,诚实列出:① model-native harness 若完全走通,幸存空间二会进一步收窄——目前它仍是 OpenAI 的方向性叙事而非既成事实;② 中国开源模型能否长期保持前沿水平存在政策与算力变量;③ SpaceX-Cursor 尚未交割,Meta-Manus 的反转说明大额并购在当前地缘环境下随时可能生变;④ 各家 ARR 均为公司口径的年化数,横向比较需谨慎。

🎯 一段话收束

2025–2026 年的 agent 生态完成了一次「价值层级的显影」:框架层已经归零商品化;通用壳的功能正在归零商品化;真正守得住的只有三样东西——模型与壳的联合优化能力、真实使用数据的飞轮、以及通往企业和用户的分发管道。第三方的理性策略因此不是「做更好的壳」,而是三选一:向下长出模型(Cursor 路线)、向企业扎根合规集成(Devin/Cline 路线)、或把壳彻底开源换取生态位(OpenCode 路线)。至于模型厂商——它们下场做壳从来不是为了壳,而是为了数据和入口。看懂这一点,后面每一条新闻都不再意外。

📚 09 · 继续深入:资源清单

按「想深入哪一层」组织

看产品与格局:dev.to《Every AI Coding CLI in 2026》(30+ 工具全景表,2026.4)· Artificial Analysis 的 Coding Agent Index(模型+壳整体评测)
看框架:LangGraph 官方文档 docs.langchain.com · Microsoft Agent Framework(learn.microsoft.com/agent-framework)· OpenAI Agents SDK(openai.github.io/openai-agents-python)· smolagents(huggingface.co/docs/smolagents)
看中国生态:QwenLM/qwen-code 与 Qwen3-Coder 的 GitHub · api-docs.deepseek.com(V4 与 Deep Code)· z.ai/subscribe(GLM Coding Plan)· Moonshot 平台 platform.moonshot.ai
看行业结构讨论:OpenAI《Harness engineering》博文 · martinfowler.com 的 harness engineering 系列 · Anthropic《2026 Agentic Coding Trends Report》

第三方 Agent 生态与行业结构——当模型厂商亲自下场做「壳」之后

🗺️ 01 · 开篇速览:30 秒版本

🧩 02 · 背景与关键术语:为什么 2025 年是分水岭

⏳ 两年时间线:从实验品到万亿级并购

💻 03 · IDE / 编程类第三方:钱最多、火最旺的战场

🖱️ Cursor(Anysphere):从「壳」长成「模型公司」,再被 $60B 收购

🤖 Cognition(Devin)+ Windsurf:一场并购吃出双形态

🔓 Cline:开源 + BYOK,「不赚 token 差价」的透明路线

⌨️ OpenCode:star 数超过 Claude Code 的免费终端 agent

🤖 04 · 通用自主 Agent:Manus 现象与它的同类

🦋 Manus(Butterfly Effect):爆红、收编、又被叫停的三幕剧

✨ Genspark 及同类:第二名反而跑得更快?

🧱 05 · 框架层:从百花齐放到加速合并

各家一句话画像 + 关键事实

🇨🇳 06 · 中国生态:开源权重 + 低价订阅的「掀桌子」打法

🌊 Qwen(阿里):最激进的开源 + 免费补贴

🌙 Kimi / Moonshot:从 K2 到「给 Cursor 当底座」

🐋 DeepSeek:极致性价比的开源前沿

📐 GLM / 智谱(Z.ai):用「Coding Plan」直接抢订阅

🏭 07 · 模型厂商下场:第一方 harness 的三种打法

Anthropic:Claude Code——先发定义品类,收入证明模式

OpenAI:Codex——云端自主 + 把 harness 吸进模型

Google:Antigravity——用平台和免费额度打分发战

⚖️ 08 · 行业结构判断:harness 商品化 vs 垂直整合

🧷 综合判断(本文档的分析,非单一来源结论)

🎯 一段话收束

📚 09 · 继续深入:资源清单

第三方 Agent 生态与行业结构
——当模型厂商亲自下场做「壳」之后