Andrej Karpathy 提出的 Software 3.0 框架描述了软件开发的范式转变:
| 阶段 | 核心 | 特征 | 开发者角色 |
|---|---|---|---|
| Software 1.0 | 传统代码 | 确定性逻辑,人类编写每一行 | 作者 |
| Software 2.0 | 神经网络权重 | 学习型逻辑,人类提供数据和目标 | 训练师 |
| Software 3.0 | 自然语言 + LLM | 意图驱动,人类描述”做什么”而非”怎么做” | 导演 |
Agent 是 Software 3.0 的核心交付形态。Agent 的进化本质上是在探索:如何让 Software 3.0 可靠地工作——从提示词工程到上下文工程再到 Harness 工程,每一层都是让”意图驱动”更可靠的工程手段。
Karpathy 提出的核心概念——用户控制赋予 Agent 多少自主权:
完全手动 ←──────────────────────────────────→ 完全自主
│ │
│ 人类编写代码 Agent 建议 Agent 自主执行 │
│ AI 补全 人类审批 人类事后审查 │
关键洞察:不是全有或全无,而是按任务、按风险级别灵活调整。
实践中的自主性分级:
| 级别 | 描述 | 适用场景 | 代表产品 |
|---|---|---|---|
| L0 | 人类完全控制,AI 仅提供建议 | 高风险决策、安全审计 | ChatGPT |
| L1 | AI 执行,人类逐步审批 | 代码修改、文件操作 | Cursor |
| L2 | AI 自主执行低风险操作,高风险操作需审批 | 日常开发、文档编写 | Claude Code |
| L3 | AI 完全自主,人类事后审查 | 独立 PR、自动化测试 | Devin |
| L4 | AI 自主运行 + 自主学习,人类仅设定目标 | 持续集成、监控响应 | 未来 |
当前 Agent 系统大多处于 L1-L2,正在向 L3 演进。L4 是中长期愿景。
| 驱动力 | 影响 |
|---|---|
| 企业客户需要统一方案 | 框架需要提供完整解决方案而非拼凑 |
| 运维复杂度 | 多框架混用的运维成本太高 |
| 生态锁定 | 云厂商推自家 Agent 方案 |
| 标准化需求 | A2A (Agent-to-Agent) 协议推动互操作 |
Agent 从”执行工具”进化为”学习者”是最重要的趋势之一。
核心机制:Agent 通过经验积累自主扩展能力,不依赖模型微调,而是通过上下文工程实现进化——修改加载到上下文窗口的文件内容来改变行为。
代表实现:
关键挑战:
Agent 正在获得”看”的能力:
当前 Agent 之间的协作依赖框架内部机制(LangGraph 的图、CrewAI 的 Crew)。A2A 协议的目标是让不同框架、不同厂商的 Agent 能够互操作。
| 协议 | 发起者 | 目标 |
|---|---|---|
| MCP (Model Context Protocol) | Anthropic | 模型与工具/数据源的标准接口 |
| A2A Protocol | Agent 之间的通信标准 | |
| OpenAI Function Calling | OpenAI | 模型与工具的调用规范 |
A2A 标准化将导致:
2025-2026 年的核心挑战不再是”能不能做”而是”能不能可靠地做”:
| 维度 | 原型阶段 | 生产阶段 |
|---|---|---|
| 可靠性 | “大部分时候能用” | 99.9% 可用性 |
| 成本 | 不关心 | 每请求成本可控 |
| 安全 | 基础防护 | 纵深防御 + 合规审计 |
| 可观测性 | 看日志 | 完整 Trace + 告警 + 仪表盘 |
| 评测 | 手动验证 | 自动化 Eval + CI/CD 集成 |
从原型到生产的完整检查清单,详见第9章 评测、可观测性与安全。
在快速变化的 Agent 领域,以下原则可能是持久的: