2025科技年度热问受邀请，参与年度话题，分享我对今年AI发展的几点思考：微博

2025科技年度热问受邀请，参与年度话题，分享我对今年AI发展的几点思考：微博科技列了三个问题，分别涉及今年的关键突破点、眼前一亮的产品和明年的发展趋势。我怕我乱答会误导的朋友，于是就想，如果是让Andrej Karpathy来回答，他会怎么回答？于是我导出了Andrej Karpathy 最近三个月的所有推文（包括评论）和他写的文章，发给AI，让Andrej Karpathy的数字分身，来回答下这三个问题，也许对你更有帮助。----------------------------------Q1：2025 年推动 AI 进入下一阶段的关键突破是什么？如果只能选一件事，我会选：RLVR（Reinforcement Learning from Verifiable Rewards）+ 推理时算力（test-time compute）。这听起来像两件事，但它们在产品体验上是一件事：模型不再只是“预测下一个 token”，它开始更像在做“可验证空间里的搜索（search）”。你给它一个可验证的奖励函数（比如数学题对不对、代码能不能通过测试、形式化推理是否一致），它就会在“思维轨迹/中间步骤”的空间里反复试，找到能赢的路线，然后把这种路线内化成能力。我喜欢把 2020-2024 的训练栈想成一棵树：⭕️Pretraining：灌溉知识与语言能力（大树的木头）⭕️SFT：教它“怎么回答像样”（枝叶整形）⭕️RLHF：让它更符合人类偏好（园艺师修剪）而 2025 的 RLVR 像是：你第一次给了它一个更稳定的“练功房”——奖励不是人类情绪，而是可验证信号。这让优化可以更厚、更长、更激进。于是出现那种“拐点感”：你会直觉地感觉到它从“会说话的系统”变成了“会解题的系统”。----------------------------------Q2：2025 年有哪些 AI 产品真正让我感到眼前一亮？我会列三个“范式级”的产品体验，它们代表了三条不同的路，但最后会合流到同一个方向。1️⃣ Cursor：新一层 LLM Apps 真正出现了Cursor 让我眼前一亮的点不在“写得多好”，而在它证明了：模型之上会长出一个很厚的新应用层，而且这个应用层不是皮肤，是骨架。它做的事情（也是我认为“新层”的典型构件）大概是：⭕️Context engineering：把你要解决的问题、代码库、diff、历史决策装配成“喂给模型的上下文”⭕️多次调用的编排：不是一次 prompt 搞定，而是底下串成一个 DAG，平衡成本/延迟/成功率⭕️人机协作的 GUI：让你在关键点介入（review、accept、rollback）⭕️Autonomy slider：同一个系统能“给建议”也能“自己动手干”这意味着：很多人 2025 讨论“模型能力”时，其实忽略了另一个巨大变量——产品把模型“组织起来”的能力。Cursor 让我确信：2025 不是只有更强的模型；更重要的是，模型开始被工程化地组织成“可用的工作流实体”。2️⃣ Claude Code：AI 第一次像“住在你的电脑里”我把 Claude Code 这类东西看成一种全新交互范式：它不再是网页里的一次性对话，而是一个常驻的、能动用你本地工具链的实体：终端、文件、git、脚本、测试、日志……它“就在现场”。这带来的不是“写代码更快”这么简单，而是心理上的变化：你开始把它当作一个（很奇怪的）同事——一个不会累、能并行、但也会犯低级错的同事。于是编程的层次结构开始变化。你会越来越多地做这些事：⭕️定义任务边界（什么叫 done）⭕️设计约束与护栏（别删错文件、别泄露密钥、别乱改接口）⭕️做最终审核（你承担责任）我在推文里说过类似的感觉：作为程序员，我从没像现在这样觉得“落后”。这不是情绪化的焦虑，而是职业结构真的在移动。3️⃣ Gemini “Nano Banana”：LLM GUI 的第一道闪电我对 Nano Banana 的兴奋点也不是“又一个更强模型”，而是它隐隐展示了一件事：图像/屏幕/GUI 本身正在变成新的 API。当一个模型能对着试卷照片解题、能在图上标注、能把视觉输入当作一等公民去推理时，你会意识到：未来的“使用电脑”可能不是点鼠标、不是写脚本，而是——让模型看屏幕、理解状态、然后行动。这条线一旦成立，后面的想象空间会很大：“软件”不再只是给人用的 UI，也不再只是给机器用的 API，而会出现一种第三形态：给 LLM 用的界面（LLM-first interface）。----------------------------------Q3：展望 2026，哪个趋势是不可忽视的必然路径？我会押一个我觉得“不可避免”的合流趋势：Agentic LLM Apps 会变厚，并且会全面渗透到你的真实工作流里：私有数据 + 工具调用 + 反馈闭环 +（适度的）自治。它们会像“数字工厂（digital factorio）”一样，把大量工作 JIT 化、自动化，并产生复利。为什么我觉得它必然？因为 2025 已经把三个关键部件都点亮了：⭕️RLVR/推理算力旋钮：让“会解题/会规划”的倾向更强、更稳定（至少在可验证域）⭕️Cursor 证明新应用层：上下文装配、编排、GUI、自治滑条——这些会变成标准组件⭕️Claude Code / LLM GUI：让模型从“聊天框里”走到“你的电脑与工具链里”把这三件事拼起来，你就会得到 2026 的主角：更像同事的系统——它能接触你公司的私有知识库，能读写真实代码与文档，能跑测试，能发 PR，能监控指标，能在失败后自我修正（因为有 feedback loop），并且你可以用 autonomy slider 控制它到底是“建议模式”还是“执行模式”。当然，我对它也很谨慎。因为我在 2025 更强烈地感到：这些系统更像“ghosts”，不是“animals”。它们的智能是锯齿状的（jagged）：能在某些地方惊艳你，也能在你最想当然的地方出糗；能把基准测试刷爆，也仍然离“可靠的通用代理”很远。所以 2026 的另一条隐含必然路径是：可验证性与评估体系会重新成为核心工程。我们会更不信 benchmarks，更依赖“在你真实环境里的闭环评估”。换句话说：训练在测试集上可能越来越容易，但在真实世界里稳定交付仍然很难。