AI 把写代码从 3 天压到半天，整个项目却只快了 10%

发表于 2026-06-23 阅读次数： Waline：本文字数： 2.8k 阅读时长 ≈ 10 分钟

公司开始收紧 AI 预算，但真正的问题不是钱：AI 只加速了'写代码'这一小段，而为人设计的旧流程、被切碎的上下文，限制了 AI 的能力。

一封邮件

月初，我们公司发了一封内部邮件。

邮件不是很长，主要就是说：接下来 AI 工具的使用会有三个月的”观察期”，三个月后视情况再调整。

虽然没有直说，但是大家都懂，以后大概率不能无限使用最好的模型了。

让我印象深的是翻转的速度。
就在不久之前，风向还完全是反的：内部鼓励大家放开了用，token 不设上限，最新最强的模型随便调。
那阵子甚至有不少新闻说，一些大厂直接把员工的 token 用量和绩效、晋升挂钩，用得越多越”拥抱变化”，连 manager 的考评都跟团队的 AI 使用量绑定。

口号还是”用得越多越好”。结果没过几个月，就从”鼓励”换成了”观察”。

这也不是我们一家的事。最近这类新闻特别密集：

Uber 给员工用 Claude Code、Cursor 这类工具设了每人每工具每月 1500 美元的 token 上限，因为它的 AI coding 预算据说四个月就烧完了一整年的额度；
Amazon 关掉了内部那个 AI token 用量排行榜，因为员工为了冲榜疯狂刷 token，制造了一堆没意义的消耗；
GitHub Copilot 从 6 月起改成按用量计费，理由是 agentic coding 一个 session 的成本和普通聊天差太多，原来的定价”不再可持续”。

放在一起看，有一个很明显的变化：企业正在从”鼓励大家用 AI”，转向”追问 AI 到底换来了什么”。

信息图：企业从"鼓励放开用"翻转到"三个月观察期"，Uber、Amazon、GitHub 相继收紧 AI 预算

第一反应往往是错的

很多人看到这些新闻，第一反应是：是不是 AI 其实没那么有用？泡沫要破了？

我不这么看。

更准确的说法是：AI 的成本是当下就发生的，账单一笔笔清清楚楚；可它换来的好处呢，往往说不清、看不见，还很难算到谁头上。

对比图：成本一侧是当下就发生、账单清清楚楚的实块，收益一侧是说不清、看不见、算不到谁头上的虚影

之前那波”无限用”，说白了是企业在做 adoption。先不算账，让所有人先把 AI 用起来再说。可当 token、seat、企业 API 的账单真真切切发生的时候，问题就绕不开了：这些钱，到底换来了什么？

Uber 那个例子特别典型。它的 COO 说得很直白：很难把 Claude Code 这类工具的使用量，和”我们到底多交付了多少真正有用的功能”对上号。

这话扎心的地方，在”证明不了”这几个字：东西可能真做出来了，但谁也没法把它和实打实的业务结果对上号。

这其实是企业心态的一个转变：以前比的是谁用得多，现在要问的是这些 token 换来了什么。

但如果只停在这一层，我觉得还没说到根上。”ROI 不行”只是结果，我更想聊的是它背后的原因。

我们其实只让 AI 干了最小的一段活

我自己就在公司里做 AI 相关的工作，所以对这件事有些挺具体的体感。

现在大家用 AI 用得最多的，说到底还是写代码。再宽一点，是写代码、debug、补测试这些跟编码强相关的事。

但问题就在这儿：对一个产品、一个大型组织来说，写代码在整个生命周期里只占很小的一块。

举个再普通不过的例子。我们要做一个新功能，流程大概是这样的：

先有个 idea，几个人开会讨论，在 Confluence 上建几个页面记下来；然后在 Jira 上拆出 epic、story、task，ticket 底下还有一堆 comment 来回确认；接着才轮到开发——工程师领了 ticket 去写代码；写完要 review、要测试（单元测试、回归测试，有时候还得手工测）；再往后是 CI/CD、部署、上线审批、回滚预案……这中间还经常卡在 infra 上，而 infra 在很多大公司出于安全考虑，AI 是根本碰不到的。

你数一数，AI 现在真正在加速的是哪一步？

就中间”写代码”那一小段。

所以哪怕 AI 把写代码从三天压到半天，可只要需求还得讨论一周、review 还得等两天、测试环境还得排队、上线还得走审批，整个项目周期可能就快了 10%，甚至几乎没动。

流程图：从想法、文档、拆 ticket 到 review、测试、部署、审批的研发管线，只有"写代码"一格被 AI 加速，整体只快约 10%

这就是我想说的第一个核心：AI 提升的是局部效率，企业要的却是端到端的吞吐量。

比如我们现在一个 PR 平均需要 review 10 天才能合并到主分支，虽然写代码变快了，但是总体效率几乎没有提升。

程序员个人的体感是真的爽，代码刷刷地出。但组织层面的交付速度，没怎么动。于是企业一看账单就尴尬了——钱没少花，那个”快”却没传导到它真正在乎的地方：交付周期、质量、成本、收入。

再深一层：旧流程把 AI 的能力截断了

如果再往下挖，会碰到一个更结构性的问题。

我们今天这套软件开发流程，骨子里是为人设计的。

Confluence 写文档，Jira 拆任务，GitHub 写代码，CI/CD 跑流水线，Teams 和 Slack 沟通，开会做同步——这套东西背后的假设是：人的记忆有限、上下文切换慢、协作得显式记录、责任要层层拆分。所以才把一件事切成一个个小环节，按人的能力和职责分下去。

然后我们做了什么？我们把 AI 塞进了这些为人切好的小格子里。

这里其实有两处损耗。

一是 AI 几乎在每个环节能力都不弱，旧流程却只给了它一个格子。 AI 不是只会写代码，它读需求、理逻辑、写文档、做评审、查日志，样样不差。可现在的用法是：只在”写代码”那一格放它进来，别的门对它都关着。等于拿一套为人类分工设计的流程，反过来把 AI 框死了。

二是 信息被切碎在不同系统里，AI 根本拿不到完整上下文。 文档在 Confluence，任务在 Jira，代码在 GitHub，环境信息在 infra，事故在日志，讨论散在各种 IM 里。这些本来彼此关联的信息，被切成了一块一块。对一个 coding agent 来说，它要是只能看到代码库，就不知道业务背景、不知道当初为什么这么设计、不知道线上有什么约束、不知道用户怎么反馈。

我猜在很多公司里，AI 想拿到这些上下文都挺难的，你得自己去外挂 MCP、配 skills、一个个把系统打通，而很多传统企业压根没做这层基础设施。结果就是 AI 只摸得到代码，别的都够不着。

框架图：中心的 AI 几乎样样都会，旧流程却只为它开了"写代码"一扇门，上下文还被切碎在 Confluence、Jira、GitHub、infra、日志、IM 各个孤岛里

一个拿不到上下文的 AI，只能靠猜。它再强，也只能退化成一个更快的代码补全器。

打个比方，这就像你买了辆车，却非要它走马车时代的路、按马车的规矩调度，最后回头嘀咕一句”这车好像也没快多少”，其实车没毛病，是路还没修。

那接下来会怎么变

只买 AI 编程工具，远远不够。真正值钱的，是把 AI 接进完整的工作流——需求、代码、测试、发布、运维、知识库，都在一个连续的上下文里流动，而不是散在几个互不打通的系统里。换句话说，未来企业里最值钱的，也许是它内部那层”上下文基础设施”：代码、文档、决策、线上数据，到底能不能被 AI 安全、完整地读到。很多公司现在 AI 效果差，真不怪模型，怪的是上下文散得太碎。
任务本身的颗粒度会变。人类协作必须把任务切得很细，因为一个人一次只扛得动一小块；可 AI 一次能吞下的上下文大得多。所以以后交给 AI 的，可能不再是”改一下这个字段”这种零碎操作，而是”把这套结算流程迁到新规则，兼容旧数据、补齐测试、更新文档，再给我一份风险说明”这种完整的任务。Jira 那种 epic、story、task 的细拆法，本来就是为人准备的。

这件事反过来又会改变工程师的价值。实现越来越快，瓶颈就从”写代码”挪到了”定义任务”：你能不能把问题说清楚，能不能给 AI 喂对上下文，能不能判断方案好不好，能不能把一堆拧巴的业务约束翻译成可执行的目标。我越来越觉得，以后好的工程师会更像一个技术导演：定目标、给约束、审结果、扛风险，写代码反倒成了其中最不费劲的一环。

对比图：旧方式把任务细拆成 epic/story/task 交给人，新方式把一个完整任务整体交给 AI，工程师转型成"技术导演"

再往上，连一部分管理动作都会被重新掂量。我们今天开的很多会、对的很多状态、同步的很多进度，说到底都是在补”信息不透明”这个窟窿。要是 AI 能持续把进展、风险、阻塞读出来、写出来，那一部分纯粹”对信息”的沟通，是会被压缩的。

最后

绕一圈，回到那封邮件。

我不觉得这轮收紧意味着”AI 不行了”。恰恰相反，它说明企业终于认真起来、开始算账了，这不一定是坏事。

我真正想说的是：今天企业 AI 效果不明显，根子不在模型，而在于我们还没把软件的生产方式，改成适合 AI 的样子。我们把一个全新的生产力，硬塞进了一套为人、为旧时代分工设计的老系统里，它的能力自然被框住了。

概念图：一股发光的"全新生产力"被硬挤进为人设计的旧流程网格里、能力被框住——根子不在模型，在生产方式

所以预算收紧只是表象。底下那个真问题是：组织还停在旧流程里。

但这也是真正的机会所在。谁能先把 AI 从一个”写代码的工具”，变成一个”能把整件事从头跑到尾”的系统，谁那笔 AI 预算，才算真正花在了刀刃上。