构建编程智能体一年实践的经验教训分享

编者按: AI 编程智能体的发展前景如何?创业者在这个快速变化的赛道中应该如何找到突破口?
文章作者基于一年来打造 Codebuff 编程智能体的实战经验,深入分析了团队在产品开发过程中的成功决策与失误教训。他特别强调了 CLI 优先、注入更多上下文、产品定位高端等关键策略的重要性,同时也坦诚地反思了产品稳定性不足导致用户留存率低迷的问题。作者还对 2025 年编程智能体的发展趋势做出了预测。
作者 | James Grugett
编译 | 岳扬

我努力打造最佳的编程智能体已经整整一年了!
去年的 7 月 4 日,我还不知道我的生活即将改变 —— 那是在一次黑客马拉松上,我首次为一个最终蜕变为 Codebuff[1] 的 CLI 编程工具制作了原型。这一路走来真不容易!
从离开 Manifold[2],到加入 YC F24,再到组建团队,以及与 Claude Code 的竞争,同时每周平均工作约 70 个小时 —— 甚至大部分周末时间都在奋斗,这一切都实属不易!
或许我们尚未赢得第一轮比赛,但对于未来,我的热忱与期待却前所未有地高涨。
01 我们所做的赌注
最初我们做对了太多关键决策:
CLI 优先。 将产品范围聚焦于命令行工具,让我们得以全力打磨编程智能体的核心。
注入更多上下文。 即时读取与用户提示词相关的十余个文件,这让我们在与对手的竞争中形成了一定的优势。
不做权限检查。 我们从一开始就进入“全凭直觉横冲直撞”模式 —— 这在当时简直是离经叛道。
产品定位高端。 相较程序员的薪资成本支出,本工具成本效益显著。
引入知识文档。 我们创新性地提出将 knowledge.md 文件纳入代码库。Codebuff 能在学习过程中自动更新这些文档。
如今这些策略大部分已成为编程智能体的标配或准标配!
02 效果欠佳之处
头十个月里,我们总以为距离爆发式增长仅有数周之遥。在 YC 期间,我们确实有过指数级增长 —— 月营收一度冲至 5k MRR。
常有用户评价这是最优秀的编程智能体,但其稳定性始终存疑。
我们的文件编辑策略数月间一直不稳定,表现远逊于采用定制文件重写模型的 Cursor。
即使在我们采用 Relace 的快速重写模型后,我们的产品仍然存在大量问题,导致约 5-10% 的任务失败。部分问题本就需时间排查修复,但我们的优先级排序本可更优。
若稳定性不足,则无法实现高留存;若留存率低迷,则 Codebuff 难有增长空间。
03 我们应该采取什么行动
以下是我在经过深度复盘后会做出的不同选择。
3.1 建立端到端的评估体系并每晚运行
这将使我们获得关于编程智能体 Codebuff 表现的定期量化反馈。此举既能解决产品的可靠性问题,又能验证对产品的相关优化措施的假设是否成立。
正因缺乏这种机制,我们需要耗费大量时间在每次产品变更后进行手动测试,或在切换模型时反复进行评估。
3.2 砍掉所有非核心功能
我们原以为聚焦 CLI 已足够精简,但其实本应该删减更多。Elon Musk 说得对:你首先就必须得“delete the part!”。
下面是一些我们本应早点删掉的功能:
自动识别输入内容是终端命令还是提示词
自动更新知识文件,我们对该功能进行了数月的调整,最终基本放弃了该功能
用于实现文字颜色/样式的控制和命令缩写的伪终端库(node-pty),该库最近被我们评为史上最坑爹的功能
3.3 让整个团队都投入核心产品的改进
我揽下了太多核心系统的开发任务,而让联创去处理价值较低的其他任务。让所有人都参与进来有助于集中精力办大事、鼓舞士气。
3.4 永远比市场快半步
永远不要停止思考如何颠覆现有产品。下一步突破点在哪?今天我们可做哪些实验来实现它?
3.5 推行月度复盘机制
若能建立月度复盘会议机制,或可达成上述目标。请将其排入日程表,并预留一小时让全员共同探讨以下问题:
应加倍投入什么?
该狠心砍掉什么?
下一步亟待探索什么?
04 Codebuff 的下一步行动
过去数月间,随着 Claude Code 等竞品携相似的理念蜂拥进入市场,我们展开了更深的反思与探索。
(顺便提一下,我认为 Claude Code 的成功部分源于更聚焦的定位:仅推出客户端、仅作搜索-替换式文件编辑、仅采用 Agentic-RAG 架构。)
我们始终在酝酿着下一次突破,现在我确信我们知道它是什么了。
05 对明年编程智能体发展趋势的预测

在 Manifold[3] 上关注并参与预测吧!
既然我们去年对编程智能体的发展趋势判断如此精准,今年还能再次做到吗?我有十足的把握!
以下是我的预测:
多智能体范式将主导市场。 实践证明:通过将任务分派给专项智能体,能指数级提升系统能力。
“实时学习”将成为标配。 智能体在执行任务中持续学习的能力是非常强大的。
编程智能体将掌握主动权。 「用户单向发起指令」的模式将转变为「编程智能体更主动地为用户提供任务」(例如主动要求用户审核关键决策)。
编程智能体将实现完整的开发闭环。 它们不再仅仅提出代码修改建议,更能自主执行 QA 测试、效果评估,并完成代码提交。
递归优化型智能体将崭露头角。 顶尖产品均将采用该架构的变种形式。
xAI 将获得可观的领先优势。 随着 xAI 在模型质量和智能水平方面取得决定性的领先优势,多极时代将逐渐远去。
模型优势的重要性将降低。 产品核心竞争力将转移至智能体协作网络的构建能力。
END
本期互动内容 🍻
❓文中提到 CLI 优先策略被证明是他们的正确决策之一。在你看来,当前 AI 编程工具最应该聚焦哪个使用场景?终端 / IDE 插件 / Web 平台?为什么?
文中链接
[2]https://manifold.markets/
[3]https://manifold.markets/JamesGrugett/ai-coding-agent-forecasts-from-my-b
本文经原作者授权,由 Baihai IDP 编译。如需转载译文,请联系获取授权。
原文链接:
https://jamesgrugett.com/p/what-i-learned-building-an-ai-coding
版权声明: 本文为 InfoQ 作者【Baihai IDP】的原创文章。
原文链接:【http://xie.infoq.cn/article/50338d03f9e20d8b35fe0a0b7】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论