代码生成之外，AI 提效研发的“最短路径”在哪里？｜DevChat Tester 产品手记

2025-09-25
北京
本文字数：2210 字
阅读完需：约 7 分钟

近两年来，人们一直在尝试将 AI 应用于软件开发的各个环节。作为产品经理，我也在思考：尽管 AI 潜力无限，但试错成本却很高，在时间、资源纷纷受限的情况下，在哪个环节应用 AI 才能以最低的成本、最快的速度带来最显著的价值？换句话说，AI 在研发流程中，最高的投资回报点在哪？

经过长时间的行业观察、实践与无数次的内部探讨，这个答案逐渐清晰：在当下，API 测试是企业应用 AI 领域 ROI 最高、最值得我们 all-in 的方向。也是基于这样的思考，我们在今年推出了 DevChat Tester（下称 Tester）。在这个过程中，我们做了许多看似反直觉，实则深思熟虑的决策。本文分享其中两个关键选择，以期给到同路人一些启发。

定位：从 API 测试起步，而不是 UI 或端到端测试

这可能是我们团队最早、也是最激烈的一次内部辩论：新产品应该从哪个点切入，才能让 AI 在测试领域真正落地生根，而不是沦为“看起来很美”的概念验证？当时的备选池里有 UI 测试、API 测试和端到端测试，最终我们以“用户价值最大化”和“技术可落地”为核心标准，选择了 API 测试这个“最出活”的方向。

首先，根据需求文档生成端到端用例最早被我们排除。核心问题在于输入不可控。需求文档的格式五花八门，质量参差不齐，常常不完整或更新不及时。更别提文档里可能包含表格、原型图等非文本元素，AI 很难精确解析这些多模态信息。如果强行让 AI 根据这样的输入生成用例，结果往往不尽如人意，甚至要耗费宝贵的人力去修正那些低质量的产出，AI 在此处不仅很难创造正向收益，甚至会造成负向浪费。

后来，UI 测试同样被搁置了。尽管理论上大模型能降低 UI 测试脚本的生成和维护成本，但 UI 测试对上下文和交互细节的依赖度极高，AI 很难在一开始就生成高质量且稳定的用例。即便初始用例质量达标，对于业务快速发展、前端页面变化频繁的团队，后续的维护成本依然更高——无论是人工维护还是让 AI 自动维护，都会付出大量工时或者 Token。更重要的是，API 测试具备 UI 测试无法替代的价值：它运行效率高、能深入验证系统内部状态、可以覆盖 UI 侧难以模拟的数据和状态，并适用于中台产品或 OpenAPI 服务等无 UI 的场景。这些特点都让 API 测试的场景对 AI 更友好，也更容易快速出效果。

综合来看，API 测试的接口定义更标准、场景更可控，输入信息也更聚焦。于是最终我们决定：先在 API 测试上跑通 AI 生成从测试用例文本到可执行脚本的完整闭环，帮用户真正解决覆盖率提升和变更带来的维护负担。等这个“地基”打牢，再扩展到 UI 测试和更复杂的场景。

而在推向市场的几个月中，事实也告诉我们：即便有相对可控的输入，API 测试的自动生成仍面临文档质量不足、数据缺失、业务场景生成效率低等挑战，开发周期远超预期，遑论更复杂的 UI 测试。毕竟我们想做的是一个 AI Agent，对于 Agent 来说，产品可用度才是创造价值的先决条件。只在功能层面实现用例生成，却无法保证执行成功率和代码质量的产品是没有价值的。因此，UI 测试和端到端测试仍然是未来方向，但前提是 Tester 将 API 测试做的足够扎实和深入。

形态：直接交付结果，而不是在对话中辅助生成

另一个关键选择是：Tester 应该如何帮助 QA 写测试？是像 Copilot 那样“在对话中辅助生成”，还是像 Agent 那样“一步到位直接交付”？我们来看两者的对比。

显而易见，尽管对话式辅助能提供更多交互灵活性，但它会不断打断开发者的工作流。想象一下，每生成一部分代码或用例，你都要停下来等待、审查、再对话——这无疑会增加认知负担，降低沉浸感，进而影响整体的投入产出比。而 Agent 的目标是一步到位，直接交付一个接近可用的完整结果。这意味着更少的打扰，让工程师能保持高度专注，更高效地进入下一个环节，从而最大程度地提高生产力与价值产出。

最终，我们选择了先做 Agent 模式。坦白来说，我们在早期确实收到了部分用户对于这种模式的负面反馈，特别是在早期版本、生成成功率较低时。而 Tester 也不断通过优化 API 依赖识别策略、Agent 自主探索流程，引入知识库、API 调用日志等功能，逐步提升了成功率，有效弱化了该模式的缺点。

从产品角度，这是体验层的取舍，取决于优先满足哪类用户场景。和一般的 IDE 插件从 Copilot 到 Vibe coding 到 Agent 模式逐步兼容不同，Tester 选择了一条相反的道路。这条路要做的事情比 Copilot 更多、更难，但鲜少有人做，所以我们决定先直面最难的问题，快速在该场景构建差异。Meta 在类似的单元测试场景下的大规模实践也表明，直接交付可用结果比辅助生成更受开发者欢迎。

结语

至此我们不难看出：在当前的技术成熟度下，智能 API 测试就是企业应用 AI 的“黄金切入点”。它有着相对标准的输入、可验证的产出，且运行效率更高、构造成本更低。这使得 AI 能够高效地学习和生成，最大限度地减少因 AI 能力不足而导致的返工和人力浪费。而在输入不可控的端到端测试上硬杠，或者在交互复杂的 UI 测试上追求一步到位，会造成大量的时间和成本浪费，结果往往是高投入低产出。思码逸的选择是围绕 API 测试这个核心，最大化用户的效率和体验，让 AI 在这个场景下真正成为提升效能工具。

Tester 仍在快速迭代，用户场景也在不断变化。上述设计选择只是阶段性总结，未来我们也会在真实的业务场景中吸取经验、随时调整。有一点是我们始终坚信的：AI Agent 产品必须专注做深、做透，才能抵消大模型的不确定性，真正为用户创造价值，而不是制造新的麻烦。Tester 也将秉持这一理念持续优化，欢迎大家的试用和反馈。

发布于: 刚刚阅读数: 5

思码逸研发效能

关注

数据分析驱动研发效能 2022-04-12 加入

思码逸研发效能分析平台，致力于帮助研发团队解决效率、质量和人才三大痛点，提升研发效率与软件工程质量，助力每一位开发者创造更多价值。

发布

暂无评论

创作场景

代码生成之外，AI 提效研发的“最短路径”在哪里？｜DevChat Tester 产品手记

定位：从 API 测试起步，而不是 UI 或端到端测试

形态：直接交付结果，而不是在对话中辅助生成

结语

思码逸研发效能

评论