写点什么

代码生成之外,AI 提效研发的“最短路径”在哪里?|DevChat Tester 产品手记

  • 2025-09-25
    北京
  • 本文字数:2210 字

    阅读完需:约 7 分钟

代码生成之外,AI 提效研发的“最短路径”在哪里?|DevChat Tester 产品手记

近两年来,人们一直在尝试将 AI 应用于软件开发的各个环节。作为产品经理,我也在思考:尽管 AI 潜力无限,但试错成本却很高,在时间、资源纷纷受限的情况下,在哪个环节应用 AI 才能以最低的成本、最快的速度带来最显著的价值?换句话说,AI 在研发流程中,最高的投资回报点在哪?

经过长时间的行业观察、实践与无数次的内部探讨,这个答案逐渐清晰:在当下,API 测试是企业应用 AI 领域 ROI 最高、最值得我们 all-in 的方向。也是基于这样的思考,我们在今年推出了 DevChat Tester(下称 Tester) 。在这个过程中,我们做了许多看似反直觉,实则深思熟虑的决策。本文分享其中两个关键选择,以期给到同路人一些启发。

定位:从 API 测试起步,而不是 UI 或端到端测试

这可能是我们团队最早、也是最激烈的一次内部辩论:新产品应该从哪个点切入,才能让 AI 在测试领域真正落地生根,而不是沦为“看起来很美”的概念验证?当时的备选池里有 UI 测试、API 测试和端到端测试,最终我们以“用户价值最大化”和“技术可落地”为核心标准,选择了 API 测试这个“最出活”的方向。

首先,根据需求文档生成端到端用例最早被我们排除。核心问题在于输入不可控。需求文档的格式五花八门,质量参差不齐,常常不完整或更新不及时。更别提文档里可能包含表格、原型图等非文本元素,AI 很难精确解析这些多模态信息。如果强行让 AI 根据这样的输入生成用例,结果往往不尽如人意,甚至要耗费宝贵的人力去修正那些低质量的产出,AI 在此处不仅很难创造正向收益,甚至会造成负向浪费

后来,UI 测试同样被搁置了。尽管理论上大模型能降低 UI 测试脚本的生成和维护成本,但 UI 测试对上下文和交互细节的依赖度极高,AI 很难在一开始就生成高质量且稳定的用例。即便初始用例质量达标,对于业务快速发展、前端页面变化频繁的团队,后续的维护成本依然更高——无论是人工维护还是让 AI 自动维护,都会付出大量工时或者 Token。更重要的是,API 测试具备 UI 测试无法替代的价值:它运行效率高、能深入验证系统内部状态、可以覆盖 UI 侧难以模拟的数据和状态,并适用于中台产品或 OpenAPI 服务等无 UI 的场景。这些特点都让 API 测试的场景对 AI 更友好,也更容易快速出效果。

综合来看,API 测试的接口定义更标准、场景更可控,输入信息也更聚焦。于是最终我们决定:先在 API 测试上跑通 AI 生成从测试用例文本到可执行脚本的完整闭环,帮用户真正解决覆盖率提升和变更带来的维护负担。等这个“地基”打牢,再扩展到 UI 测试和更复杂的场景。

而在推向市场的几个月中,事实也告诉我们:即便有相对可控的输入,API 测试的自动生成仍面临文档质量不足、数据缺失、业务场景生成效率低等挑战,开发周期远超预期,遑论更复杂的 UI 测试。毕竟我们想做的是一个 AI Agent,对于 Agent 来说,产品可用度才是创造价值的先决条件。只在功能层面实现用例生成,却无法保证执行成功率和代码质量的产品是没有价值的。因此,UI 测试和端到端测试仍然是未来方向,但前提是 Tester 将 API 测试做的足够扎实和深入。

形态:直接交付结果,而不是在对话中辅助生成

另一个关键选择是:Tester 应该如何帮助 QA 写测试?是像 Copilot 那样“在对话中辅助生成”,还是像 Agent 那样“一步到位直接交付”?我们来看两者的对比。


显而易见,尽管对话式辅助能提供更多交互灵活性,但它会不断打断开发者的工作流。想象一下,每生成一部分代码或用例,你都要停下来等待、审查、再对话——这无疑会增加认知负担,降低沉浸感,进而影响整体的投入产出比。而 Agent 的目标是一步到位,直接交付一个接近可用的完整结果。这意味着更少的打扰,让工程师能保持高度专注,更高效地进入下一个环节,从而最大程度地提高生产力与价值产出

最终,我们选择了先做 Agent 模式。坦白来说,我们在早期确实收到了部分用户对于这种模式的负面反馈,特别是在早期版本、生成成功率较低时。而 Tester 也不断通过优化 API 依赖识别策略、Agent 自主探索流程,引入知识库、API 调用日志等功能,逐步提升了成功率,有效弱化了该模式的缺点。

从产品角度,这是体验层的取舍,取决于优先满足哪类用户场景。和一般的 IDE 插件从 Copilot 到 Vibe coding 到 Agent 模式逐步兼容不同,Tester 选择了一条相反的道路。这条路要做的事情比 Copilot 更多、更难,但鲜少有人做,所以我们决定先直面最难的问题,快速在该场景构建差异。Meta 在类似的单元测试场景下的大规模实践也表明,直接交付可用结果比辅助生成更受开发者欢迎。


结语

至此我们不难看出:在当前的技术成熟度下,智能 API 测试就是企业应用 AI 的“黄金切入点”。它有着相对标准的输入、可验证的产出,且运行效率更高、构造成本更低。这使得 AI 能够高效地学习和生成,最大限度地减少因 AI 能力不足而导致的返工和人力浪费。而在输入不可控的端到端测试上硬杠,或者在交互复杂的 UI 测试上追求一步到位,会造成大量的时间和成本浪费,结果往往是高投入低产出。思码逸的选择是围绕 API 测试这个核心,最大化用户的效率和体验,让 AI 在这个场景下真正成为提升效能工具。

Tester 仍在快速迭代,用户场景也在不断变化。上述设计选择只是阶段性总结,未来我们也会在真实的业务场景中吸取经验、随时调整。有一点是我们始终坚信的:AI Agent 产品必须专注做深、做透,才能抵消大模型的不确定性,真正为用户创造价值,而不是制造新的麻烦。Tester 也将秉持这一理念持续优化,欢迎大家的试用和反馈


用户头像

数据分析驱动研发效能 2022-04-12 加入

思码逸研发效能分析平台,致力于帮助研发团队解决效率、质量和人才三大痛点,提升研发效率与软件工程质量,助力每一位开发者创造更多价值。

评论

发布
暂无评论
代码生成之外,AI 提效研发的“最短路径”在哪里?|DevChat Tester 产品手记_研发效能_思码逸研发效能_InfoQ写作社区