写点什么

AI 测试的准确率覆盖率稳定性

作者:测试人
  • 2025-07-03
    北京
  • 本文字数:1013 字

    阅读完需:约 3 分钟


准确率

准确率=提示词的准确率=大模型的准确率上下文清晰度用户意图

通过优化上下文的清晰度和用户意图可以做到 100%,如果一开始没有学习 ai 测试的方法,可能只有 90%。通过系统性的学习 ai 测试规范,可以达到 100%

大模型的准确率

大模型经过大数据的预训练,已经可以充分理解网页结构与网页的动作行为,70b 以上的准确率已经实现了 100%,7b 的准确率基本也都在 90%以上。这块由企业具体使用的大模型决定。

提高上下文清晰度的方法

被测系统的 UI 结构或者接口接口的清晰度,比如 UI 里研发一般都会有清晰的识别标记,比如 id class text placeholder,周边文本标记,父子元素标记等等,默认准确度是很高的。但是会有个别情况需要注意

  • 标记随机

  • 缺少明确的标记

  • 存在相似标记

如果出现这类问题,要通过提示词增强

提高提示词的准确度

直接说明意图,或者明确说明步骤,比如如下 2 个方法都是可以跑通的。

  • 打开时钟 app,添加东京时区

  • 打开 com.android.clock,点击添加城市按钮,输入 tokyo,点击输入框下面的候选框里的第一条。

当出现一些特殊情况的时候,可以追加更多提示引导大模型去判断。

  • 寻找有业务含义的标记或者属性,比如 class placeholder 中的不会随机乱写的内容

  • 通过父子元素、索引顺序进行综合判断。比如顶部栏里内的输入框、第二个搜索搜索框等等。

覆盖率

用例覆盖率=上下文的覆盖率*提示词

上下文的覆盖率

  • 产品文档的信息覆盖率,通常文档中的信息量相对粗略,还取决于图片的识别准确率,只有 60%左右。

  • 产品原型的 UI/接口覆盖率,如果可以提供产品原型或者真实的被测系统,覆盖率可以达到 90%以上。

提示词

在足够的上下文覆盖率的情况,已经获得了被测系统足够的信息,提示词策略决定覆盖的深度的。

  • 全路径覆盖

  • 等价类边界值覆盖

  • 循环覆盖

  • 异常覆盖

  • 安全测试

  • ...

因为 AI 生成的用例会非常巨大,所以一般都会选择性的有所取舍。具体的百分比取决于提示词策略。

提示词优化建议方向

  • 测试策略:功能 性能 安全 。。。

  • 测试方法:等价类 边界值 路径覆盖 循环覆盖 代码覆盖度

  • 知识图谱:业务流程引导 购买+退款+再次购买+再次退款

通过优化提示词可以做到特定场景的 100%覆盖。

稳定性

大模型的输出稳定性=提示词上下文大模型参数

大模型的参数设置为不随机即可,调整 temperature top-k top-p 以及可能的思维链生成策略,可以实现稳定不变。 提示词基本也是固定不变的。 上下文主要取决于网站是否在测试期间发生变化,比如随机内容、实时内容变化、异常路径。发生变化后,准确率依然在 90%以上,通过优化提示词也可以达到 100%。

用户头像

测试人

关注

专注于软件测试开发 2022-08-29 加入

霍格沃兹测试开发学社,测试人社区:https://ceshiren.com/t/topic/22284

评论

发布
暂无评论
AI测试的准确率覆盖率稳定性_软件测试_测试人_InfoQ写作社区