PromptPilot 实操教程:这套 Prompt 手法包教包会
资料来源:火山引擎-开发者社区
“Prompt?谁不会写,谁不会调试,还要这个 PromptPilot 干什么?”我知道你可能有这样的疑惑。在没有接触这款产品前,说实话我也有这样的疑惑。
在深度体验了 PromptPilot 后,我觉得,我们真的把 Prompt 想简单了。
过去,我们写 Prompt,主要靠手搓+AI 优化,然后人工 roll case 来迭代,费时又费力。而这个 PromptPilot,可以帮我们快速拉起从提示词生成到调试、优化、评估和管理的全流程,非常的高效且高质量。
特别适合 AI Agent、AI 应用的系统提示词设计。
保姆级实操教程
接下来,是实操指导。借用句藏师傅的标题,本教程包会,不会退网。
0 前置工作
首先打开网站:https://promptpilot.volcengine.com
点击左下角“登录/注册”,登录账户。

登录后,订阅 PromptPilot,建议选择 Plus 版,可以一直白嫖到 9 月 11 号。

我们先来认识下 PromptPilot 的整体界面。

左侧边栏,分别是项目管理、Prompt 生成、Prompt 调试(单 case 和批量 case)、API 接入、知识库接入。
中间 chat 区,输入你的提示词需求。
比如,我们输入:“让 LLM 扮演《黑神话:悟空》里的天命人角色,和用户对话。”

它就会在右侧生成初版 Prompt,你可以直接复制使用,也可以继续优化,以及验证 Prompt。
做完了前置工作,接下来我们以一个实际工作中的例子,来给大家展示完整的 PromptPilot 使用流程。
1 生成 Prompt
比如传统工业,车间质检巡检一直是一个非常重要且高频的工作场景,现在能不能让 LLM 帮我们做自检?
我的需求是:
把这段需求发给 PromptPilot,在右侧会得到一个初版提示词,有图片变量,也有输出要求(思考、判断和违规类比)。

2 优化 Prompt
通常,车间图片是一个 URL,我们需要调整这部分变量,于是选中这部分文字,点击“优化”。

输入优化意见“变量名字必须是 image_url”,再点击确认。

就会得到一个新的 Prompt。
3 调试 Prompt
好,接下来我们就可以对 Prompt 进行调试了。
调试有分单 case 调试和批量 case 调试,分别有文本、视觉和多轮对话三种类型。
点击顶部的“+”号,新建调试任务,这时会出现 2 种模式让你选择:评分模式和 GSB 比较模式。

很好理解,一个是对回答进行打分来评判,一个是比较 A、B 两种回答来评判。
因为我们的任务是视觉理解,所以需要选择“视觉理解”类型。

回到 Step2,我们把得到的提示词复制到“调试 Prompt ”栏里。同时,给本次任务取一个名字,方便后面查看和对比版本。

接下来,我们要验证这个 Prompt,需要填写图片变量。点击{{image_url}}旁边的图片按钮,选择“ URL 上传”。

比如,我们在网上随便找了一张图片,复制图片 URL,填写进去。

右上角,选择一下模型,建议选择 doubao-seed-1.6-thinking,有多模态和推理能力。也可以自己接外部模型,比如 Step3、Intern-S1、o3 等。

Prompt、变量、模型都确认完后,点击“保存并生成模型回答”。

会得到一个模型回答。可以看到,模型判断准确,施工人员未违规。

就是这思考过程复杂了点,我们可以点“基于模型回答改写”。

输入要求“简化思考过程”,优化后的思考过程,果然简洁了许多。

然后,将这次调试结果添加到评测集中。

点击“ Prompt 批量”-“视觉理解”,就可以看到刚才添加的评测数据了。

你可以对这条评测集进行评分,建议采用二分制,满意就是 5 分,不满意就是 1 分,不要填 3-4 的中间分,而且最好是正负样本都有评分,这样模型才能更好的判断。
4 多 case 调试
这只是一个单 case 调试。很多时候,我们需要大量的评测集对提示词进行批量评测,这样才能调试出最优的 Prompt。
这时,你可以选择手动添加行数据,也可以选择批量上传数据集。

比如我上传已经准备好的数据集,点击“播放”按钮,就会生成模型回答,并评分。

这样就得到了批量的评测数据集,有理想回答,有模型回答,也有评分。
5 智能优化 Prompt
有了评测数据集,接下来就可以对 Prompt 进行系统优化了。
点击右上角“智能优化”,一键优化更优的 Prompt。

因为这回数据集增加了许多,所以 Prompt 优化要点时间,我们耐心等待一下。

大概 10 来分钟左右,一个深度优化后的 Prompt 就出来了。可以看到,优化后的版本比第一版要好了很多。

也可以看优化报告,看看 PromptPilot 到底在哪些地方进行了优化,

最终版的 Prompt 如下:
理论上,你还可以重复 2-5 的步骤。数据集越多,优化后的 Prompt 越好。
有了 PromptPilot,提示词从生成、调试、优化到管理,变得更加的容易和可控,再也不是那个“开局全靠 roll”的时代了。

尤其是在搞 AI Agent 或 AI 应用开发的朋友,强烈推荐去试试这个神器。
另外,PromptPilot 还支持知识库和外接模型。比如,它的自定义模型还支持“其他”。

评论