能否用图像代替文本来节省 LLM token
仅在特定条件下可行,而且可能不值得做出这些权衡
DeepSeek 最近发布的 OCR 论文和相关讨论让我想起我在 OpenAI API 中注意到的一个有趣现象——使用图像作为输入的提示所消耗的 token 数量与使用文本的提示几乎相同,尽管图像的大小可能是文本的 50 倍。这让我思考,是否可以通过将文本转换为图像并发送给 API 来实际节省 token?设置实验为了验证这个理论,我分别使用纯文本和基于图像的方式运行了一个简单的提示。在这个提示中,我让 ChatGPT 提取并总结 Karpathy 这篇关于数字卫生的文章中的信息。这应该是 LLMs 擅长的事情,同时也有明确的正确答案,因此便于检查。提示内容如下:
列出集合中的每一条卫生建议,并用简短的句子进行总结。标题必须与文本中的完全一致。遵循以下格式:标题 1 - 总结 1 标题 2 - 总结 2 不要提出任何后续问题,只需返回列表。
为了运行该提示,我提取了博客文章的纯文本版本(跳过标题和图像),并将其输入给 gpt-5。输出结果符合预期:
密码管理器 - 使用密码管理器存储和生成唯一密码,防止跨服务的密码重用和泄露。
硬件安全密钥 - 使用 YubiKeys 等物理安全密钥增强账户安全性,防御攻击和 SIM 卡交换。
生物识别 - 在可用的情况下使用 FaceID 等生物识别认证作为额外的安全因素。
安全问题 - 避免使用传统的安全问题;改用随机密码以防止轻易猜测或钓鱼。..以此类推
下一步是在图像上而不是文本上运行该提示。将提示转换为图像创建图像时,我们需要仔细设置正确的尺寸,否则 OpenAI 会调整图像大小,导致无法辨认任何文本。查阅他们的文档后,发现理想尺寸似乎是 768x768,因此我编写了一个 puppeteer 脚本,将文章转换为该尺寸的图像。为了适应所需的分辨率,我不得不将提示分成两张图像;你可以在这里和这里查看它们。运行提示时,必须为两张图像都指定"detail": "high"
这运行得很完美,输出结果与使用基于文本的提示类似(尽管处理时间几乎延长了一倍)。
实验结果使用几个不同的模型运行提示后,我们可以看到在提示 token 方面确实有显著的节省。
特别是使用 gpt-5 时,提示 token 减少了超过 40%。
然而,提示 token 只是问题的一半。使用每个模型运行提示五次并取平均值,我们看到以下结果:
除 gpt-5-chat 之外的所有模型在使用图像输入时都会消耗显著更多的生成 token。
生成 token 的成本也明显更高,因此除非使用聊天模型,否则你不会获得任何节省。







评论