写点什么

能否用图像代替文本来节省 LLM token

作者:zurhan
  • 2025-12-05
    北京
  • 本文字数:1459 字

    阅读完需:约 5 分钟

仅在特定条件下可行,而且可能不值得做出这些权衡


DeepSeek 最近发布的 OCR 论文和相关讨论让我想起我在 OpenAI API 中注意到的一个有趣现象——使用图像作为输入的提示所消耗的 token 数量与使用文本的提示几乎相同,尽管图像的大小可能是文本的 50 倍。这让我思考,是否可以通过将文本转换为图像并发送给 API 来实际节省 token?设置实验为了验证这个理论,我分别使用纯文本和基于图像的方式运行了一个简单的提示。在这个提示中,我让 ChatGPT 提取并总结 Karpathy 这篇关于数字卫生的文章中的信息。这应该是 LLMs 擅长的事情,同时也有明确的正确答案,因此便于检查。提示内容如下:


List every hygiene tip from the collection, with a short sentence summary.List the titles * EXACTLY * as in the textFollow the following format:** Title 1 ** - summary 1** Title 2 ** - summary 2DO NOT ask any followup questions, simply return the list.
复制代码


列出集合中的每一条卫生建议,并用简短的句子进行总结。标题必须与文本中的完全一致。遵循以下格式:标题 1 - 总结 1 标题 2 - 总结 2 不要提出任何后续问题,只需返回列表。


为了运行该提示,我提取了博客文章的纯文本版本(跳过标题和图像),并将其输入给 gpt-5。输出结果符合预期:

**Password manager** - Use a password manager to store and generate unique passwords to prevent reuse and leaks across services.**Hardware security key** - Strengthen your accounts with physical security keys like YubiKeys for superior protection against attacks and SIM swaps.**Biometrics** - Use biometric authentication, such as FaceID, as an additional factor of security where available.**Security questions** - Avoid traditional security questions; use random passwords instead to prevent easy guessing or phishing... etc
复制代码


密码管理器 - 使用密码管理器存储和生成唯一密码,防止跨服务的密码重用和泄露。

硬件安全密钥 - 使用 YubiKeys 等物理安全密钥增强账户安全性,防御攻击和 SIM 卡交换。

生物识别 - 在可用的情况下使用 FaceID 等生物识别认证作为额外的安全因素。

安全问题 - 避免使用传统的安全问题;改用随机密码以防止轻易猜测或钓鱼。..以此类推


下一步是在图像上而不是文本上运行该提示。将提示转换为图像创建图像时,我们需要仔细设置正确的尺寸,否则 OpenAI 会调整图像大小,导致无法辨认任何文本。查阅他们的文档后,发现理想尺寸似乎是 768x768,因此我编写了一个 puppeteer 脚本,将文章转换为该尺寸的图像。为了适应所需的分辨率,我不得不将提示分成两张图像;你可以在这里和这里查看它们。运行提示时,必须为两张图像都指定"detail": "high"


model='gpt-5',messages=[{    'role': 'user',    'content': [        {"type": "image_url",  "image_url": {"url": f"{im_1}", "detail": "high"}},        {"type": "image_url",  "image_url": {"url": f"{im_2}", "detail": "high"}},    ],},
复制代码


这运行得很完美,输出结果与使用基于文本的提示类似(尽管处理时间几乎延长了一倍)。

实验结果使用几个不同的模型运行提示后,我们可以看到在提示 token 方面确实有显著的节省。


特别是使用 gpt-5 时,提示 token 减少了超过 40%。

然而,提示 token 只是问题的一半。使用每个模型运行提示五次并取平均值,我们看到以下结果:


除 gpt-5-chat 之外的所有模型在使用图像输入时都会消耗显著更多的生成 token。


生成 token 的成本也明显更高,因此除非使用聊天模型,否则你不会获得任何节省。


用户头像

zurhan

关注

还未添加个人签名 2020-09-01 加入

还未添加个人简介

评论

发布
暂无评论
能否用图像代替文本来节省LLM token_zurhan_InfoQ写作社区