全部标签 



写点什么

登录注册

让 AI 看见——Azure OpenAI GPT-4 Turbo with Vision 体验

作者：Bruce Talk

2024-01-15
吉林
本文字数：1277 字
阅读完需：约 4 分钟

大语言模型一直都是以文字为主的交互方式，无论是文字补全（Completion）还是聊天补全（Chat Completion）都是需要通过文字与 AI 模型进行交互。这也是为什么需要提示词工程（Prompt Engineering）。好的提示词能够让 AI 理解我们的意图，更高效的作出响应。而人们是不会止步于此，所以多模态一直是向往的方向，让 AI 能够看见、听见、和我们语音交流，让人们和 AI 交互更像人与人之间。

之前在与 chatGPT 集成的可视化方案，大多是通过已有相对成熟的技术来将图像转化为文字，之后与 chatGPT 交互，一次来让 AI 可以看见。例如 OCR 技术。另外例如语音转文字和文字转语音的技术，让 AI 能够与人类直接对话。不过这些技术的核心基础，仍然是将内容形式转换成文字，之后和 AI 进行交互。OpenAI 平台发布了 GPT-4 Turbo with Vision 之后，标志着 OpenAI 让他的大语言模型原生支持图像的识别。今天就用 Azure OpenAI GPT-4 Turbo with Vision 给大家介绍一下。目前仍然是 Preview 版本。不过可以一窥其强大之处。

认识图片的内容

在 Azure 上部署 OpenAI 对应的模型后，我们就可以在操场（playground）上面体验模型的效果了，下面就是在这个场景下面的使用效果。

识别一张风景的照片，描述地址，周围的描述等信息，当然可以结合旅游、餐饮、娱乐等应用配合。

不仅是风景，还可以详细列举图片中元素。

当然还可以对数学公式进行解题，可以从这里扩展很多衍生应用。

不过目前模型还对英文提问支持的更好。中文同样的照片会提示无法识别。

自定义图片数据

Azure OpenAI 提供了自定义文件来上传和标记你自己的图片。可以解决上面无法识别的问题。如下几个步骤来处理自定义文件。

选择数据源

2. 设置上传图片存放的地址以及索引服务信息

3. 上传与你希望模型可以使用的图片，例如我希望识别冰箱内的食物。那就准备一些单独食物的照片。

并在那个照片的后面设置标记。这个很关键，因为图片和文字的对应关系就在这个时候建立起来了。

做完上述操作之后，等待模型准备，之后再次询问同一张图片。你会发现内容中文反馈了。

尝试识别其他其他相似图片，也可以获得不错的反馈。

总结和展望

视觉是一种相对复杂的多模态支持，它相当于给 AI 提供了更丰富的信息输入形式。未来可以让 AI 更方便同时更无感的和我们的生活融合到一起，真的成为每个人的陪伴型智能助理成为可能。就像钢铁侠里面的贾维斯。可以想像基于这个技术可以有很多可以落地的方向：

对视频的每一帧做一些处理之后，通过图像识别，可以更高效理解视频内容。总结视频内容。或者最视频内容做审核。等等。针对视频内容的分析和处理会更高效。
随着处理速度的提高，对动态图像的处理能让 AI 具备视觉能力，更实时的处理和响应看见的东西。
分析图内容结合企业上下文。例如企业正在使用的云计算基础设施架构图。理解图的内容，并提供架构改进建议。
冰箱内部拍一张照片，让 AI 提供一份菜谱。
汽车企业可以有自己的产品图库来提高识别效率。例如拍摄一张汽车照片。推荐该型号车的信息，并提供保养、维护、就近 4S 店信息和建议等。
拍一个风景照片，推荐当地的旅游、住宿、餐饮、娱乐、购物等周边信息。并提供完整旅游攻略和形成安排。

拥抱新技术，用技术改变我们的生活。

发布于: 刚刚阅读数: 3

版权声明: 本文为 InfoQ 作者【Bruce Talk】的原创文章。

原文链接:【http://xie.infoq.cn/article/66c83fe1ac23aaad1f7449f96】。

本文遵守【CC-BY 4.0】协议，转载请保留原文出处及本版权声明。

Bruce Talk

关注

动机至善，私心了无。 2008-09-26 加入

一只程序猿，热爱新技术，痴迷于精益敏捷，现在北国春城工作。践行软件工艺，让工作因我而不同。个人博客：https://brucetalk.com

评论

发布

暂无评论

促进软件开发及相关领域知识与创新的传播
InfoQ
关于我们
我要投稿
合作伙伴
加入我们
关注我们
联系我们
内容投稿：editors@geekbang.com
业务合作：hezuo@geekbang.com
反馈投诉：feedback@geekbang.com
加入我们：zhaopin@geekbang.com
联系电话：010-64738142
地址：北京市朝阳区望京北路9号2幢7层A701
InfoQ 近期会议
北京 · QCon全球软件开发大会 2024.4.18-20
北京 · AICon 全球人工智能与大模型应用峰会 2024.5.17-18
深圳 · ArchSummit全球架构师峰会 2024.6.14-15
上海 · FCon全球金融科技大会 2024.8.16-17
全球 InfoQ
InfoQ En
InfoQ Jp
InfoQ Fr
InfoQ Br

Copyright © 2024, Geekbang Technology Ltd. All rights reserved. 极客邦控股（北京）有限公司 | 京 ICP 备 16027448 号 - 5

京公网安备

京公网安备 11010502039052号 | 产品资质