写点什么

让 AI 看见——Azure OpenAI GPT-4 Turbo with Vision 体验

作者:Bruce Talk
  • 2024-01-15
    吉林
  • 本文字数:1277 字

    阅读完需:约 4 分钟

大语言模型一直都是以文字为主的交互方式,无论是文字补全(Completion)还是聊天补全(Chat Completion)都是需要通过文字与 AI 模型进行交互。这也是为什么需要提示词工程(Prompt Engineering)。好的提示词能够让 AI 理解我们的意图,更高效的作出响应。而人们是不会止步于此,所以多模态一直是向往的方向,让 AI 能够看见、听见、和我们语音交流,让人们和 AI 交互更像人与人之间。

之前在与 chatGPT 集成的可视化方案,大多是通过已有相对成熟的技术来将图像转化为文字,之后与 chatGPT 交互,一次来让 AI 可以看见。例如 OCR 技术。另外例如语音转文字和文字转语音的技术,让 AI 能够与人类直接对话。不过这些技术的核心基础,仍然是将内容形式转换成文字,之后和 AI 进行交互。OpenAI 平台发布了 GPT-4 Turbo with Vision 之后,标志着 OpenAI 让他的大语言模型原生支持图像的识别。今天就用 Azure OpenAI GPT-4 Turbo with Vision 给大家介绍一下。目前仍然是 Preview 版本。不过可以一窥其强大之处。

认识图片的内容

在 Azure 上部署 OpenAI 对应的模型后,我们就可以在操场(playground)上面体验模型的效果了,下面就是在这个场景下面的使用效果。

识别一张风景的照片,描述地址,周围的描述等信息,当然可以结合旅游、餐饮、娱乐等应用配合。


不仅是风景,还可以详细列举图片中元素。

当然还可以对数学公式进行解题,可以从这里扩展很多衍生应用。

不过目前模型还对英文提问支持的更好。中文同样的照片会提示无法识别。


自定义图片数据

Azure OpenAI 提供了自定义文件来上传和标记你自己的图片。可以解决上面无法识别的问题。如下几个步骤来处理自定义文件。

  1. 选择数据源

2. 设置上传图片存放的地址以及索引服务信息

3. 上传与你希望模型可以使用的图片,例如我希望识别冰箱内的食物。那就准备一些单独食物的照片。

  1. 并在那个照片的后面设置标记。这个很关键,因为图片和文字的对应关系就在这个时候建立起来了。

  1. 做完上述操作之后,等待模型准备,之后再次询问同一张图片。你会发现内容中文反馈了。

尝试识别其他其他相似图片,也可以获得不错的反馈。



总结和展望

视觉是一种相对复杂的多模态支持,它相当于给 AI 提供了更丰富的信息输入形式。未来可以让 AI 更方便同时更无感的和我们的生活融合到一起,真的成为每个人的陪伴型智能助理成为可能。就像钢铁侠里面的贾维斯。可以想像基于这个技术可以有很多可以落地的方向:

  1. 对视频的每一帧做一些处理之后,通过图像识别,可以更高效理解视频内容。总结视频内容。或者最视频内容做审核。等等。针对视频内容的分析和处理会更高效。

  2. 随着处理速度的提高,对动态图像的处理能让 AI 具备视觉能力,更实时的处理和响应看见的东西。

  3. 分析图内容结合企业上下文。例如企业正在使用的云计算基础设施架构图。理解图的内容,并提供架构改进建议。

  4. 冰箱内部拍一张照片,让 AI 提供一份菜谱。

  5. 汽车企业可以有自己的产品图库来提高识别效率。例如拍摄一张汽车照片。推荐该型号车的信息,并提供保养、维护、就近 4S 店信息和建议等。

  6. 拍一个风景照片,推荐当地的旅游、住宿、餐饮、娱乐、购物等周边信息。并提供完整旅游攻略和形成安排。

拥抱新技术,用技术改变我们的生活。

发布于: 刚刚阅读数: 3
用户头像

Bruce Talk

关注

动机至善,私心了无。 2008-09-26 加入

一只程序猿,热爱新技术,痴迷于精益敏捷,现在北国春城工作。践行软件工艺,让工作因我而不同。个人博客:https://brucetalk.com

评论

发布
暂无评论
让AI看见——Azure OpenAI GPT-4 Turbo with Vision体验_AI_Bruce Talk_InfoQ写作社区