惊艳,根本停不下来!GPT-4 全工具模式开始测试
前言
今天,看到国外网站上有 ChatGPT Plus 用户分享,他幸运地被选中参与 GPT-4 全模式的试用。
晒出的通知如下:
意思是:
1、支持各种各样的文件格式上传,支持对它们进行分析,包括 PDF、数据文件等等,上传后,问出你的问题。这相当于,把原来的高级数据分析 ADA 模式融合到普通的聊天对话中了,你不必特意选择 ADA 而无法使用其他模式。
2、现在可以同时使用联网查询,高级数据分析,画图 DALL.E,GPT 会自动识别并调取相关能力工具。(如果你喜欢手动切换,也是支持的)
下图,是标注的 GPT-4 使用模式切换界面:
目前,作为一个普通的 GPT-4 付费用户,你有如下 5 种模式可供选择:
1、默认模式 Default:支持上传图片,通过对话和 GPT 讨论图片相关话题,即调用了 GPT-4V 的识图功能;
2、联网模式 Browse with Bing:联网功能,在此模式下,可以在对话中要求 GPT 联网获取最新的讯息;
3、高级数据分析 ADA:支持上传各种格式的文件,并要求 GPT 对文件进行各种各样的处理(依赖 python 的各种能力);
4、插件模式 Plugins:支持从官方插件市场中任意开启 3 款,结合对话使用;
5、画图模式 DALL.E 3:用自然语言进行绘画创作。
由于一次只能在一种模式下进行任务,这在很大层度上束缚了 GPT-4 的潜力。当然,作为用户,豆哥很清楚,不远的未来,它们之间一定会打通。
这一切的一切,都是以 GPT-4 强大的理解和文字输出能力为基础的。在多种模态的理解和输出过程中,语言文字作为核心的桥梁,发挥着不可替代的胶水(连接)作用。这一点,把语言的抽象概括和推理表达能力发挥得淋漓尽致。要不是 GPT,豆哥之前从来想过也没有觉得,语言伟大得,令人发指!
GPT-4 全工具模式(All Tools)
下面,让我们畅想一下 GPT-4 全模式,到底能激发出什么样的东西。
现在的情况是,看起来从输入到处理再到输出,啥啥都有,但是里面暗藏着很多限制,不是每一条路都能走得通的,而且每个模式之间也基本是彼此隔离的:
有了 GPT-4 全模式以后,就变成了每条路都能走得通,拆掉了处理过程的模式栅栏以后,会变成:
这时候,有趣的事情,会有两类:
1、用户不用管到底用什么模式了,你只需要提问,由 GPT 自己判断要用哪种模式。这很好,但是也可能导致你想要的途径,GPT 没有理解的问题。
2、现有 5 大模式之间打通了,这部分相当于可以形成工作流,有很多新的使用方式可能出现。
举几个例子:
1、基于用户提供的图片,用 DALL.E 3 画图,即结合识图和绘图模式
把现有默认模式中上传图片和 GPT-4V 的图片理解能力,和绘图模式结合到了一起。这直接可以解决昨天豆哥在娃那里输掉的场景:
孩子让我用 DALL.E 3 画一个和平精英的火箭少女。我废了很大力气,尝试去描述火箭少女的形象,形成文字描述,交给 DALL.E 3 绘图。看起来很好,其实很多细节还是不对:
后来我尝试用 GPT-4V 帮我写描述,结果更不靠谱:
2、向原绘图中加入指定的元素
要求把黑绿色的滑板加入到原绘图中,保持角色不变。
用过 Stable Diffusion 的小伙伴应该知道,这实际上实现了姿势调整、蒙版和不换脸等好几个插件的功能。相当地惊艳!
3、结合联网和绘图模式
让 GPT-4 查询当下的天气信息,并绘制屏保图。
4、结合联网、数据分析和绘图模式
让 GPT 搜索 2023 年大西洋的飓风数据,然后画出数据信息图,表达出飓风强度等级等信息。另外,还要让它预测明年飓风可能出现的位置:
5、结合识图、数据分析和绘图模式
给定一张图(垫图),让 GPT 按要求改变图片风格、内容,并提供图片下载。
给定 2 张图(垫图),让 GPT 融合两幅图的风格:
结语
这位国外博主展示的功能还只有冰山一角,就如此地惊艳了。这种能力,让我们再次看到 GPT-4 又向通用人工智能买进了一步,即能自动理解、处理和输出多模态信息。
目前,官方还没有发布任何信息,不过,相信在不远的将来,这个功能也会开放给普通付费用户。根据 DALL.E 3 的测试和开放经验,猜测可能还需要 1 个月。
版权声明: 本文为 InfoQ 作者【豆茉君】的原创文章。
原文链接:【http://xie.infoq.cn/article/c1c9732867f470bf88a061ecc】。文章转载请联系作者。
评论