GPT-4o 重磅发布,第一时间测评!
文章推荐
OpenAI直播倒计时,GPT-5被证缺席,GPT-3.5至5,一文看懂AI进化大不同!
AI日报|Sam Altman谈GPT-5与去年“宫斗”事件,李开复首谈ChatGPT...
5 月 14 日凌晨,OpenAI 在万众期待的「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。直播中提到 GPT-4o 会免费提供给用户,小编早上第一时间登录了自己的账号,然而并没有看到。猜测这个模型还在灰度中,于是氪金化身 AI 测评博主,对 OpenAI 官方宣传的 GPT-4o 模型进行实!际!考!察!
首先,OpenAI 官方博客中提到 GPT-4o,相比现有模型,在视觉和音频理解方面尤其出色。
小编观看了 OpenAI demo 演示视频,OpenAI 工作人员与 GPT-4o 像朋友一样进行视频对话互动,狠狠心动!跃跃欲试!
但是 ! ! !很遗憾地告诉大家,目前视频交互功能还没对普通用户开放,我们只能通过上传图片和文件来和 ChatGPT 交互。
另外,官方展示的实时语音翻译功能也引起了吃瓜群众的关注,OpenAI 回应手机可以拿来当翻译机来回翻译将近 20 个常用语言。
小编进行了尝试,发现实时语音翻译也还无法实现.....和 ChatGPT 语音交互后,还是有几秒的等待时间。
OpenAI 在官方博客中也表示“我们计划在接下来几周内,通过 API 将 GPT-4o 的新音频和视频功能提供给一小部分可以相信的合作伙伴。”除了这些大家比较期待但还没办法体验的功能,官方博文中还 Po 出了一系列的文生图和图像、语音、视频识别的能力展示,接下来小编将就这些能力展!开!测!评!我们复制了官方博客中 Input 作为 prompt 进行生成,将我们自身生成的结果和官方提供的生成图形成对比,供大家参考~
漫画分镜:机器人的写作瓶颈
这个效果展示一方面能体现 GPT-4o 强大的图片生成能力,包括对图片上文案生成的改进,还能在生成多个图片时能够保持人物的一致性。但效果……
第一张图可以看到自测生成图中文字还是有错字,字迹显示模糊的现象
第二张图中,机器人的手有了明显的变化,没有保持一致,纸张也有了变化
第三张图,基本过关,但纸上的文字已经和前 2 张图完全不一样了……
漫画分镜:邮差 Sally 的故事
很好!GPT-4o 生成了一张日漫风格的邮差美女,比官方 Po 出的图片还要好看
等等,怎么画风变了,日漫怎么变木偶了,而且视角也不太对
第三张又换了一个风格,虽说单个的图和文对应得还挺好,但连起来很难讲述一个连贯的故事……
漫画头像
接下来这个功能是小编最喜欢的,也是 GPT-4o 表现最好的。上传一张照片,为你设计漫画头像,背景也可以自定义。
这是原图,OpenAI 的技术小哥 Alex Nichol
这是 GPT-4o 生成的漫画头像,虽说自测没有官方生成的写实,但也还原了基本特征。
艺术字体
效果很赞,甚至比官方出图还赞!
但是字母怎么越来越少了
3D 效果图
美观度够了,但 logo 改成这个样子还能用吗?
创意排版
手写体是挺优美的,但文本准确度还是有点差……
人物情绪识别
小编上传了一张情绪丰富的人物照片,GPT-4o 非常准确地识别了出来,还编了故事一段故事。
会议录音识别
小编上传了一段多人的会议录音,问它这段录音中有几个人,GPT-4o 通过音轨的分析来给出了一个答案,就有些离谱……
从整体的实际体验来看,目前普通用户能用到的 GPT-4o 并没有宣传中的那么好用,这次的发布更像是一次仓促的 PR 行为,没有看到太多的诚意。小编并不怀疑 OpenAI 发布的视频像明天的主角 Google 一样有剪辑视频的嫌疑,但显然视频中 OpenAI 员工手机里用的 GPT-4o 和我现在用的不太一样,至于啥时候能内外同源,只能期待了。
版权声明: 本文为 InfoQ 作者【可信AI进展】的原创文章。
原文链接:【http://xie.infoq.cn/article/4f34a88c47804f0942ca80366】。文章转载请联系作者。
评论