OpenAI 新模型 GPT-4o“炸裂登场” 响应速度堪比真人 关键还免费!
GPT-4o 模型基于来自互联网的大量数据进行训练,更擅长处理文本和音频,并且支持 50 种语言。更值得一提的是,GPT-4o 最快可以在 232 毫秒的时间内响应音频输入,几乎达到了人类的响应水平。
GPT-4o 有多“炸裂”?核心能力有三
GPT-4o 中的“o”代表“omni”,意为“全能”。OpenAI 官网介绍称,GPT-4o 向更自然的人机交互迈进了一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。
那 GPT-4o 到底有多强,有哪些核心能力呢?
能力一:“实时”互动,表达富有情感,视觉功能更强
OpenAI 表示,GPT-4o 显著提升了 AI 聊天机器人 ChatGPT 的使用体验。虽然 ChatGPT 长期支持语音模式,可将 ChatGPT 的文本转为语音,但 GPT-4o 在此基础上进行了优化,使用户能够像与助手互动一样自然地使用 ChatGPT。
例如,用户现在可以在 ChatGPT 回答问题时中断它。而且,新模型能够提供“实时”响应,甚至能够捕捉到用户声音中的情感,并以不同的情感风格生成语音,如同真人一般。此外,GPT-4o 还增强了 ChatGPT 的视觉功能。通过照片或屏幕截图,ChatGPT 现在可以迅速回答相关问题,从“这段代码是做什么用的”到“这个人穿的是什么品牌的衬衫”。
美国科技媒体 Quartz 报道称,OpenAI 新发布的 ChatGPT-4o 的技术让人印象深刻。OpenAI 的演示表明,机器人现在可以与人类进行实时对话,与真人水平几乎没有区别。如果最终版本像 OpenAI 官方的演示一样,那么 OpenAI 似乎已经从某种程度上验证 AI 将在多大程度上改变我们的世界。
能力二:多语言表现出色,响应速度几乎与真人无异
GPT-4o 的多语言功能得到了增强,在 50 种不同的语言中表现更佳。在 OpenAI 的 API 中,GPT-4o 的处理速度是 GPT-4(特别是 GPT-4 Turbo)的两倍,价格则是 GPT-4 Turbo 的一半,同时拥有更高的速率限制。
OpenAI 官网介绍称,GPT-4o 最快可以在 232 毫秒的时间内响应音频输入,平均响应时间为 320 毫秒,这与人类在对话中的响应时间相似。它在英语文本和代码方面的性能与 GPT-4 Turbo 的性能一致,并且在非英语文本方面的性能有了显著提高。
用户只需发出简单的“嘿,ChatGPT”语音提示,即可获得代理的口语回应。然后,用户可以用口语提交查询,并在必要时附上文字、音频或视觉效果——后者可包括照片、手机摄像头的实时画面或代理能“看到”的任何其他内容。
2024年快速升级ChatGPTPLSU方法,开卡即可升级,支持微信支付宝
能力三:在推理及音频翻译方面树立新标杆
据 OpenAI 研究人员 William Fedus 透露,GPT-4o 实际上就是上周在 LMSYS 模型竞技场上引起整个 AI 圈疯狂试用的 GPT-2 模型的另一版本,并附上了 GPT-4o 的基准测试评分对比图,相比 GPT-4 Turbo 提升了超过 100 个单位。
推理能力方面,GPT-4o 在 MMLU、GPQA、MATH、HumanEval 等测试基准上均超越 GPT-4 Turbo、Claude 3 Opusn、Gemini Pro 1.5 等前沿模型,取得最高分。
音频 ASR(智能语音识别)性能方面,GPT-4o 相比 Whisper-v3,在所有语言的语音识别性能上均大幅提高,尤其是资源较少的语言。
音频翻译方面,GPT-4o 也树立了新的标杆,在 MLS 基准测试中优于 Whisper-v3 以及 Meta、谷歌的语音模型。
评价褒贬不一,有网友认为压力给到 Siri 了
虽然并未在 OpenAI 周一的重磅直播演示中现身,但 OpenAI 的 CEO 阿尔特曼对这次演示进行了重要的总结。阿尔特曼称,OpenAI 在 ChatGPT 中免费提供了世界上最好的模型,新的语音和视频模式是他用过的最好的计算交互界面,感觉就像电影里的人工只能一样,达到与人类相似的响应速度和表达能力。
目前,GPT-4o 的文本和图像功能开始在 ChatGPT 中免费推出,Plus 用户可以享受到 5 倍的调用额度。在接下来的几周内,OpenAI 将在 ChatGPT Plus 中推出 Voice Mode 新版本,该版本带有 GPT-4o。
评论