GPT4o虽然再度震撼，但还是理性期待

OpenAI 于 5 月 13 日正式发布 GPT-4o，不缺话题和热点的 AI 领域，很多人对 GPT-4o 抱有期待。首先说，虽然再度震撼，但不是什么 OpenAI 的新旗舰模型，而是更小模型、更高质量训练集的结果，不要被无良无知者带了节奏瞎起哄。

gpt4o release

什么是GPT-4o

此次发布的GPT4o，官方解释其中“o”为“Omni”，一个拉丁词根，意思是“所有的”、“全部的”或“全能”。GPT4o 也确实名副其实，向我们展现了接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的能力。所有 GPT4o 的信息，都可以在官方的模型介绍页面找到 https://openai.com/index/hello-gpt-4o/。

gpt-4o

据 OpenAI 介绍，GPT4o 的音频输入响应时间平均为 320 毫秒，与人类在对话中的响应时间相似。之前，如果用户使用语音模式与 ChatGPT 对话，有平均为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4）的延迟。这是由于 GPT-3.5 和 GPT-4 使用的是三模型组合管道——先使用简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收后输出文本，再将其转换回音频。看到了吧，ChatGPT-4 的语音对话功能如同早年的胶水 CPU，内部缝合式的工程化方法。

GPT4o 是 OpenAI 训练的一个跨文本、视觉和音频的端到端的新模型，这意味着所有输入和输出都由同一个神经网络处理。因为 GPT4o 是 OpenAI 第一个结合这些模态的模型。

GPT-4o 能干什么？

GPT4o 能干什么？官方说的很清楚，接收文本、音频和图像的任意组合作为输入，输出同样如此。视频还继续是 sora 的专场，也不要指望 “o” 可以囊括视频。值得一提的是，GPT4o 多模态能力真的是狂飙突进。

具体地说，不妨了解下简短的发布会演示。在 GPT4o 的发布会上，OpenAI 进行了简短的现场演示，包括语音对话、讲睡前故事等。说到睡前故事，这恰恰是很多“创业者”选择的赛道，在这个演示中，演示者 marc 一次又一次打岔，要求GPT一遍遍重讲，还要求它以唱歌的语调结束。GPT4o 没有抱怨也没有迟疑，流畅地完成了任务。

chat

发布会的最后一个场景是，一位说意大利语和另一位说英语的工作人员进行对话，由 GPT-4o 做翻译，GPT-4o 扮演了同声传译的角色，效果很好。

另外，与发布会侧重于语音不同，线下很多爱好者的实际应用，GPT4o 的视觉能力也大幅提升，图片识别“令人发指”，OpenAI 是真的砸大钱买商用标注数据的，下图为 GPT4o 的视觉测试能力得分，这才是真正的“遥遥领先”。GPT4o 的所有能力是基于更小的模型、更优质的训练数据。

vision

GPT-4o 要钱吗？

GPT4o 要钱吗？当 OpenAI 技术总监米拉·穆拉蒂宣布“GPT-4o 向所有人免费开放”时，发布会现场响起了雷鸣般的掌声。

因此，对体验者而言，等同于免费。GPT-4o 目前是免费可限次数使用，付费可无限使用，和之前开放免费的 GPT3.5 类似，是典型的营销漏斗策略。对比列举一下：

免费用户：GPT-4o 每三小时可以使用 10 次，满 10 次自动变成3.5。
Plus用户：GPT-4o 每三小时可以使用80次，前40次额度和GPT-4额度共享，优先消耗。

永久免费的需求，你应该先做到单位认可你每天 8 小时摸鱼而不辞退你再说。

price

与此同时，美国部分地区的 Azure OpenAI 用户已经可以率先通过 Azure OpenAI Studio 的预览功能试用 GPT-4o 的强大功能，微软将在本月晚些时候举办的 Build 2024 大会上分享更多有关 GPT-4o 和 Azure 人工智能的新消息。

GPT4o的使用

使用很简单，无论从哪个入口登录，最新的 GPT-4o 简介弹窗说明你可以正常、优先使用 GPT-4o ，配额用完后，自动降级为 GPT 3.5。

try gpt4o

网页端无论提出什么问题让其作答，都可以检查是哪个模型在工作。GPT-4o 的响应肉眼可见的快！

select model

怎么没有语音输出？在接下来的几周内，OpenAI 计划将在 ChatGPT Plus 中推出 Voice Mode 新版本，该版本带有 GPT-4o。这将作为 ChatGPT Plus 的一个 alpha 版本提供给 PIus 用户。此外，GPT-4o 也将通过 API 提供给开发者，作为文本和视觉模型。开发者可以利用 API 来集成 GPT-4o 到他们自己的应用程序中，而且 GPT-4o 在 API 中相比 GPT-4 Tubo 更快、更便宜，并且有更高的速率限制。所以，开启语音对话并不是 GPT-4o 所独有，只要是 Plus 订阅用户，使用 GPT4 同样可以通过『Voice control for ChatGPT』扩展开通网页端语音对话，移动端则更为简单，点『耳机』图标即可。

当前，GPT4o 仍处在灰度测试阶段，用户除非被“灰度”到了，否则是不可能完整再现发布会现场的酷炫体验的。

值得期待吗？

等待，本身就是期待。奥特曼（Altman）在发布会同日于其「博客」发文，声称感到非常自豪，“我们在 ChatGPT 中免费提供了世界上最好的模型，没有广告或类似的东西”，同时强调“新的语音（和视频）模式是我用过的最好的...事实证明，达到人类水平的响应时间和表现力是一个很大的变化”。言语之中，对 GPT4o 充满期待。

blog of altman

回到用户侧，C 端谈论最多的恐怕还是免费使用，尽管有明确的次数、速率限制，和 GPT 3.5 发布时一样，争先恐后搭梯子、找中转甚至买账号进行尝试，但从 C 端来看，对于大多数普通人，真正能与个人生活、学习紧密相关的可落地场景几乎没有，订阅一个月的 GPT4 Plus，可能间断用了一周，其他时间束之高阁。

但是，对于使用 GPT 进行创作的群体，GPT4o 是值得期待的，因为可以大幅提高效率。以往都是 GPT 出文案，再转语音或图像、生成视频等，其中是一整套“工程化”方法，很多创业平台/公司其实干的就是把各个模型组合在一起，提供一个胶水化平台，销售的就是大模型工程化。有了 GPT4o，创作者或许可以大幅降低对“工程化”平台的依赖，GPT4o 的“o”远比缝合工程的效率高得多，体验也会更好。

但这往往没用，因为 B 端不认同，商家最终买单的是结果，提供方怎么胶水出来的无关紧要。C 端强调体验，但更在乎钱包，GPT4o 赋予的体验升级可能敌不过 coze 等一堆免费胶水 GPT4 平台的性价比。所以，与其花精力在 GPT4o 的应用研究上，还不如稳定保持一个服务开通国家/地区的“身份”。iOS 18 将内置搭载 ChatGPT，毫无疑问，国区一定欠奉，或者贴心地替换为文心、通义等国产大模型，用过微信对话开放平台的都知道，那里面就有 chatbot，用户直观上无法体会到和接入国产大模型有什么区别。

一切的根源都在于我们主动建墙，墙并不能像人类一样有温度地思考，只能冰冷地处理数据包，不分好坏、不论缘由，一律隔离。

本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可