预言成真!OpenAI 正式发布 GPT-5.4:职业级AI的终极“完全体”降临
🎯神预言:toolswith.ai 24小时内精准预判
就在 toolswith.ai 不到24小时前发文预判 GPT-5.4 即将降临后,OpenAI 官方于今日凌晨正式揭开了这一“性能猛兽”的面纱。
正如我们在《OpenAI 爆发式更新:GPT-5.4 携"极致推理"将至,百万级上下文重塑生产力》中通过 Polymarket 赔率与底层代码泄露所做出的预测:“GPT-5.4 的降临就在未来 100 小时内。” 事实证明,OpenAI 的迭代节奏比所有人预想的都要快。这一突袭式发布的“完全体”模型,带着百万级上下文、原生计算机使用以及极致职业化的标签,正式登陆 ChatGPT、API 以及 Codex。
这次发布不仅完美印证了我们关于超长上下文与极致推理(Thinking)的预判,更以其在“计算机使用(Computer Use)”能力上的跨越式进化,带来了超越预期的震撼。
🚀 GPT-5.4:为专业工作而生的“重装坦克”
1. 知识工作(Knowledge Work):超越行业专家
在衡量 44 种职业实战能力的 GDPval 测试中,GPT-5.4 的胜率高达 83.0%,正式超越了人类行业专家的基准。
- 办公全才:针对 Excel 建模、幻灯片制作和文档撰写进行了定向优化。在投行分析师级别的电子表格任务中,其得分从 68.4% 飙升至 87.3%。
- 事实性飞跃:官方数据显示,其虚假陈述概率降低了 33%,响应错误率降低了 18%。它不再只是"会聊天",而是"能办实事"。
知识工作(Knowledge Work)基准测试结果
“GPT-5.4 是我们尝试过的最强模型。目前,它在我们衡量专业服务能力的 APEX-Agents 基准测试中高居榜首。它在处理“长周期产出”(Long-horizon deliverables)方面表现卓越——例如制作幻灯片演示文稿、构建金融模型以及进行法律分析。在提供顶尖性能的同时,其运行速度更快,且成本远低于竞争对手的尖端模型。”
2. 视觉与计算机使用(Computer Use & Vision):赋予 AI "手眼"
这是 GPT-5.4 最具颠覆性的升级——它是首个具备原生计算机操作能力的通用模型。
- VIEW_IMAGE_ORIGINAL_RESOLUTION:正如我们昨日强调的,该功能支持高达 1024 万像素(或 6000px 维度) 的全分辨率输入。
- OSWorld 霸榜:在模拟真实电脑操作环境的评测中,它以 75.0% 的成功率超越了人类平均水平(72.4%),能够自主跨应用完成复杂工作流。
视觉与计算机使用(Computer Use & Vision)基准测试结果
“在我们针对约 3 万个业主协会(HOA)及房产税门户网站的计算机使用性能评估中,GPT-5.4 的初次尝试成功率达到了95%,并在三次尝试内实现了 100% 的成功率;相比之下,此前的 CUA(计算机使用智能体)模型成功率仅73%–79%。此外,它的任务处理速度提升了约 3 倍,同时节省了约 70% 的 Token 消耗,从根本上提升了大规模应用时的可靠性与成本效益。”
3. 编程进化(Coding):极致速度与交互
GPT-5.4 完美融合了 GPT-5.3-Codex 的强项,并引入了实验性的 100 万(1M)Token 上下文。
- fast 模式:生成速度提升 1.5 倍,让开发者在调试和迭代时保持极高的流畅感。
- Playwright 交互:新增的实时交互调试功能,允许 AI 在构建网页应用的同时进行视觉化自动测试。
SWE-Bench Pro 基准测试:GPT-5.4 在编程准确率与延迟的综合表现
“GPT-5.4 目前在我们内部的基准测试中处于领先地位。我们的工程师发现,它比之前的模型表现得更自然且更果断。在处理模糊不清的问题时,它不再犹豫不决(second-guessing),并且能主动将工作并行化处理,以保持任务的高效推进。”
4. 工具使用(Tool Use):高效调度生态
- 工具搜索(Tool Search):针对拥有数万工具的大型生态系统,模型现在支持"按需加载"定义。这使 Token 消耗降低了 47%,极大提升了 API 的响应速度和性价比。
工具搜索(Tool Search)带来的 Token 用量节省示例
- 代理式调用(Agentic Tool Calling):在 Toolathlon 测试中,它能更聪明地并行调用工具,减少往复对话,精准完成从阅读邮件到填充报表的闭环任务。
Toolathlon 基准测试:GPT-5.4 与 GPT-5.2 代理式工具调用准确率对比
- 增强网页搜索:搜索持久性提升了 17%,特别是 GPT-5.4 Pro,在寻找"大海捞针"式的复杂信息时,准确率达到了行业巅峰的 89.3%。
BrowseComp 基准测试:各版本模型网页搜索准确率对比
“GPT-5.4(xhigh 推理模式)代表了多步工具调用领域的最高水准(SOTA)。Zapier 运行着业内最严苛的工具使用基准测试,涵盖了数百个复杂的真实世界工作流。在之前的模型纷纷“败下阵来”的地方,GPT-5.4 成功完成了任务——它是迎今为止最具韧性、最能坚持完成任务的模型。”
5. 可控性与安全性(Steerability & Safety)
- 中途修正:在 ChatGPT 中,用户现在可以看到模型生成的前置思维计划,并能在响应过程中随时"拨乱反正",无需等待生成结束再重来。
- 黑盒监控:引入了 CoT(思维链)可控性研究。实验证明 GPT-5.4 难以伪造其推理过程,这虽然看似限制了模型,实则大大增强了安全监管的透明度。
📊 关键性能指标一览
📈 专家分析:OpenAI 的"攻防一体"战略
正如我们在昨日预测文章中所分析的,GPT-5.4 的极速发布不仅是技术的爆发,更反映了 OpenAI 极其强悍的攻防节奏:
- 产品线精准降维:通过 Thinking 模式(如 xhigh 推理)统治高智力、长周期的专业任务,同时用 Instant 模式 守住低延迟、高频交互的市场,实现全场景覆盖。
- 攻占代理(Agent)高地:凭借原生的 Computer Use 能力与 Tool Search 技术,OpenAI 正在直接切断许多初创 Agent 公司的后路。它不再仅仅是给出建议,而是直接在软件和系统中执行结果。
- 效率与成本的双重绞杀:在提升逻辑上限的同时,通过显著的 Token 效率优化(如 Zapier 和 Mainstay 测试所示),OpenAI 正在将工业级 AI 的使用门槛推向主流商业化。
💡 结语
变革的频率已经从"以年计算"缩短到了"以小时计算"。GPT-5.4 的降临,标志着 AI 正式从实验室的"聊天工具"进化为真正可交付、可信赖的工业级数字雇员。
作为全网首个精准预言 GPT-5.4 发布节点的媒体,toolswith.ai 将持续为您深度追踪更多AI资讯。