預言成真!OpenAI 正式釋出 GPT-5.4:職業級AI的終極“完全體”降臨
🎯神預言:toolswith.ai 24小時內精準預判
就在 toolswith.ai 不到24小時前發文預判 GPT-5.4 即將降臨後,OpenAI 官方於今日凌晨正式揭開了這一“效能猛獸”的面紗。
正如我們在《OpenAI 爆發式更新:GPT-5.4 攜"極致推理"將至,百萬級上下文重塑生產力》中透過 Polymarket 賠率與底層程式碼洩露所做出的預測:“GPT-5.4 的降臨就在未來 100 小時內。” 事實證明,OpenAI 的迭代節奏比所有人預想的都要快。這一突襲式釋出的“完全體”模型,帶著百萬級上下文、原生計算機使用以及極致職業化的標籤,正式登陸 ChatGPT、API 以及 Codex。
這次釋出不僅完美印證了我們關於超長上下文與極致推理(Thinking)的預判,更以其在“計算機使用(Computer Use)”能力上的跨越式進化,帶來了超越預期的震撼。
🚀 GPT-5.4:為專業工作而生的“重灌坦克”
1. 知識工作(Knowledge Work):超越行業專家
在衡量 44 種職業實戰能力的 GDPval 測試中,GPT-5.4 的勝率高達 83.0%,正式超越了人類行業專家的基準。
- 辦公全才:針對 Excel 建模、幻燈片製作和文件撰寫進行了定向最佳化。在投行分析師級別的電子表格任務中,其得分從 68.4% 飆升至 87.3%。
- 事實性飛躍:官方資料顯示,其虛假陳述機率降低了 33%,響應錯誤率降低了 18%。它不再只是"會聊天",而是"能辦實事"。
知識工作(Knowledge Work)基準測試結果
“GPT-5.4 是我們嘗試過的最強模型。目前,它在我們衡量專業服務能力的 APEX-Agents 基準測試中高居榜首。它在處理“長週期產出”(Long-horizon deliverables)方面表現卓越——例如製作幻燈片簡報、構建金融模型以及進行法律分析。在提供頂尖效能的同時,其執行速度更快,且成本遠低於競爭對手的尖端模型。”
2. 視覺與計算機使用(Computer Use & Vision):賦予 AI "手眼"
這是 GPT-5.4 最具顛覆性的升級——它是首個具備原生計算機操作能力的通用模型。
- VIEW_IMAGE_ORIGINAL_RESOLUTION:正如我們昨日強調的,該功能支援高達 1024 萬畫素(或 6000px 維度) 的全解析度輸入。
- OSWorld 霸榜:在模擬真實電腦操作環境的評測中,它以 75.0% 的成功率超越了人類平均水平(72.4%),能夠自主跨應用完成複雜工作流。
視覺與計算機使用(Computer Use & Vision)基準測試結果
“在我們針對約 3 萬個業主協會(HOA)及房產稅入口網站的計算機使用效能評估中,GPT-5.4 的初次嘗試成功率達到了95%,並在三次嘗試內實現了 100% 的成功率;相比之下,此前的 CUA(計算機使用智慧體)模型成功率僅73%–79%。此外,它的任務處理速度提升了約 3 倍,同時節省了約 70% 的 Token 消耗,從根本上提升了大規模應用時的可靠性與成本效益。”
3. 程式設計進化(Coding):極致速度與互動
GPT-5.4 完美融合了 GPT-5.3-Codex 的強項,並引入了實驗性的 100 萬(1M)Token 上下文。
- fast 模式:生成速度提升 1.5 倍,讓開發者在除錯和迭代時保持極高的流暢感。
- Playwright 互動:新增的實時互動除錯功能,允許 AI 在構建網頁應用的同時進行視覺化自動測試。
SWE-Bench Pro 基準測試:GPT-5.4 在程式設計準確率與延遲的綜合表現
“GPT-5.4 目前在我們內部的基準測試中處於領先地位。我們的工程師發現,它比之前的模型表現得更自然且更果斷。在處理模糊不清的問題時,它不再猶豫不決(second-guessing),並且能主動將工作並行化處理,以保持任務的高效推進。”
4. 工具使用(Tool Use):高效排程生態
- 工具搜尋(Tool Search):針對擁有數萬工具的大型生態系統,模型現在支援"按需載入"定義。這使 Token 消耗降低了 47%,極大提升了 API 的響應速度和價效比。
工具搜尋(Tool Search)帶來的 Token 用量節省示例
- 代理式呼叫(Agentic Tool Calling):在 Toolathlon 測試中,它能更聰明地並行呼叫工具,減少往復對話,精準完成從閱讀郵件到填充報表的閉環任務。
Toolathlon 基準測試:GPT-5.4 與 GPT-5.2 代理式工具呼叫準確率對比
- 增強網頁搜尋:搜尋永續性提升了 17%,特別是 GPT-5.4 Pro,在尋找"大海撈針"式的複雜資訊時,準確率達到了行業巔峰的 89.3%。
BrowseComp 基準測試:各版本模型網頁搜尋準確率對比
“GPT-5.4(xhigh 推理模式)代表了多步工具呼叫領域的最高水準(SOTA)。Zapier 執行著業內最嚴苛的工具使用基準測試,涵蓋了數百個複雜的真實世界工作流。在之前的模型紛紛“敗下陣來”的地方,GPT-5.4 成功完成了任務——它是迎今為止最具韌性、最能堅持完成任務的模型。”
5. 可控性與安全性(Steerability & Safety)
- 中途修正:在 ChatGPT 中,使用者現在可以看到模型生成的前置思維計劃,並能在響應過程中隨時"撥亂反正",無需等待生成結束再重來。
- 黑盒監控:引入了 CoT(思維鏈)可控性研究。實驗證明 GPT-5.4 難以偽造其推理過程,這雖然看似限制了模型,實則大大增強了安全監管的透明度。
📊 關鍵效能指標一覽
📈 專家分析:OpenAI 的"攻防一體"戰略
正如我們在昨日預測文章中所分析的,GPT-5.4 的極速釋出不僅是技術的爆發,更反映了 OpenAI 極其強悍的攻防節奏:
- 產品線精準降維:透過 Thinking 模式(如 xhigh 推理)統治高智力、長週期的專業任務,同時用 Instant 模式 守住低延遲、高頻互動的市場,實現全場景覆蓋。
- 攻佔代理(Agent)高地:憑藉原生的 Computer Use 能力與 Tool Search 技術,OpenAI 正在直接切斷許多初創 Agent 公司的後路。它不再僅僅是給出建議,而是直接在軟體和系統中執行結果。
- 效率與成本的雙重絞殺:在提升邏輯上限的同時,透過顯著的 Token 效率最佳化(如 Zapier 和 Mainstay 測試所示),OpenAI 正在將工業級 AI 的使用門檻推向主流商業化。
💡 結語
變革的頻率已經從"以年計算"縮短到了"以小時計算"。GPT-5.4 的降臨,標誌著 AI 正式從實驗室的"聊天工具"進化為真正可交付、可信賴的工業級數字僱員。
作為全網首個精準預言 GPT-5.4 釋出節點的媒體,toolswith.ai 將持續為您深度追蹤更多AI資訊。