星期五, 12 12 月

一文讀懂GPT-5.2:直指「經濟價值」

北京時間12月12日凌晨,OpenAI把發布的GPT-5.2定義為「迄今為止功能最強大的專業知識工作模型系列」。

OpenAI給出的官方文檔明確指出,GPT-5.2
的設計初衷在於「創造更大的經濟價值」。相較前代,它在電子表格處理、演示文稿製作、代碼編寫、圖像感知、長文本理解及複雜多步項目執行等方面,均實現了全面性能躍升。

為了驗證其在真實業務環境中的價值,OpenAI引入了GDPval基準測試,該測試覆蓋了9大行業、44類職業的1320個真實業務場景。官方數據顯示,GPT-5.2
Pro在高達74.1%的任務中表現超越或持平人類專家。

多家早期合作企業,如Notion、Databricks和Cognition,也從測試中觀察到模型在長鏈條推理、數據分析和代碼審查等任務中的錯誤率顯著下降,一致性與穩定性得到明顯改善,使其更適合作為「公司級智能體」的核心引擎

就在一周多前,奧特曼在給員工的私人信息中宣布進入「紅色警戒」狀態,調集更多資源投入
ChatGPT。行業對於GPT-5.2的預期為,硬剛Gemini
3,奪回SOTA
。但是,這次GPT-5.2的發布,並沒有看出「應戰」的火藥味和心虛的「不服感」。

Gemini 3 被 Google 定義為「新一代智能時代的起點」,核心是多模態推理 + 代理能力 + 搜索和
Workspace 場景的深度融合。而GPT-5.2清晰明確指向專業知識場景,強調「經濟價值」,定位區別清晰。

GPT-5.2的官方說明文檔讀下來,整體感覺是,有點無聊,但OpenAI更有商業戰略定力了。

一文讀懂GPT-5.2:直指「經濟價值」

OpenAI應用業務首席執行官菲吉·西莫(Fidji
Simo)在新聞發布會上也表示:「我們宣布了『紅色警報』,旨在向公司發出明確信號,即我們希望將資源集中在一個特定領域,這也是界定公司優先事項的一種方式。」

西莫同時否認了GPT-5.2系列模型的發布是受「紅色警報」行動影響而匆忙提前的,她強調,公司為這款新模型的發布已經進行了數月的準備工作。

在經歷了數月準備後推出的GPT-5.2,核心看點完全圍繞著「創造更大的經濟價值「展開:

三級模型矩陣: 推出
Instant(極速)、Thinking(深度思考)、Pro(最強解難) 三個版本,以滿足從日常輕量對話到複雜科研的不同需求。

「打工人」實戰能力質變: 基於全新的 GDPval 基準,GPT-5.2 Pro 在
74.1% 的真實職業任務(如投行建模、PPT製作)中勝過或持平人類專家,效率提升 11
倍,標誌著從「對話」轉向「交付」。註:GDPval主要通過直接測試模型在各行各業真實工作任務中的表現來衡量其性能,覆蓋美國GDP前九大產業中的44個關鍵職業領域,從軟體開發、法律到醫療護理和機械工程,涵蓋了對經濟至關重要的專業場景。

邏輯與推理的「封頂」表現: 數學能力在 AIME 2025 中拿下滿分(100%),並在
ARC-AGI-1 抽象推理測試中首次突破 90%,展示了恐怖的通用智能水平。

Agentic Coding 的飛躍: 在更難的 SWE-Bench
Pro代碼測試中顯著提升,被開發者評價為「自 GPT-5 以來最大的智能躍升」,尤其擅長複雜的多步驟工具調用和長流程任務。

「完美」的超長上下文: 解決了「大海撈針」的痛點,在
256k長度下的多信息點檢索(4-needle)準確率接近
100%,配合更強的視覺空間理解能力,大幅提升了處理長文檔和複雜圖表的可靠性。

01 包含三款模型,比GPT-5.1更貴了

本次發布包含三款模型:GPT-5.2 Instant(優化響應速度)、GPT-5.2
Thinking(深度推理)、GPT-5.2 Pro(高端版本)。

Instant主要用於日常任務處理,主打速度與輕量推理;Thinking用於深度邏輯推理與複雜項目,更適用於企業工作流;Pro面向研究與最高質量輸出,推理鏈條最強、錯誤率最低。

OpenAI 選擇了「比 5.1
昂貴、但仍低於其他前沿模型」的策略,為GPT-5.2系列模型推出分層API定價策略。

其中GPT-5.2 Instant與GPT-5.2 Thinking採用統一計費標準,輸入單價為每百萬tokens
1.75美元,輸出單價為每百萬tokens 14美元;高端版本 GPT-5.2 Pro定價更高,輸入單價達每百萬tokens
21美元,輸出單價為每百萬tokens 168美元。

儘管Pro等高端版本的單次token單價更高,但OpenAI強調,GPT-5.2系列在真實智能體任務中具備更高的token使用效率,因此在部分企業場景中,完成同等質量任務的整體成本反而可能降低。官方同時說明,Pro版本在實際使用中能顯著減少「推理廢話」,輸出內容更緊湊精鍊,這一特性也將進一步幫助用戶控制使用費用。

GPT-5.2系列模型的定價

同時,ARC Prize(ARC-AGI)被業界公認為目前最難、也是最能體現 AI
「通用智能(AGI)」水平的基準測試。根據Arc
Prize的測算,GPT-5.2的性價比繼續提升,一年內效率提升了約390倍。

GPT-5.2系列已向Plus、Pro、Edu、Business、Enterprise用戶陸續開放,並同步上線API。面向工程與程序員群體的GPT-5.2
Codex將在未來數周內推出,進一步針對編程任務做專項優化。

02 核心直指專業知識工作與企業級應用的能力提升

GPT-5.2系列模型的核心定位是「提升專業工作效率」與「增強長期任務一致性」。根據官方披露的數據,GPT-5.2系列模型在多項關鍵評估基準上取得了當前公開模型中的最高成績。

圖:GPT-5.2基準評測概覽

OpenAI官方表示,GPT-5.2聚焦於提升企業用戶的專業工作流效率,包括表格處理、演示文稿生成、代碼編寫、圖像理解、工具調用、多文件工程任務處理等能力。GPT-5.2的文本生成結構相較以往更清晰,邏輯鏈條更穩定,特別是在軟體說明文檔、技術手冊生成、長篇報告編寫等領域,模型內部的「結構化寫作傾向」更加明顯。

圖:GPT-5.1、GPT-5.2製表效果對比

GPT-5.2
Thinking在面向專業知識與實際工作的GDPval任務集中達到了可與行業平均專業人員相匹敵的水準,在所有對比任務中「勝出或持平」的佔比達到70.9%。在等效任務中,GPT-5.2
Thinking 的完成速度超過專業人士11倍以上,同時成本低於1%。

在真實企業環境中,多家早期合作夥伴測試表明模型在複雜推理鏈條與工具調用一致性上實現明顯改進:

Notion、Box、Shopify:觀察到更穩健的長鏈條推理,在複雜界面和資料庫操作中錯誤率下降。

Databricks、Hex:數據智能體任務的 SQL/數據分析鏈路顯著更一致。

Cognition、Warp:認為其代碼審查和定位缺陷能力達到當前模型的領先水平。

此外,OpenAI特彆強調GPT-5.2在「多工具編排任務」中表現更穩定,能夠在單次會話中處理二十多個工具調用步驟,並在系統提示(system
prompt)顯著簡化的情況下維持高一致性。這一點使其更適合作為「公司級智能體核心大腦」。

03 編碼、事實性與長文本處理全面進步,支撐企業複雜開發需求

為了支撐企業級的複雜開發需求,GPT-5.2 Thinking在軟體工程能力上實現了飛躍。

GPT-5.2 Thinking在SWE-Bench Pro嚴格評測中取得55.6%準確率,在Python專項SWE-Bench
Verified評測中達到
80%。這意味著GPT-5.2在自動化調試生產系統、重構大型代碼庫、理解遺留系統以及處理複雜功能需求方面,已接近部分自動化代碼助手的可部署標準。

圖:GPT-5.2 Thinking在SWE-Bench Pro的跑分

GPT-5.2在前端開發(尤其是現代 UI、WebGL/Three.js、複雜 3D
界面)方面也加入了專門優化,提升了對組件結構、事件綁定和布局邏輯的理解能力。

圖:GPT-5.2 Thinking在匿名真實查詢集合上的錯誤率降低

在事實性方面,GPT-5.2
Thinking在匿名真實查詢集合上的錯誤率相較上一代下降約30%。OpenAI強調,GPT-5.2在面對模糊或信息不完整的查詢時,會更主動給出依據來源或使用結構化推理路徑,以降低誤導性回答的概率。

圖:GPT-5.2 Thinking在長上下文推理方面的表現

在長上下文推理方面,GPT-5.2 Thinking支持最高256k
tokens輸入,並在「四針(4-needle)」檢索任務中實現接近100%準確率,超過已有商用模型的水平。

該模型還在長文檔問答、合同審查、多文件工程跨引用等任務中表現出更高穩定性。若任務長度超過上下文窗口,模型可配合Responses/compact介面,通過「摘要性迭代檢索」進一步擴展可處理規模。

04 智能體工具調用與視覺理解大幅增強

企業工作流往往涉及跨系統的複雜操作。在智能體任務方面,GPT-5.2 Thinking在Tau2-bench
Telecom多輪客服任務的工具調用測試中取得98.7%完成度,該評測覆蓋訂票、退款、延誤補償、物品遺失與跨系統調度等場景,反映其可承擔更高自治度的流程任務。

OpenAI表示,GPT-5.2的「工具決策粒度」更加穩定,推理鏈條更可控,在連續20~40步的任務中不易出現跳步、誤調用或不必要調用等問題,使其更適合作為長流程自動化智能體(Autonomous
Agent)的執行核心。

圖:在CharXiv(科研圖表推理)中準確率提升約8個百分點

在視覺能力方面,GPT-5.2
Thinking的圖表推理和界面理解能力顯著增強。其軟體界面識別錯誤率減少約一半,在CharXiv(科研圖表推理)中準確率提升約8個百分點。OpenAI同時對模型加入了大規模軟體
UI數據訓練,使其更準確理解控制項、菜單層級與界面邏輯關係。

圖:GPT-5.2 Thinking在圖像中元素的位置把握上更強

與之前的模型相比,GPT-5.2
Thinking在圖像中元素的位置把握上更強,這有助於解決相對布局在問題中起關鍵作用的任務。在示例中,即使是低質量的圖像,GPT-5.2也能識別出主要區域,並放置大致與每個組件真實位置相符的框,而GPT-5.1僅能標註少數幾個部分,並且對它們的空間排列理解明顯較弱。

05 科學推理、數學能力與抽象智能的進展

圖:GPT-5.2 Pro在GPQA Diamond中的表現

GPT-5.2 Pro在GPQA
Diamond(研究生難度的大規模科學知識測試)中取得93.2%準確率,在現有同行測試中位居前列。

圖:GPT-5.2 Thinking在FrontierMath測試中的表現

在FrontierMath(涵蓋多步驟數學推理及高難度證明問題)中,GPT-5.2
Thinking取得40.3%正確率,相較上一代有顯著提升。OpenAI披露,一支科研團隊已使用GPT-5.2
Pro協助探索統計學習理論中的一個開放問題,模型提出的證明在後續人工審核中被證實成立。

在ARC-AGI系列評測方面,GPT-5.2
Thinking在ARC-AGI-2(Verified)中從上一代的17.6%提升至52.9%,被視為該模型在「抽象智能」「非模式記憶」「類比推理能力」上的重要進展。GPT-5.2
Pro在 ARC-AGI-1中也超過90%,成為首個達成該水平的主流模型。

圖:心理健康評估

在安全策略方面,GPT-5.2 延續「safe
completion」訓練框架,重點強化心理健康、風險傾向、敏感身份類對話場景的表現。OpenAI還正式宣布開始部署年齡預測系統,可在疑似未成年用戶使用模型時自動切換到受限模式與額外安全過濾。

06 寫在最後

在發完幾條「兜售」GPT-5.2的帖子之後,Sam
Altman還發布了一條「情緒價值貼」——過去的十年十分精彩;在OpenAI工作比我想像的還要特別。和一條彩蛋帖「下周我們還會送您一些小小的聖誕禮物」,暗示可能還有新的模型(產品)發布。

就在幾個小時前,OpenAI 獲得迪士尼10 億美元的投資意向。ChatGPT以後可以理直氣壯的合成「米老鼠」了。

ChatGPT火爆三年後,SOTA模型不斷刷新Benchmark已經不能帶給行業興奮點,但是每次OpenAI更新新模型的情緒價值仍在。

同時,這家站在AGI浪尖的獨角獸,必須開始背負更多的商業期待,也要解決一個又一個現實中的「米老鼠問題」。

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標註