美國監管升級!OpenAI 發佈 GPT-5.6 旗艦模型 Sol 起用全新命名法與分層安全防禦
OpenAI 正式推出全新 GPT-5.6 模型系列預覽版,包含 Sol、Terra 同 Luna 三款針對唔同需求嘅模型。今次發佈受到美國政府高度介入,首階段只限少數指定合作夥伴試用。旗艦模型 Sol 喺編程、生物學同網絡安全防禦能力上有顯著提升,並首度引入「Max」深層推理同「Ultra」多智能體協作模式。與此同時,Terra 同 Luna 則主打高性價比,大幅降低運算成本,為長遠日常應用提供更經濟嘅選擇。
OpenAI 預覽全新 GPT-5.6 系列模型:Sol、Terra、Luna 登場 受美國政府監管僅限局部試用
OpenAI 喺美國時間星期五,正式公開咗全新一代 GPT-5.6 模型系列嘅限量預覽版。呢個系列由三款定位唔同嘅模型組成,分別命名為 Sol(太陽)、Terra(地球)同埋 Luna(月球)。同以往單一模型升級唔同,呢次 OpenAI 唔單止喺技術層面做出咗重要突破,引入咗全新嘅多智能體(subagents)協作模式,仲全面調整咗定價策略同埋提示詞緩存(Prompt Caching)嘅計費架構。
不過,呢次發佈最受到科技界同埋市場關注嘅地方,並唔完全係技術數據本身,而係背後牽涉到嘅美國政府監管風波。受到白宮政策嘅壓力,OpenAI 呢次被迫採取咗逐步推進(staggered)嘅限量發行模式,目前首階段淨係開放畀少數經由政府知悉並審查過嘅「信任合作夥伴」去試用,而普遍公眾用戶、企業客戶同埋開發者就要再等多幾個星期。呢個做法隨即喺人工智能行業內部引發咗關於政府過度干預科技創新嘅廣泛討論。
美國政府強力介入 前沿 AI 迎來「實質牌照制」?
呢次 GPT-5.6 嘅發佈背景充滿政治張力。喺無數科技巨頭加速推進模型研發嘅同時,美國政府對前沿人工智能(frontier AI)嘅管控力道亦達到咗前所未有嘅高度。根據外電報導,呢次發佈之所以限制重重,完全係因為白宮同埋現屆政府政策嘅強勢干預。
事實上,喺呢次事件發生嘅無耐之前,行業內已經出現咗類似嘅劇烈震盪。競爭對手 Anthropic 推出佢哋最強大嘅公開模型 Claude Fable 5 同埋 Mythos 5 之後,隨即遭到美國政府頒布行政命令,要求該公司必須禁止任何外國籍人士存取呢啲高端模型。呢個極端嘅監管要求最終導致 Anthropic 選擇將 Fable 5 模型完全下架。
今次 OpenAI 嘅發佈顯然複製咗呢套政治劇本。前白宮人工智能顧問、即將加入 OpenAI 嘅 Dean Ball 指出,美國總統早前頒布嘅行政命令要求特定 AI 企業喺新模型發佈前 30 日,必須自願將模型提交畀政府審查。佢認為,呢種做法實質上已經將「自願提交」變成咗一種「非自願嘅牌照審查制度」。喺缺乏明確、具體安全標準嘅情況下,政府嘅介入好容易會導致模型面臨無止境嘅發佈延遲,咁樣唔單止會削弱美國喺全球 AI 競賽入面相對於其他地區嘅優勢,仲有可能令到目前投入喺 AI 基礎建設嘅數以十億計美元面臨資金回報嘅風險。
雖然 OpenAI 呢次選擇配合政府嘅要求,但係佢哋喺官方博客入面亦罕有地表達咗強烈嘅不滿。官方文章明確指出,我哋唔認為呢種政府介入嘅審查程序應該成為長期嘅常態,因為咁樣做會阻礙用戶、開發者、企業以至網絡安全防禦人員去獲得最優秀嘅工具。OpenAI 直言,呢次答應局部開放只係一個短期嘅妥協步驟,目的係為咗喺未來幾個星期鋪路,期望同政府共同制定出更具重複操作性嘅未來模型發行框架。
三款模型規格與定位:太陽、地球與月球
撇除政治爭議,GPT-5.6 喺產品線嘅劃分上展現咗全新嘅思維。OpenAI 引入咗全新嘅命名系統:版本數字(5.6)代表模型嘅世代,而 Sol、Terra、Luna 則代表長期固定嘅能力層級。呢三個層級未來會根據各自嘅步伐獨立升級,等開發者可以喺智能表現、速度同埋成本之間做出更清晰嘅抉擇。
GPT-5.6 Sol(旗艦性能)
作為系列入面嘅最頂級模型,Sol 主要針對編程、生物科學以及網絡安全等高度複雜嘅任務做出深度優化。同上一代 GPT-5.5 相比,Sol 喺工作流程嘅處理能力上有顯著嘅跨越。為咗進一步榨取效能,OpenAI 仲喺 Sol 身上首度推出咗兩個全新嘅運算模式:「Max」推理模式可以給予模型更多嘅時間去做出深層嘅邏輯推理;而「Ultra」模式更可以超越單一智能體嘅限制,透過協調多個子智能體(subagents)去加速處理極度繁複嘅工作。不過官方亦提醒,Ultra 模式會令到輸出 Token 嘅消耗量大幅飆升。
GPT-5.6 Terra(均衡主力)
定位落喺中間嘅 Terra 被視為日常工作嘅主力馬。OpenAI 指出,Terra 嘅實際表現同現有嘅 GPT-5.5 非常接近,但係運算成本直接減半,極之適合需要處理高吞吐量、大規模數據嘅日常企業應用。
GPT-5.6 Luna(極速經濟)
作為系列入面最輕量、最平價嘅選擇,Luna 將效率擺喺首位。雖然定價非常低廉,但係官方強調佢依然保有相當強勁嘅核心能力,對於注重成本控制同埋回覆速度嘅流動端應用或者輕量級任務黎講,會係一個好合適嘅選項。
編程與網絡安全表現
喺技術評估數據方面,OpenAI 披露咗幾項關鍵嘅基準測試結果,顯示出新架構喺特定專業領域嘅優勢。
首先喺編程工作流程上,GPT-5.6 Sol Ultra 喺 Terminal-Bench 2.1 測試入面攞到咗 91.9% 嘅歷史新高分數。呢個基準測試主要考驗模型喺命令列環境下嘅規劃、迭代同埋工具協調能力。標準版嘅 Sol 亦攞到 88.8% 嘅成績。相比之下,舊版 GPT-5.5 嘅得分係 88.0%,而競爭對手 Anthropic 嘅 Claude Mythos 5 得分係 84.3%。最令人意外嘅係,連最平價嘅 Luna 模型喺呢個測試入面都有 84.3% 嘅表現,實質上追平咗 Mythos 5 並且超越咗 Claude Fable 5 嘅 83.4%。
其次,喺針對長週期基因組學同埋定量生物學分析嘅 GeneBench v1 測試入面,Sol 展現出比 GPT-5.5 更強大嘅分析能力,而且喺達成相同結論時所使用嘅 Token 數量明顯減少,反映出底層架構嘅效率優化。
最後喺網絡安全防禦領域,Sol 喺 ExploitBench² 上嘅表現同 Mythos Preview 不相伯仲,但係關鍵優勢在於 Sol 僅僅消耗咗對方大約三分之一嘅輸出 Token 數量。另外,喺加州大學伯克利分校(UC Berkeley)同埋 OpenAI 合作研發嘅 ExploitGym 基準測試入面,數據顯示隨著模型推理能力嘅提高,Sol、Terra 同埋 Luna 喺網絡安全任務上嘅表現都展現出階梯式嘅增長。
其他附加基本資料與事實整理
價格與 Token 收費架構比較
呢次 GPT-5.6 嘅定價策略明顯採取咗階梯式設計,將頂級智能同埋日常應用嘅收費界線劃分得更清楚:
| 模型名稱 | 輸入費用(每 100 萬 Tokens) | 輸出費用(每 100 萬 Tokens) | 相對定位與市場對比 |
|---|---|---|---|
| GPT-5.6 Sol | $5.00 美元 | $30.00 美元 | 最強旗艦模型,收費大約係 Claude Fable 5 嘅一半(後者為 輸入 $10 / 輸出 $50) |
| GPT-5.6 Terra | $2.50 美元 | $15.00 美元 | 均衡型模型,收費剛好係 Sol 嘅一半,主打高性價比日常替換 |
| GPT-5.6 Luna | $1.00 美元 | $6.00 美元 | 極速平價模型,收費比 Terra 再便宜超過一半,適合超大規模部署 |
提示詞緩存(Prompt Caching)全新計費機制
針對需要頻繁輸入重複提示詞嘅開發者,OpenAI 喺 GPT-5.6 系列入面引入咗更具預測性嘅緩存機制。新制支援明確嘅緩存斷點(explicit cache breakpoints),並且承諾提供最少 30 分鐘嘅緩存生命週期。喺具體計費上:
- 緩存寫入(Cache Writes): 會按照該模型未緩存輸入費率嘅 1.25 倍去計算。
- 緩存讀取(Cache Reads): 依然可以享有高達 90% 嘅折扣(即係只收取原輸入費率嘅 10%)。呢個改動旨在幫長期執行複雜對話或者大型代碼庫解析嘅用戶更精準地控制 API 預算。
安全機制與分層防禦架構(Layered Safeguard Stack)
由於當前華盛頓政治圈對安全問題極度敏感,OpenAI 呢次特別強調咗佢哋嘅「分層防禦架構」(Layered Safeguard Stack),並且刻意將安全防護欄(guardrails)直接訓練入模型嘅核心行為入面,而唔係好似以前咁單靠外掛一層過濾濾網。
呢個改動好大程度上係吸取咗對手嘅教訓。當初 Anthropic 嘅 Fable 5 喺短暫推出期間,只要外置分類器偵測到用戶提及網絡安全、生物學或者化學等高風險話題,系統就會盲目地將請求導向舊版模型,呢種過度謹慎嘅分流做法導致咗大量「誤報」(false positives)並引發用戶強烈反彈。
OpenAI 目前採用嘅三層防禦機制包括:
- 核心模型拒絕: 模型本質上經過訓練,會主動拒絕提供任何被禁止嘅網絡攻擊協助,即使用戶嘗試用偽裝意圖或者「越獄」(jailbreak)提示詞去試探亦好難奏效。
- 實時分類器審查: 系統會喺文本生成嘅過程中做實時監控。如果判定存在潛在違規,生成程序會即時暫停,並交由一個體量更大嘅推理模型去重新審查前後文,確定違規後會直接扣留輸出。
- 帳戶級別行為分析: 系統會跨對話去檢視用戶嘅長期行為,從而準確分辨出持久嘅惡意攻擊意圖,定係屬於網絡安全研究人員正當嘅雙重用途(dual-use)防禦性工作。
為咗驗證呢套安全系統,OpenAI 投入咗超過 70 萬個 A100 等效 GPU 小時去執行自動化紅隊測試(automated red-teaming),專門尋找通用嘅越獄漏洞。根據內部 Preparedness Framework(預備框架)嘅評估,Sol 模型喺測試 Chromium 同埋 Firefox 系統漏洞時,雖然成功搵出咗 Bug 同埋基本嘅漏洞原體,但係並無出現喺無人協助下自主生成完整攻擊鏈嘅能力,因此判定未超越「網絡安全關鍵風險」嘅門檻。另外,OpenAI 亦宣佈同 Cerebras 達成硬件合作,預計喺 7 月份會喺 Cerebras 架構上以每秒高達 750 個 Token 嘅速度運行 Sol 模型,首階段同樣只開放畀指定客戶。
總結
整體黎睇,OpenAI 呢次發佈嘅 GPT-5.6 系列,反映出前沿 AI 技術發展已經步入咗一個全新嘅階段——企業唔再單純追求模型參數規模嘅絕對增長,而係將焦點轉向多智能體協作、運算成本大幅優化以及商業架構嘅精細化分層。Sol 嘅多智能體 Ultra 模式展示咗處理頂級複雜任務嘅潛力,而 Terra 同 Luna 則大幅拉低咗開發者嘅開門運算門檻。
不過,美國政府對前沿模型發佈嘅強力介入,亦為整個科技行業敲響咗警鐘。地緣政治同埋國家安全審查已經實質上改變咗 AI 產品嘅上市流程。呢種限量預覽嘅發行模式會唔會好似 OpenAI 所講只係短期過渡,抑或會演變成未來全球頂級 AI 技術發佈嘅新常態,將會係未來數星期市場、技術社群以至各國監管機構密切注視嘅核心焦點。