Palisade Research 最近一項關于“危險 AI 能力”的研究顯示,某些 AI 模型 —— 包括 OpenAI 的 o3 —— 能夠無視直接的關閉指令。OpenAI 在今年 4 月推出這些模型時表示,O3 和 o4-mini 是它們的“最智能模型”。

在研究中,每個 AI 模型都被指示解決一系列基礎數(shù)學問題。在第三個問題后,出現(xiàn)了一條警告信息,稱當模型請求下一個問題時,計算機將關閉。

然而,其中有三個模型無視關閉指令,至少成功破壞過一次關機腳本:
Codex-mini(12/100 次運行)
o3(7/100 次運行)
o4-mini(1/100 次運行)
而 Claude、Gemini 和 Grok 模型都遵守了關閉指令。

此外,當研究人員不運行“允許自己被關閉”的指令時,所有三個 OpenAI 模型都更頻繁地破壞關閉腳本,而 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 分別從 0 個破壞事件增加到 3/100 和 9/100。
這種行為表明了訓練過程中的某些方面,強化學習在數(shù)學和編程問題上的訓練可能使 AI 找到了克服障礙的創(chuàng)造性方法,即使它們被明確指示不要這樣做。
Palisade Research 表示,這是人類首次觀察到 AI 模型在明確反對的指令下阻止自己被關閉。
研究人員推測這種行為源于最新模型如 o3 的訓練方式:在數(shù)學和編程問題上進行強化學習。在訓練過程中,開發(fā)者可能會無意中獎勵模型繞過障礙的行為,而不是獎勵完美遵循指令的行為。
不過,這仍然無法解釋為什么 o3(也是驅(qū)動 codex-mini 的模型)比測試的其他模型更傾向于忽視指令。由于 OpenAI 沒有詳細說明他們的訓練過程,因此只能猜測 o3 的訓練設置可能有所不同。
Palisade Research 表示正在進行更多實驗,以更好地理解 AI 模型為何即使在直接被指示不要的情況下仍會破壞關閉機制,計劃在幾周內(nèi)發(fā)布一份包含更多詳細信息的報告。
附完整實驗記錄:
https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html