电竞比分网-中国电竞赛事及体育赛事平台

關(guān)于ZAKER 合作

奧特曼公開承認“搞砸了”,AI 巨頭為何突然“糾偏”?

1 月 27 日,OpenAI 首席執(zhí)行官薩姆 · 奧特曼在一場公開直播中罕見承認:公司在開發(fā) ChatGPT-5 時 " 確實搞砸了 ",出現(xiàn)了路線偏差。他坦言,團隊過度聚焦于提升模型的智力、推理和編程能力,導(dǎo)致模型在寫作等通用能力上 " 偏科 ",某些表現(xiàn)甚至不如前代。奧特曼承諾將重新校準方向,回歸打造 " 真正高質(zhì)量的通用型模型 " 的初心。

這一罕見的公開 " 認錯 ",迅速在科技界引發(fā)震動。

反思背后,是 GPT-5 發(fā)布后積累的用戶反饋與內(nèi)部審視。從 GPT-3 到 GPT-5,行業(yè)曾深信 " 規(guī)模決定一切 ",GPT-4 的巨大成功更強化了這一路徑。然而,激烈的市場競爭——尤其是與谷歌、Anthropic 等在編程、推理等硬核能力上的競賽——驅(qū)使資源向能直觀體現(xiàn) " 智能 " 飛躍的領(lǐng)域傾斜。同時,主流學(xué)術(shù)基準測試側(cè)重于數(shù)學(xué)、代碼等可量化領(lǐng)域,無形中成了研發(fā)的 " 指揮棒 "。即便 GPT-5 引入了 " 自動切換器 " 機制以優(yōu)化算力,其根本目標仍是更高效地服務(wù)深度推理任務(wù)。

副作用在用戶端逐漸顯現(xiàn)。2025 年 GPT-5 發(fā)布后,大量用戶反饋其寫作能力 " 退化 ":文章邏輯清晰卻用詞模式化,缺乏文采與自然感,"AI 味 " 濃重。一些基礎(chǔ)性問題,如簡單拼寫和計數(shù),反而會出錯。盡管奧特曼曾將部分問題歸咎于技術(shù)故障,但持續(xù)的批評促使了更深層檢討。

一個在創(chuàng)意寫作、細膩表達上不穩(wěn)的模型,與大眾對 " 像人一樣交流 " 的 AI 助手的期待產(chǎn)生了落差。這對 OpenAI 打造普及化超級應(yīng)用的品牌形象構(gòu)成了挑戰(zhàn)。更深層看,在競爭對手持續(xù)發(fā)力、全球監(jiān)管日益關(guān)注的背景下,此次 " 糾偏 " 也是一次戰(zhàn)略校準。通過公開承認 " 偏科 ",OpenAI 意在重新奪回對 " 通用人工智能 " 定義的話語權(quán),強調(diào)其愿景是打造一個能力均衡、能與人類自然協(xié)作的智能體。

奧特曼的聲明,漣漪將波及多個層面。

對 OpenAI 自身,這意味著研發(fā)重點和產(chǎn)品路線圖必須調(diào)整。如何在已建立的推理優(yōu)勢上有效 " 補短板 ",提升創(chuàng)造性寫作、情感理解等能力,是艱巨的技術(shù)挑戰(zhàn)。這需要在模型架構(gòu)、訓(xùn)練數(shù)據(jù)配比和優(yōu)化目標上進行系統(tǒng)性重構(gòu)。平衡 " 專精 " 與 " 通用 ",將成為未來幾年的核心課題。

對 AI 行業(yè),OpenAI 的反思可能具有風(fēng)向標意義。它促使同行重新評估單一追求某項能力極限的模式是否可持續(xù),或會減緩特定賽道的 " 軍備競賽 ",激勵更多公司探索更寬廣的能力邊界。如何評估模型在開放性創(chuàng)作、復(fù)雜社會情境理解中的綜合表現(xiàn),可能成為新焦點。這也給在 " 通用性 " 或 " 人性化交互 " 上有特色的競爭對手更多市場敘事空間。

對公眾與學(xué)界的 AGI 討論,此次事件提供了鮮活案例。它尖銳地提問:何為真正的 AGI?是能在特定測試中拿高分,還是具備可靈活遷移的綜合智能?奧特曼在直播中描繪了他心目中的 AGI 里程碑:當模型第一次面對完全陌生的新環(huán)境或工具時,只需解釋一次甚至無需解釋,就能自己探索并穩(wěn)定可靠地使用。這一定義超越了在已知數(shù)據(jù)集上刷分,更強調(diào)自主學(xué)習(xí)和適應(yīng)未知的泛化能力。

技術(shù)層面,在現(xiàn)有千億甚至萬億參數(shù)規(guī)模的模型上 " 補短板 ",其復(fù)雜度和成本可能不亞于從頭訓(xùn)練一個新特長。它要求對訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量進行更精細的設(shè)計,并可能需要發(fā)展新的訓(xùn)練算法,使模型在不損害已有強項的前提下,高效學(xué)習(xí)新能力。

其次,評估體系亟待變革?,F(xiàn)有主流基準測試已不足以衡量模型的 " 通用性 "。行業(yè)可能需要發(fā)展新型的、更全面的評估標準,例如動態(tài)交互測試、開放式創(chuàng)意任務(wù)評估等,以更真實地反映模型在接近真實世界場景中的綜合表現(xiàn)。中國學(xué)者提出的 "Tong Test" 框架,強調(diào)通過動態(tài)的物理和社會交互來評估 AGI,正是這一方向上的探索。

OpenAI 的 " 糾偏 ",像是技術(shù)發(fā)展 " 鐘擺效應(yīng) " 的體現(xiàn)。在專注與泛化、性能與安全之間,行業(yè)軌跡往往不是直線前進,而是在探索極端后回調(diào)尋找新的平衡。

來源:布谷財經(jīng)

相關(guān)閱讀

最新評論

沒有更多評論了
布谷財經(jīng)

布谷財經(jīng)

以專業(yè)視角匯聚資訊與數(shù)據(jù)

訂閱

覺得文章不錯,微信掃描分享好友

掃碼分享

企業(yè)資訊

查看更多內(nèi)容