科技前線
Jason··2 分鐘閱讀
GPT-5.5 意外奪冠「代理人最終考驗」:AI 基準測試新標準
GPT-5.5 在柏克萊分校開發的全新「代理人最終考驗」(ALE)基準測試中意外奪冠。此基準測試旨在衡量 AI 模型在真實專業任務中的執行能力,標誌著 AI 產業競爭重心由語言模型轉向代理執行力。
GPT-5.5 在柏克萊分校開發的全新「代理人最終考驗」(ALE)基準測試中意外奪冠。此基準測試旨在衡量 AI 模型在真實專業任務中的執行能力,標誌著 AI 產業競爭重心由語言模型轉向代理執行力。
傳奇創投 Benchmark 打破二十年堅持,籌集 20 億美元並推出首個成長基金,以應對 AI 等領域對巨額資本的需求。
DeepSeek 發布了最新 V4 模型預覽版,該模型在效能上逼近業界最尖端的邊界模型,但在效率與成本控制上實現了顯著突破,這可能將對全球 AI 模型市場的定價與生態產生結構性影響。
Scale AI 推出 Voice Showdown,這套基準測試聚焦於真實、嘈雜環境下的語音互動表現,而非實驗室合成語音,將促使業界提升語音 AI 的實戰能力。