科技前線
Jason··2 分鐘閱讀
GPT-5.5 意外奪冠「代理人最終考驗」:AI 基準測試新標準
GPT-5.5 在柏克萊分校開發的全新「代理人最終考驗」(ALE)基準測試中意外奪冠。此基準測試旨在衡量 AI 模型在真實專業任務中的執行能力,標誌著 AI 產業競爭重心由語言模型轉向代理執行力。
GPT-5.5 在柏克萊分校開發的全新「代理人最終考驗」(ALE)基準測試中意外奪冠。此基準測試旨在衡量 AI 模型在真實專業任務中的執行能力,標誌著 AI 產業競爭重心由語言模型轉向代理執行力。
OpenAI 推出 ChatGPT 新預設模型 GPT-5.5 Instant,聲稱在事實准确性上有顯著進步,內部評估顯示幻覺率降低 52.5%。
OpenAI 發佈 GPT-5.5 模型及 Workspace Agents,允許企業將 AI 代理連接至 Slack 和 Salesforce 等軟體,實現跨應用程式的自動化工作流。
OpenAI 發布 GPT-5.5 模型,在運算效率與編碼能力上有顯著提升,並在 Terminal-Bench 2.0 測試中險勝 Anthropic 的 Claude Mythos Preview,進一步鞏固市場領先地位。