科技前線GPT-5.5 意外奪冠「代理人最終考驗」:AI 基準測試新標準GPT-5.5 在柏克萊分校開發的全新「代理人最終考驗」(ALE)基準測試中意外奪冠。此基準測試旨在衡量 AI 模型在真實專業任務中的執行能力,標誌著 AI 產業競爭重心由語言模型轉向代理執行力。Jason·2026年6月11日·2 分鐘閱讀
科技前線Scale AI 推出「Voice Showdown」基準測試,語音 AI 進入實戰評估時代Scale AI 推出 Voice Showdown,這套基準測試聚焦於真實、嘈雜環境下的語音互動表現,而非實驗室合成語音,將促使業界提升語音 AI 的實戰能力。Jason·2026年3月22日·2 分鐘閱讀