#基準測試

2 篇

GPT-5.5 在柏克萊分校開發的全新「代理人最終考驗」（ALE）基準測試中意外奪冠。此基準測試旨在衡量 AI 模型在真實專業任務中的執行能力，標誌著 AI 產業競爭重心由語言模型轉向代理執行力。

Scale AI 推出 Voice Showdown，這套基準測試聚焦於真實、嘈雜環境下的語音互動表現，而非實驗室合成語音，將促使業界提升語音 AI 的實戰能力。