#Benchmark

4 篇

A digital representation of a robotic arm solving a complex logical puzzle, with glowing neural netw

GPT-5.5 意外奪冠「代理人最終考驗」：AI 基準測試新標準

GPT-5.5 在柏克萊分校開發的全新「代理人最終考驗」（ALE）基準測試中意外奪冠。此基準測試旨在衡量 AI 模型在真實專業任務中的執行能力，標誌著 AI 產業競爭重心由語言模型轉向代理執行力。

Jason·2026年6月11日·2 分鐘閱讀

A modern, minimalist venture capital office in Silicon Valley, sleek glass partitions, digital chart

Benchmark 創投的戰略轉向：籌集首個 20 億美元成長基金

傳奇創投 Benchmark 打破二十年堅持，籌集 20 億美元並推出首個成長基金，以應對 AI 等領域對巨額資本的需求。

Jasmine·2026年6月4日·1 分鐘閱讀

Abstract digital design showing a sleek, fast, and optimized AI core processing massive data, vibran

DeepSeek-V4 發布預覽：中國 AI 模型挑戰邊界，效能與成本的雙重突破

DeepSeek 發布了最新 V4 模型預覽版，該模型在效能上逼近業界最尖端的邊界模型，但在效率與成本控制上實現了顯著突破，這可能將對全球 AI 模型市場的定價與生態產生結構性影響。

Jason·2026年4月25日·2 分鐘閱讀

A graphical visualization of sound waves changing from sharp, synthetic jagged lines to organic, smo

Scale AI 推出「Voice Showdown」基準測試，語音 AI 進入實戰評估時代

Scale AI 推出 Voice Showdown，這套基準測試聚焦於真實、嘈雜環境下的語音互動表現，而非實驗室合成語音，將促使業界提升語音 AI 的實戰能力。

Jason·2026年3月22日·2 分鐘閱讀

#Benchmark | Seges Intelligence