WEKA 與 Oracle Cloud Infrastructure 證實長上下文人工智能推論可令吞吐量提升 10 倍

在 OCI H100 基礎設施上進行的聯合基準測試顯示，在不增加圖形處理器的情況下，並發用戶數目提升 10 倍，Token 吞吐量提高 10 倍，Token 服務量增加 7 倍

加州坎貝爾2026年6月10日 /美通社/ — 人工智能 (AI) 數據與記憶體基礎設施公司 WEKA 今日發佈生產規模的基準測試，結果顯示機構在相同圖形處理器 (GPU) 佔用空間下，可服務更多用戶及 Token，從而提升長上下文人工智能推論的經濟效益。基準測試表明，於 Oracle Cloud Infrastructure (OCI) 上使用配備 Augmented Memory Grid™ (增強記憶體網格) 的 WEKA NeuralMesh™ 平台，在不增加基礎設施的情況下，相比純動態隨機存取記憶體 (DRAM) 配置，能服務多 10 倍的並發用戶、提供高 10 倍的 Token 吞吐量，並讓每個圖形處理器多產生 7 倍 Token。上述結果經由一個配備 100,000 Token 上下文窗口的 9 節點 OCI 裸機 H100 集群驗證屬實。

Oracle Cloud Infrastructure 軟件開發高級總監 Pablo Selem 說：「企業人工智能工作負載正將上下文窗口及圖形處理器使用率推向新極限。這些基準測試顯示，在 OCI 上配備 Augmented Memory Grid 的 WEKA NeuralMesh 平台如何幫助消除記憶體瓶頸，使客戶無需單純增加更多圖形處理器，也能支援規模更大、要求更高的推論工作負載。」

改變推論經濟效益的三項成果
該成果在裸機 H100 集群（9 個節點、72 個圖形處理器、100,000 個 Token 上下文窗口、數以千計並發用戶）上經過生產規模驗證，OCI 上配備 Augmented Memory Grid 的 NeuralMesh 交出以下成績：

無需增加基礎設施，服務的並發用戶數提升 10 倍。配備 Augmented Memory Grid 的 NeuralMesh 可擴展至超過 5,000 名並發用戶，反觀純動態隨機存取記憶體配置僅能容納約 600 名。此做法將活躍快取工作集從 8.64 TiB 動態隨機存取記憶體擴大到 287 TiB 可用非揮發性記憶體表達 (NVMe)，從而避免快取飽和時出現的性能急劇下降。此外，每個圖形處理器能服務更多用戶，代表相同投資可發揮更大價值。
Token 吞吐量高出 10 倍。集群中的每個圖形處理器都能輸出更多結果。在 OCI 上，配備 Augmented Memory Grid 的 NeuralMesh 每秒可處理約 200 萬 Token，而純動態隨機存取記憶體基準配置每秒處理不到 200,000 Token。對於運行實時人工智能功能，包括搜尋、摘要、程式碼輔助及多輪代理的產品團隊，吞吐量直接決定最多能服務多少用戶、功能回應有多快，以及基礎設施能支撐多少收入。
Token 服務量激增 7 倍。大規模運行時，每個 Token 的成本得以降低。在一個涉及 2,400 名用戶的 1 小時測試中，配備 Augmented Memory Grid 的 NeuralMesh 處理了 50 億 Token，而純動態隨機存取記憶體基準配置只處理了 7 億 Token。對運行代理型工作流程的機構來說，動態隨機存取記憶體飽和會因持續重複運算而耗盡圖形處理器效能，直接影響每個 Token 的成本及投資回報率 (ROI)。

WEKA 行政總裁 Liran Zvibel 表示：「推論瓶頸在於圖形處理器能使用多少有效記憶體。這些結果證明，人工智能 Token 的經濟效益問題無法單靠硬件解決，而是必須消除記憶體牆，這才是真正限制現有硬件能力的瓶頸。在 OCI 上運行配備 Augmented Memory Grid 的 NeuralMesh，能以極具成本效益的方式，為客戶呈獻幾何級數增長的 Token 產能。」

運用上下文記憶體基礎設施，改變人工智能經濟效益
隨著推論需求增長，人工智能基礎架構的低效率問題會不斷加劇。每次鍵值 (KV) 快取被逐出都會帶來代價：消耗圖形處理器週期、增加延遲、影響用戶體驗，以及提高每個所服務 Token 的成本。對於輸入動輒達 100,000 Token 或以上的長上下文及代理型工作負載而言，這筆代價絕非無關痛癢的誤差。這直接撼動每個運行生產級人工智能的機構之單位經濟模型。

Augmented Memory Grid 作為 NeuralMesh 的一項功能，從架構層面解決問題，把鍵值快取與本地圖形處理器記憶體分離，並儲存在一個可供整個集群存取的高效能 Token 倉庫中。任何主機都能在不影響快取命中率的情況下服務任何工作階段，擺脫了僵化工作階段黏性束縛，同時提供比動態隨機存取記憶體更優越的效能，改善負載平衡，且隨著並發數增加而實現流暢的橫向擴展。最終帶來人工智能代理所需的持久上下文記憶體，並掌握成本槓桿，令長上下文推論得以在經濟可行的前提下實現大規模運作。

生產級實證
OCI 已於 2026 年 5 月 13 日，在其人工智能與數據科學網誌 (AI & Data Science blog) 上刊載了完整的基準測試方法、系統配置及結果。這些在 9 節點 OCI 裸機 H100 集群上進行的基準測試，超越了前一階段的驗證結果。前一階段證明了鍵值快取容量增加 1,000 倍，而在 128,000 Token 下，達到首個 Token 的時間縮短高達 20 倍。這最新階段測試了生產環境中推論的全面經濟效益，包括並發密度、持續吞吐量、快取持久性，以及在高負載下需求突增時的服務水平目標 (SLO) 穩定性。

登陸 Oracle Marketplace
配備 Augmented Memory Grid 的 NeuralMesh 現已全面供應給 WEKA 客戶，並已在Oracle Marketplace上架，OCI 為 WEKA 的獨家雲端發佈合作夥伴。在 OCI 上運行長上下文推論的機構，現可部署一套既經認證亦可即時投產的架構。如欲了解更多關於 OCI 及 WEKA Augmented Memory Grid 基準測試的資訊，請參閱 OCI 網誌：https://blogs.oracle.com/ai-and-datascience/scaling-long-context-inference-on-oci-with-wekas-augmented-memory-grid。

關於 WEKA
WEKA 是專注於人工智能數據與記憶體基礎設施的公司，正在革新代理型人工智能的經濟效益。 NeuralMesh™ 平台融合高效能數據儲存與擴充的圖形處理器記憶體，為企業、人工智能雲端服務商及人工智能建構者提供統一基礎，以應對訓練、推論及代理型工作負載。透過 Augmented Memory Grid，NeuralMesh 能把圖形處理器記憶體容量擴展 1,000 倍，將達到首個 Token 的時間縮短高達 20 倍，並在相同圖形處理器佔用空間下服務多 10 倍的並發用戶，這些結果已在生產基準測試中得到證實。 WEKA 深受《財富》50 強 (Fortune 50) 中三成企業的信賴，能幫助機構加快人工智能的規模化部署、提升圖形處理器的使用效率，並降低每服務一個 Token 所帶來的成本。歡迎瀏覽 www.weka.io 以了解更多，亦可於 LinkedIn 和 X 上關注我們。

WEKA 及 W 標誌為 WekaIO, Inc. 的註冊商標。本文中出現的其他商業名稱，可能為其各自擁有者的商標。

WEKA 與 Oracle Cloud Infrastructure 證實長上下文人工智能推論可令吞吐量提升 10 倍

聯絡我們

平台編輯部

關於我們

電子報

WEKA 與 Oracle Cloud Infrastructure 證實長上下文人工智能推論可令吞吐量提升 10 倍

Supermicro 與 Verda 攜手為新一代 AI 工作負載，提供可持續發展的全堆疊 AI 雲端基建

相關文章

聯絡我們

平台編輯部

關於我們

電子報