Início » DeepSeek推V4開源大模型 掀中美AI新戰幔

DeepSeek推V4開源大模型 掀中美AI新戰幔

中國人工智能(AI)初創企業深度求索(DeepSeek)今(24日)發布全新開源大模型「DeepSeek-V4」,主打運算成本大幅降低及支援百萬字超長上下文處理。另邊廂,美國白宮指控中國的企業正展開大規模行動竊取美國AI技術,令兩國科技角力持續升溫。

法新社

繼首推低成本推理模型R1震驚全球逾一年後,總部位於杭州的DeepSeek在微信公眾號公告指出,新版本DeepSeek-V4具備「一百萬字超長上下文」特徵。上下文長度決定了模型能夠吸收多少輸入資訊以協助完成任務。公告表示,該模型「在代理(Agent)能力、世界知識及推理效能方面,(實現了)國內及開源領域的領先地位」。公司另在社交平台X發布公告,讚揚新模型達「世界領先」水平,且運算與記憶體成本「大幅降低」。

目前該開源模型的「預覽版」已正式提供。新模型分為兩個版本:參數高達1.6萬億的「DeepSeek-V4-Pro」,以及參數為2,840億的「DeepSeek-V4-Flash」,後者因參數較小,被視為「更具效率及經濟效益的選擇」。

公告補充,在世界知識基準測試中,V4-Pro大幅領先其他開源模型,僅略遜於頂級閉源模型、Google旗下的Gemini-Pro-3.1。此外,新模型已針對Claude Code、OpenClaw、OpenCode及CodeBuddy等熱門AI代理產品「進行優化」。

勢入主流商業應用

專家指出,V4的發布標誌着硬件與成本的「轉捩點」。艾媒諮詢(iiMedia)創辦人張毅向法新社表示:「這解決了長篇幅的上下文一直存在的效能緩慢及高成本問題,標誌着行業真正的轉捩點。」他進一步解釋:「對終端用戶而言,這將帶來廣泛且容易獲取的裨益。舉例來說,若超長上下文支援成為標準配置,長文本處理預料將超越高端研究實驗室的範疇,進入主流商業應用。」

有別於OpenAI及其他西方競爭對手銷售的專有模型,DeepSeek決定將系統開源並公開內部運作機制,推動其AI工具在內地獲廣泛採用,涵蓋中國地方政府、醫療機構、金融界及其他商業領域。然而,其突然爆紅亦引發了對數據私隱及內容審查的質疑。

美指控華企以「蒸餾」方式竊取技術    Meta傳裁員一成

就在美國總統特朗普與中國國家主席習近平預計下月於北京舉行峰會之際,隨着DeepSeek再次展現技術實力,美國白宮指責中國企業企圖「竊取」美國技術。

特朗普的科學與技術首席顧問克拉齊奧斯(Michael Kratsios)在X平台發文稱:「美國有證據表明,主要位於中國的外國實體,正進行工業規模的『模型蒸餾』(distillation)活動,以竊取美國的AI成果。」

「蒸餾」是AI開發中的常見做法,企業通常藉此創建成本更低、規模更小的自有模型版本。DeepSeek去年1月憑藉R1推理模型驅動的生成式AI聊天機械人異軍突起,顛覆了外界對美國在該戰略領域佔主導地位的假設。該聊天機械人的效能媲美ChatGPT及其他美國頂尖產品,但公司表示其開發所需的運算能力大幅減少。

去年的「DeepSeek震撼」引發了AI相關股份的拋售潮,促使企業重新評估商業策略,業界更將此形容為美國AI領域敲響警鐘。在DeepSeek周五發布新模型之際,美國科技巨頭亦正調整戰略以應對激烈的AI競賽。Meta宣布計劃裁減約10%的員工,期望從剩餘員工中提升生產力,同時將資源大舉投資於人工智能。另有報導指出,微軟(Microsoft)亦正尋求精簡人手。

 

聯絡我們

平台媒體,聚焦中葡關係。

平台編輯部

關於我們

電子報

訂閱平台電子報,縱觀全球新聞

© 2025 – Copyright Plataforma Media.