AI競爭愈發激烈：馬斯克剛發佈Grok 3，DeepSeek跟著發重磅論文

首頁 -> 內地

AI競爭愈發激烈：馬斯克剛發佈Grok 3，DeepSeek跟著發重磅論文

分享到：

2025-02-19 17:24 | 稿件來源：香港新聞網

【字號：大中小】

香港新聞網2月19日電北京時間2月18日，科技富豪埃隆·馬斯克（Elon Musk）的人工智能初創公司xAI發佈了更新版Grok 3大模型，被其稱為“地球上最聰明的人工智能”。

Grok 3發佈會直播截圖。圖源：馬斯克X賬號

在當天的直播中，馬斯克與該公司的三位工程師進行了現場演示，展示了Grok 3在數學、科學和編程基準測試中的卓越表現，稱其超越了谷歌Gemini、DeepSeek的V3模型、Anthropic的Claude以及OpenAI的GPT-4o。

馬斯克在直播中透露稱，Grok 3訓練過程累計消耗20萬塊英偉達GPU。

Grok 3不僅標誌著xAI技術的重大進展，也預示著人工智能領域新一輪的競爭即將拉開帷幕。

然而，在馬斯克發佈Grok 3的同時，火爆全球的DeepSeek也不甘落後。2月18日，DeepSeek的研究團隊，發佈了一篇關於原生稀疏注意力機制（NSA）的技術論文，在科技圈引起廣泛關注。

DeepSeek。香港中通社資料圖

這項技術旨在大幅提升下一代大型語言模型處理長文本的能力，同時兼顧效率，堪稱LLM領域的又一里程碑式的進展。

在論文中，DeepSeek提出了NSA這一革命性的注意力機制。NSA是一種專為超快長上下文訓練與推理設計的稀疏注意力機制，它通過動態分層稀疏策略、粗粒度的token壓縮以及細粒度的token選擇等核心技術，顯著提升了模型的推理速度并降低了計算成本。

具體而言，NSA在保證性能的同時實現了加速的訓練和推理過程，尤其在處理長序列場景時表現尤為突出。

相比於傳統的全注意力模型，NSA在通用基準測試中達到了或超過了全注意力模型的表現水平。

此外，NSA的硬件友好設計使其在實際應用中更具優勢，有望加速下一代大型語言模型在長文本處理領域的應用落地。

面對日趨激烈的大模型競爭態勢，OpenAI也是動作頻頻。

當地時間2月18日，OpenAI CEO山姆·奧特曼（Sam Altman）在X社交平台上發起投票，詢問網友希望下一個開源項目是哪一種，是做一個“相當小但仍需要在GPU上運行的o3-mini級模型”，還是“能做的最好的手機大小的模型”。這表明OpenAI可能即將開源某個大模型，這是自2019年開源GPT-2後的又一次重大舉措。