首頁 -> 內地

AI競爭愈發激烈:馬斯克剛發佈Grok 3,DeepSeek跟著發重磅論文

分享到:
2025-02-19 17:24 | 稿件來源:香港新聞網

【字號:

香港新聞網2月19日電 北京時間2月18日,科技富豪埃隆·馬斯克(Elon Musk)的人工智能初創公司xAI發佈了更新版Grok 3大模型,被其稱為“地球上最聰明的人工智能”。

Grok 3發佈會直播截圖。圖源:馬斯克X賬號

在當天的直播中,馬斯克與該公司的三位工程師進行了現場演示,展示了Grok 3在數學、科學和編程基準測試中的卓越表現,稱其超越了谷歌Gemini、DeepSeek的V3模型、Anthropic的Claude以及OpenAI的GPT-4o。

馬斯克在直播中透露稱,Grok 3訓練過程累計消耗20萬塊英偉達GPU。

Grok 3不僅標誌著xAI技術的重大進展,也預示著人工智能領域新一輪的競爭即將拉開帷幕。

然而,在馬斯克發佈Grok 3的同時,火爆全球的DeepSeek也不甘落後。2月18日,DeepSeek的研究團隊,發佈了一篇關於原生稀疏注意力機制(NSA)的技術論文,在科技圈引起廣泛關注。

DeepSeek。香港中通社資料圖

這項技術旨在大幅提升下一代大型語言模型處理長文本的能力,同時兼顧效率,堪稱LLM領域的又一里程碑式的進展。

在論文中,DeepSeek提出了NSA這一革命性的注意力機制。NSA是一種專為超快長上下文訓練與推理設計的稀疏注意力機制,它通過動態分層稀疏策略、粗粒度的token壓縮以及細粒度的token選擇等核心技術,顯著提升了模型的推理速度并降低了計算成本。

具體而言,NSA在保證性能的同時實現了加速的訓練和推理過程,尤其在處理長序列場景時表現尤為突出。

相比於傳統的全注意力模型,NSA在通用基準測試中達到了或超過了全注意力模型的表現水平。

此外,NSA的硬件友好設計使其在實際應用中更具優勢,有望加速下一代大型語言模型在長文本處理領域的應用落地。

面對日趨激烈的大模型競爭態勢,OpenAI也是動作頻頻。

當地時間2月18日,OpenAI CEO山姆·奧特曼(Sam Altman)在X社交平台上發起投票,詢問網友希望下一個開源項目是哪一種,是做一個“相當小但仍需要在GPU上運行的o3-mini級模型”,還是“能做的最好的手機大小的模型”。這表明OpenAI可能即將開源某個大模型,這是自2019年開源GPT-2後的又一次重大舉措。

OpenAI。央視新聞資料圖

值得一提的是,1月20日,成本更低、性能比肩OpenAI o1模型正式版的DeepSeek-R1正式發佈後,Open AI終於公佈了GPT-5的路線圖。

2月13日,奧特曼透露了關於GPT-4.5和GPT-5的更新路線圖,宣布GPT-5將免費對所有用戶開放,儘管會設置一些防止濫用的限制。稱對於ChatGPT Plus和Pro的訂閱用戶,他們將能够體驗到更加強大的AI能力。

從xAI到DeepSeek再到OpenAI、谷歌、Meta等,人工智能領域的大模型競爭愈發激烈。各大公司紛紛加大研發投入和模型迭代,試圖通過資源匯集和技術創新保持領先地位,爭奪通往AGI(通用人工智能)之路的“入場券”。(完)

【編輯:馬華】

視頻

更 多
超強颱風“摩羯”逼近 香港嚴陣以待
在無冰之城的香港學短道速滑!學員:這改變了我的人生
《哪吒2》在港預售大熱 香港文體旅局局長:哪吒團隊有一點值得學習
韓國下架DeepSeek 韓國AI公司高管怎麼看?
香港公司“牽手”中東財團 外企高管:香港太關鍵了
《哪吒2》香港首映 觀眾:難怪票房有百億!看之前還不信
坐九小時飛機只為一場球!藏港青少年在港“以球會友”