馬斯克發布Grok3：多項測試超越DeepSeek，展現強勁競爭力

Connor 必安交易所 2025-02-18 24 0

轉載自《AI范兒》

馬斯克發布Grok3：多項測試超越DeepSeek，展現強勁競爭力

xAI今日發布新一代大語言模型Grok-3及其精簡版Grok-3 mini。最新基準測試顯示，Grok-3在與DeepSeek的直接對比中展現出顯著優勢。

在數學能力測試（AIME'24）中，Grok-3獲得52分，明顯超過DeepSeek-V3的39分?？茖W知識評估（GPQA）方面，Grok-3以75分的成績領先，而DeepSeek-V3為65分。在編程能力測試（LCB Oct-Feb）中，Grok-3同樣以57分超過DeepSeek-V3的36分。

馬斯克發布Grok3：多項測試超越DeepSeek，展現強勁競爭力

最新公布的AIME 2025性能測試中，Grok-3 Reasoning Beta版本在推理和計算時間復合評分上取得93分的優異成績，其精簡版本Grok-3 mini也達到了90分。相比之下，DeepSeek-R1的得分為75分，而Gemini-2 Flash Thinking僅為54分。這一結果進一步凸顯了Grok-3在復雜數學推理和計算效率方面的突出優勢。

馬斯克發布Grok3：多項測試超越DeepSeek，展現強勁競爭力

展開全文

特別值得注意的是，DeepSeek近期發布的DeepSeek-R1在其他推理能力測試中也未能趕超Grok-3。在數學推理中，Grok-3獲得93分，DeepSeek-R1為73分；科學推理中，Grok-3得分85分，DeepSeek-R1為74分；編程推理中，Grok-3達到79分，而DeepSeek-R1為65分。

馬斯克發布Grok3：多項測試超越DeepSeek，展現強勁競爭力

此外，在LMSYS聊天機器人競技場評估中，Grok-3的得分約為1400分，不僅超過了DeepSeek系列，也領先于其他主流大模型，包括GPT-4、Claude等。

馬斯克發布Grok3：多項測試超越DeepSeek，展現強勁競爭力

這些數據表明，盡管DeepSeek在過去幾個月展現出強勁的發展勢頭，但Grok-3的整體性能仍然保持領先地位。特別是在數學推理和計算效率方面的優勢更為明顯，這不僅體現了xAI在模型研發上的技術實力，也顯示出AI領域競爭的白熱化程度。

#馬斯克 #強勁 #DeepSeek #競爭力 #展現

評論

久久国产精品湿香蕉网_测测啪汇聚精彩的制服精品_爱情岛亚洲品质网站入口_日本精品一区二区_久久狼人大香伊蕉国产下载