马斯克的免费Grok3来了，比Deepseek-R1更强？

最新推荐文章于 2025-03-02 01:17:15 发布

jast_zsh

最新推荐文章于 2025-03-02 01:17:15 发布

阅读量1.3k

点赞数 8

CC 4.0 BY-SA版权

文章标签：人工智能

本文链接：https://blog.csdn.net/zhangshenghang/article/details/145855725

马斯克的免费Grok3来了，比Deepseek-R1更强？

近日，xAI团队正式发布了备受瞩目的Grok-3大模型，并宣布限时免费开放使用，直至服务器容量达到上限为止，作为马斯克旗下xAI公司的最新力作，Grok-3不仅在数学、科学和编程等基准测试中表现优异，甚至被宣称是“地球上最聪明的AI”。

本文将围绕Grok-3展开深入分析，同时对比其他主流模型，探讨它们在不同任务中的性能差异。

注册

注册地址：https://accounts.x.ai/sign-up

进入首页

https://grok.com/

模型测试

在以下测试中，我们将选择几个经典的数学计算和现实问题，以检验这些模型在处理任务时的表现和准确性。

验证模型：豆包、Qwen2.5-MAX、Grok3 DeepSearch、Deepseek-R1、GPT4o、Claude 3.7

问题一

问题：

10ml培养基中有N个酵母菌，稀释100倍后采用16x25血细胞计数板计数，若某时刻中格细胞平均数量为25，求N的值。

正确答案：

40 亿 (4*10^9)

模型	结果	是否正确
Grok3 DeepSearch	算懵了（看下面截图）	❌
Grok3 思考模式	6250000000	❌
Deepseek	4*10^8	❌
Deepseek-R1	4*10^9 （速度超级慢）	✅
GPT4o	2.5*10^8	❌
Qwen2.5-MAX	250000000	❌
豆包	有时对	❓
Claude 3.7	2.5*10^8	❌

Grok3 DeepSearch 算懵了的截图，没给出结果

分析：从以上测试可以看出，Grok3在执行该任务时的表现相对较差。尽管它启动了“深度搜索”模式，但并未给出有效的结果。这一点与Deepseek-R1和其他模型形成鲜明对比，后者能够准确快速地计算出正确答案。这一现象可能与Grok3在处理一些数字计算时的推理路径不够清晰，导致其输出结果出现偏差。

问题二

不要用Python 等计算代码来计算，请你自己算，并给出推算逻辑：114514*1919810=?正确答案：219845122340

模型	结果	是否正确
Grok3 DeepSearch	219,845,122,340	✅
Grok3 思考模式	219845122340	✅
DeepseekV3	有时对有时错	❓
Deepseek-R1	219845122340	✅
GPT4o	219845122340	✅
Qwen2.5-MAX	219845122340	✅
豆包	219845122340	✅
Claude 3.7	219,838,149,940	❌

分析：

在处理基础的数学计算时，Grok3能够准确快速地得出结果，与其他大多数模型一致。这个问题主要考察的是模型的基本算术能力。从结果来看，Grok3和Deepseek-R1等模型表现相当不错，基本没有错误，且速度较为迅速。即使是GPT4o、Qwen2.5-MAX等模型，也能顺利计算出正确的答案。

问题三

问题：

小米 NAS 什么时候发布

答案：

未发布/网上暂时没有明确日志

结论：

目前只有 Qwen2.5-MAX 和 Deepseek-R1答对了。

豆包

Grok3

Qwen2.5-MAX

DeepSeek-R1

GPT4o

有点智障，都开启联网搜索，还说自己没法浏览网页

分析：在这类现实世界查询中，Grok3和Deepseek-R1的表现较为接近。所有模型都未能提供有关小米NAS发布的确切答案。然而，Deepseek-R1和Qwen2.5-MAX等模型准确指出了小米NAS“未发布”的状态，而Grok3和其他模型则没有给出明确结论。这表明，尽管Grok3在某些情况下表现优秀，但在特定的现实查询上，它的推理能力仍然有待提高。

尴尬的是，Grok说是免费，我光注册 Grok 账号还不行，用了一段时间后，还是上限了～