马斯克的免费Grok3来了,比Deepseek-R1更强?
近日,xAI团队正式发布了备受瞩目的Grok-3大模型,并宣布限时免费开放使用,直至服务器容量达到上限为止,作为马斯克旗下xAI公司的最新力作,Grok-3不仅在数学、科学和编程等基准测试中表现优异,甚至被宣称是“地球上最聪明的AI”。
本文将围绕Grok-3展开深入分析,同时对比其他主流模型,探讨它们在不同任务中的性能差异。
注册
注册地址:https://accounts.x.ai/sign-up
进入首页
https://grok.com/
模型测试
在以下测试中,我们将选择几个经典的数学计算和现实问题,以检验这些模型在处理任务时的表现和准确性。
验证模型:豆包、Qwen2.5-MAX、Grok3 DeepSearch、Deepseek-R1、GPT4o、Claude 3.7
问题一
问题:
10ml培养基中有N个酵母菌,稀释100倍后采用16x25血细胞计数板计数,若某时刻中格细胞平均数量为25,求N的值。
正确答案:
40 亿 (4*10^9)
模型 |
结果 |
是否正确 |
Grok3 DeepSearch |
算懵了(看下面截图) |
❌ |
Grok3 思考模式 |
6250000000 |
❌ |
Deepseek |
4*10^8 |
❌ |
Deepseek-R1 |
4*10^9 (速度超级慢) |
✅ |
GPT4o |
2.5*10^8 |
❌ |
Qwen2.5-MAX |
250000000 |
❌ |
豆包 |
有时对 |
❓ |
Claude 3.7 |
2.5*10^8 |
❌ |
Grok3 DeepSearch 算懵了的截图,没给出结果
分析:从以上测试可以看出,Grok3在执行该任务时的表现相对较差。尽管它启动了“深度搜索”模式,但并未给出有效的结果。这一点与Deepseek-R1和其他模型形成鲜明对比,后者能够准确快速地计算出正确答案。这一现象可能与Grok3在处理一些数字计算时的推理路径不够清晰,导致其输出结果出现偏差。
问题二
不要用Python 等计算代码来计算,请你自己算,并给出推算逻辑:114514*1919810=?正确答案:219845122340
模型 |
结果 |
是否正确 |
Grok3 DeepSearch |
219,845,122,340 |
✅ |
Grok3 思考模式 |
219845122340 |
✅ |
DeepseekV3 |
有时对有时错 |
❓ |
Deepseek-R1 |
219845122340 |
✅ |
GPT4o |
219845122340 |
✅ |
Qwen2.5-MAX |
219845122340 |
✅ |
豆包 |
219845122340 |
✅ |
Claude 3.7 |
219,838,149,940 |
❌ |
分析:
在处理基础的数学计算时,Grok3能够准确快速地得出结果,与其他大多数模型一致。这个问题主要考察的是模型的基本算术能力。从结果来看,Grok3和Deepseek-R1等模型表现相当不错,基本没有错误,且速度较为迅速。即使是GPT4o、Qwen2.5-MAX等模型,也能顺利计算出正确的答案。
问题三
问题:
小米 NAS 什么时候发布
答案:
未发布/网上暂时没有明确日志
结论:
目前只有 Qwen2.5-MAX 和 Deepseek-R1答对了。
豆包
Grok3
Qwen2.5-MAX
DeepSeek-R1
GPT4o
有点智障,都开启联网搜索,还说自己没法浏览网页
分析:在这类现实世界查询中,Grok3和Deepseek-R1的表现较为接近。所有模型都未能提供有关小米NAS发布的确切答案。然而,Deepseek-R1和Qwen2.5-MAX等模型准确指出了小米NAS“未发布”的状态,而Grok3和其他模型则没有给出明确结论。这表明,尽管Grok3在某些情况下表现优秀,但在特定的现实查询上,它的推理能力仍然有待提高。
尴尬的是,Grok说是免费,我光注册 Grok 账号还不行,用了一段时间后,还是上限了~
总的来说,尽管Grok3在一些常规计算任务中表现出色,但在复杂推理和现实问题处理上,仍然需要进一步的优化和提升。从目前的测试结果来看,Deepseek-R1等模型在多个方面表现更为稳定,尤其是在精确计算和推理任务上。
-
欢迎关注我的公众号“编程与架构”,原创技术文章第一时间推送。