马斯克的免费Grok3来了,比Deepseek-R1更强?

马斯克的免费Grok3来了,比Deepseek-R1更强?

近日,xAI团队正式发布了备受瞩目的Grok-3大模型,并宣布限时免费开放使用,直至服务器容量达到上限为止,作为马斯克旗下xAI公司的最新力作,Grok-3不仅在数学、科学和编程等基准测试中表现优异,甚至被宣称是“地球上最聪明的AI”。

本文将围绕Grok-3展开深入分析,同时对比其他主流模型,探讨它们在不同任务中的性能差异。

image-20250225145431414

 

注册

注册地址:https://accounts.x.ai/sign-up

进入首页

https://grok.com/

image-20250225145643633

 

模型测试

在以下测试中,我们将选择几个经典的数学计算和现实问题,以检验这些模型在处理任务时的表现和准确性。

验证模型:豆包、Qwen2.5-MAX、Grok3 DeepSearch、Deepseek-R1、GPT4o、Claude 3.7

问题一

问题:

10ml培养基中有N个酵母菌,稀释100倍后采用16x25血细胞计数板计数,若某时刻中格细胞平均数量为25,求N的值。

正确答案

40 亿 (4*10^9)

模型

结果

是否正确

Grok3 DeepSearch

算懵了(看下面截图)

Grok3 思考模式

6250000000

Deepseek

4*10^8

Deepseek-R1

4*10^9 (速度超级慢)

GPT4o

2.5*10^8

Qwen2.5-MAX

250000000

豆包

有时对

Claude 3.7

2.5*10^8

Grok3 DeepSearch 算懵了的截图,没给出结果

image-20250225150537697

 

分析:从以上测试可以看出,Grok3在执行该任务时的表现相对较差。尽管它启动了“深度搜索”模式,但并未给出有效的结果。这一点与Deepseek-R1和其他模型形成鲜明对比,后者能够准确快速地计算出正确答案。这一现象可能与Grok3在处理一些数字计算时的推理路径不够清晰,导致其输出结果出现偏差。

问题二

不要用Python 等计算代码来计算,请你自己算,并给出推算逻辑:114514*1919810=?正确答案:219845122340

模型

结果

是否正确

Grok3 DeepSearch

219,845,122,340

Grok3 思考模式

219845122340

DeepseekV3

有时对有时错

Deepseek-R1

219845122340

GPT4o

219845122340

Qwen2.5-MAX

219845122340

豆包

219845122340

Claude 3.7

219,838,149,940

分析:

在处理基础的数学计算时,Grok3能够准确快速地得出结果,与其他大多数模型一致。这个问题主要考察的是模型的基本算术能力。从结果来看,Grok3和Deepseek-R1等模型表现相当不错,基本没有错误,且速度较为迅速。即使是GPT4o、Qwen2.5-MAX等模型,也能顺利计算出正确的答案。

问题三

问题:

小米 NAS 什么时候发布

答案:

未发布/网上暂时没有明确日志

结论:

目前只有 Qwen2.5-MAX 和 Deepseek-R1答对了。

豆包

image-20250225153119498

 

Grok3

image-20250225153149044

 

Qwen2.5-MAX

image-20250225153237322

 

DeepSeek-R1

image-20250225154055612

 

GPT4o

有点智障,都开启联网搜索,还说自己没法浏览网页

image-20250225153343045

 

分析:在这类现实世界查询中,Grok3和Deepseek-R1的表现较为接近。所有模型都未能提供有关小米NAS发布的确切答案。然而,Deepseek-R1和Qwen2.5-MAX等模型准确指出了小米NAS“未发布”的状态,而Grok3和其他模型则没有给出明确结论。这表明,尽管Grok3在某些情况下表现优秀,但在特定的现实查询上,它的推理能力仍然有待提高。

尴尬的是,Grok说是免费,我光注册 Grok 账号还不行,用了一段时间后,还是上限了~

image-20250225155554178

 

总的来说,尽管Grok3在一些常规计算任务中表现出色,但在复杂推理和现实问题处理上,仍然需要进一步的优化和提升。从目前的测试结果来看,Deepseek-R1等模型在多个方面表现更为稳定,尤其是在精确计算和推理任务上。

  • 欢迎关注我的公众号“编程与架构”,原创技术文章第一时间推送。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值