Claude 3.5一夜封王,10倍编码速度逆天,全网最全实测来了

有人表示自己一半的工作已经可以由它替代了!

就在昨天,Anthropic深夜发布了下一代旗舰大模型Claude 3.5 Sonnet。

据称,Claude 3.5 Sonnet不仅在评估中胜过GPT-4o,还保持了作为「中杯」的最优性价比,超过了自家的Claude 3 Opus。

img

如今,Claude 3.5 Sonnet已经面向全球开启免费试用了。

在费用上,Sonnet处理每百万输入token仅需3美元,每百万输出token仅为15美元。

对比之下,GPT-4o的每百万输入token收费5美元,每百万输出token为15美元,在价格上可以说是不相上下。正式对打时,各家可以说是已经都压低到了成本价。

img

前OpenAI对齐团队负责人Jan Leike表示,我喜欢Sonnet新模型。我经常要求它向我解释ML论文。虽然不一定全对,但可能比我略读要好,而且速度也快得多。自动对齐研究越来越近了…

img

有网友同样表示,「我有一半的工作都可以由Claude 3.5 Sonnet来完成,我真是太兴奋了」。

img

Anthropic的产品经理Michael Gerstenhaber将新模型称之为「世界上最智能的模型」。

他表示,「我们正处于这个行业寒武纪大爆发的开端」。

今年晚些时候,Claude 3.5 Haiku和最强版Claude 3.5 Opus将会陆续推出。

模型厂商们是彻底卷起来了!

网友实测

Claude 3.5 Sonnet发布之后,在全网掀起轩然大波,网友们纷纷上手开启一波测试。

10倍编码速度惊人

先来看看Claude 3.5 Sonnet写代码的速度有多可怕。

网友仅在一次对话中,就用threejs+cannonjs创建出一个3D太阳系模型,包含了物体和碰撞效果。

img

另一个网友称,使用Claude 3.5 Sonnet进行编码比GPT-4,或任何其他大型语言模型效率高10倍。全新的Artifacts功能,可以在聊天旁边生成和运行代码,简直令人惊叹。

img

没有什么比使用Claude 3.5 Sonnet一次性编写一个程序,来解密维吉尼亚密码更棒的事了。

img

img

img

许多网友纷纷夸赞Claude 3.5 Sonnet速度快到起飞。

img

2分钟一个小游戏

一位开发者直接用了不到2分钟,做出了一个戴着太阳镜的小狗吃骨头的游戏。

img

img

另有人花了3分钟的时间,做出了马里奥克隆版,并且为角色提供了动画效果。

img

还有另一款「原创」游戏Color Cascade。

img

用2分钟创建一个蛇梯棋游戏。

网友表示,「我可以通过新的Artifacts功能实时查看代码并玩游戏。使用Claude的编码体验比GPT-4和Gemini好10倍」。

img

这位网友用Sonnet做了一款乒乓球游戏。

img

不像ChatGPT,它没有用到编码解释器。在这个过程中,我们可以制作文档、笔记和其他内容,其中一个选项的html/jss。

神经网络可视化

有人还去做了可视化深度学习,不过因为消息限制,不得不暂停。

img

img

下面是用动画效果解释反向传播的工作原理。

img

重建3D「模拟矩阵」

Claude 3.5 Sonnet是第一个能在首次尝试中,重现电影《黑客》中「数据流」3D场景的模型。

img

img

而且,在制作恐怖游戏上,Claude 3.5 Sonnet设计的3D结构比Opus更好。

img

img

SVG效果图

Claude 3.5 Sonnet可以画出独角兽SVG图。

img

img

它甚至可以生成芯片制造工艺流程示意图。

img

「井字棋」游戏失败

OpenAI研究科学家,德扑之父使用新模型之后表示,

像GPT-4o(现在还有Claude 3.5 Sonnet)这样的前沿模型,在某些方面可能达到了「聪明的高中生」的水平,但它们在像「井字棋」这样的基本任务上无法完成。

人们曾希望原生的多模态训练能够有所帮助,但事实并非如此。

img

img

img

### 关于 Claude 3.5 的 IT 技术相关信息 #### 性能与效率 Claude 3.5 Haiku 被认为是 Anthropic 下一代最快模型的一部分,其性能相较于前代产品有显著提升。具体而言,它的运行成本和速度Claude 3 Haiku 类似,但在多项技能上进行了优化改进,在多个智能基准测试中表现优异,甚至超越了 Anthropic 上一代最大规模的模型——Claude 3 Opus[^1]。 此外,Claude 3.5 Sonnet 在处理复杂任务时表现出极高的效率,得益于其双速度提升,这使其在执行高负载计算或实时响应场景下更加游刃有余[^4]。 #### 编码能力 Claude 3.5 Haiku 特别擅长编程相关任务。例如,在 SWE-bench Verified 测试中的得分高达 40.6%,这一成绩不仅领先众多基于开源技术构建的强大模型,还优于早期版本的 Claude 3.5 Sonnet 和 GPT-4o 等知名竞争对手。 #### 自动化功能 除了强大的基础性能外,Claude 3.5 Sonnet 还支持高度自动化的业务流程管理。通过集成先进的自然语言理解和生成技术,它可以轻松完成重复性工作流的设计与部署,并展现出卓越的任务灵活性以及跨领域适应力[^2]。 #### 应用案例:RAG 架构搭建 为了进一步发挥 Claude 3.5 Sonnet 的潜力,可以将其与其他先进技术相结合来解决实际问题。比如利用 LlamaIndex 和 Milvus 数据库共同打造名为 Agentic RAG(Retrieval-Augmented Generation)的知识检索增强型生成框架。这种方法允许用户快速建立一个既能高效查询又能精准反馈信息的企业级解决方案[^3]。 ```python from llama_index import VectorStoreIndex, SimpleDirectoryReader import milvus from langchain.embeddings.huggingface import HuggingFaceEmbeddings from langchain.llms.anthropic import AnthropicLLM def build_rag_system(): documents = SimpleDirectoryReader('data').load_data() embeddings_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2") vector_store = milvus.MilvusVectorStore(embedding_function=embeddings_model) index = VectorStoreIndex.from_documents(documents, vector_store=vector_store) llm = AnthropicLLM(model='claude-3.5', max_tokens_to_sample=200) query_engine = index.as_query_engine(llm=llm) response = query_engine.query("What is the capital of France?") print(response) ``` 上述代码片段展示了如何使用 Python 实现一个简单的 RAG 系统原型,其中涉及到了文档加载、向量存储初始化、索引创建以及最终调用大语言模型进行问答交互的过程。 ---
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIMaynor

觉得有用,要个免费的三连可有?

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值