
AIGC前沿
文章平均质量分 85
微凉的衣柜
人工智能专业博士,专注前沿AI技术,分享优质代码资源、科技新闻与行业趋势。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
GitHub Models:为开源AI项目解决推理难题,让AI更易用、更普及
## 引言:开源AI项目的“隐形门槛”如今,AI功能几乎成了软件项目的标配。无论是智能摘要、代码补全,还是聊天机器人,我们都希望通过调用大模型的能力提升产品竞争力。原创 2025-08-05 19:00:00 · 759 阅读 · 0 评论 -
Anthropic 团队如何用 Claude Code 赋能工作流?一份实践指南分享
近年来,AI 编程助手的使用已经成为技术团队提效的利器之一。Anthropic 公司内部发布了一份《How Anthropic teams use Claude Code》的实践经验总结,详细介绍了他们在不同部门中,如何通过 Claude Code 赋能工作流程、提高生产效率、降低协作成本。这份报告对我们所有探索 AI 助手应用场景的人都有极大的参考价值。本文将带你快速梳理报告中的 **主要实践案例和高效使用建议**,希望能启发你在自己的团队中落地 AI 编程助手。原创 2025-06-09 18:30:00 · 539 阅读 · 0 评论 -
使用GRPO训练调度事件的语言模型!
本文分享了作者使用GRPO(Group Relative Policy Optimization)训练语言模型进行事件调度的实践经验。作者选择了一个原创问题:让模型根据事件列表和优先级创建优化的日程安排。通过生成数据集、选择基础模型(Qwen2.5-Coder-7B-Instruct)、设计奖励函数,并使用Unsloth库进行训练,作者展示了如何在不依赖完整输出的情况下,仅通过提示和奖励来训练模型。文章详细介绍了问题定义、数据集生成、模型训练步骤,并提供了相关代码和资源链接,供读者参考和复现实验。原创 2025-05-14 09:47:18 · 1221 阅读 · 0 评论 -
Google最新《Prompt Engineering》白皮书全解析
近期有幸拿到了Google最新发布的《Prompt Engineering》白皮书,这是一份由Lee Boonstra主笔,Michael Sherman、Yuan Cao、Erick Armbrust、Antonio Gulli等多位专家共同贡献的权威性指南,发布于2025年2月。今天我想和大家分享这份68页的宝贵资源,它详细介绍了如何为大型语言模型(LLM)设计有效的提示词。原创 2025-04-15 18:30:00 · 1251 阅读 · 0 评论 -
GPT-4o 原生图像生成技术解析:从模型架构到吉卜力梦境的实现
最近不少 AI 爱好者、设计师、Vlogger 在社交平台晒出了 GPT-4o 生成的梦幻图像,尤其是**吉卜力风格的作品**——柔和光影、日系构图、治愈色彩、富有情感的角色表达,一下子击中了无数人的“童年回忆 +审美舒适区”。原创 2025-03-29 10:34:54 · 1636 阅读 · 0 评论 -
Anthropic 正在开发 Harmony:Claude 即将支持本地文件操作
近年来,人工智能(AI)助手不断发展,不仅限于在线信息搜索,还逐步扩展到本地文件的交互和分析。Anthropic 近期正在开发 **Harmony**,这是一项能够让 Claude 直接访问和操作本地文件目录的新功能。原创 2025-03-17 14:00:00 · 890 阅读 · 0 评论 -
语言代理:基础、前景与风险【附带EMNLP在普林斯顿演讲的PPT资源】
随着人工智能技术的飞速发展,语言代理(Language Agents)逐渐成为研究的热点。语言代理是一种能够通过语言进行推理和沟通的人工智能体,它们在记忆、规划、工具使用等方面展现出强大的能力。本文将详细介绍语言代理的基础概念、当前研究进展、未来发展方向以及面临的挑战和风险。原创 2024-11-14 09:21:55 · 656 阅读 · 0 评论 -
在 RAG(检索增强生成)中整合视觉模型以增强文档处理
检索增强生成(Retrieval-Augmented Generation, RAG)模型广泛用于生成基于外部知识的文本内容。传统 RAG 模型依赖文本数据进行检索和生成,但在实际应用中,文档的视觉信息(如页面布局、图像、表格)同样重要。为了更有效地处理包含复杂视觉信息的文档,新一代模型如 VisRAG 和 ColPali 应运而生,它们将视觉语言模型(Vision-Language Models, VLM)融入 RAG 管道,直接利用文档图像进行检索与生成。本教程将详细介绍 VisRAG 和 ColPal原创 2024-11-05 09:18:00 · 965 阅读 · 0 评论 -
大语言模型学习指南:入门、应用与深入
本文将学习路径划分为三个部分:**入门篇**、**应用篇**、**深入篇**。每个章节针对不同的学习需求,帮助你从基础知识入手,逐步掌握大语言模型(LLM)的使用、应用开发以及技术原理等内容。原创 2024-10-19 10:10:32 · 1264 阅读 · 0 评论 -
Chai-1:面向分子结构预测的多模态基础模型
在现代生物与化学领域,预测分子结构是理解和设计新的药物、蛋白质以及其他生物分子的重要环节。为了进一步提升预测的精度与广泛性,Chai Discovery 团队推出了 **Chai-1**,一款多模态基础模型,它能够在多个基准测试上达到**最前沿的表现**,为分子结构的预测提供了新的视角。原创 2024-09-11 09:58:27 · 2456 阅读 · 0 评论 -
解决AutoDL远程服务器训练大模型的常见问题:CPU内存不足与 SSH 断开
在使用远程服务器(如 AutoDL)进行深度学习训练时,通常会遇到一些常见问题,比如由于数据加载导致的内存消耗过高,以及 SSH 连接中断后训练任务被迫停止。这篇文章将介绍我在这些问题上遇到的挑战,并分享相应的解决方案。原创 2024-09-03 18:50:27 · 2970 阅读 · 0 评论 -
如何搭建10万个H100 GPU的集群:电力、并行化、网络拓扑与成本优化
在现代人工智能的发展中,构建大规模GPU集群是提升计算能力的关键手段。今天我们探讨如何搭建一个包含10万个H100 GPU的集群。这个项目不仅涉及巨大的资本支出,还面临电力供应、并行化处理、网络拓扑结构以及可靠性和恢复等多方面的挑战。通过深入分析这些问题,本文将为大家揭示构建如此庞大集群的复杂性和关键技术。原创 2024-07-04 12:13:23 · 2331 阅读 · 0 评论 -
路由LLM:优化模型调用的成本与效率
在最近的一些视频和讨论中,我们经常提到使用较便宜和较快的模型来替代一些昂贵的大型语言模型(LLM)。这种方法的一个主要原因是看到许多人在不必要的场合调用如GPT-4或Claude Opus等高级模型,从而浪费了大量资金。而事实上,很多情况下,较便宜和快速的模型已经足够满足需求。那么,当部分调用确实需要高级模型时,该如何平衡这种需求呢?本文将介绍由LM Sys发布的一个开源框架——RouteLLM,它旨在通过智能路由来优化LLM的使用,从而显著降低成本。原创 2024-07-04 12:09:34 · 959 阅读 · 0 评论 -
掌握Llama 2分词器:填充、提示格式及更多
在语言模型领域,时间变化迅速。自Llama 2发布已经有几个月了,但关于其分词器和填充设置仍存在很多困惑。本文旨在提供一份关于Llama 2分词器基础知识以及如何正确设置填充的全面指南。无论您是Llama 2的老用户还是新手,这篇文章都将帮助您轻松掌握基本知识。原创 2024-06-29 12:54:03 · 1626 阅读 · 0 评论 -
使用Ollama和LangChain构建本地RAG系统
随着Gemma 2在Keras、PyTorch、Hugging Face transformers等多种格式的发布,Ollama格式也随之发布。在本篇博客中,我们将介绍如何使用Gemma 2的9B模型和LangChain框架构建一个完全本地化的RAG(检索增强生成)系统,并展示实际代码示例。原创 2024-06-29 12:42:30 · 2341 阅读 · 0 评论 -
探索AgentUniverse:蚂蚁集团发布的多体Agent构建工厂
agentUniverse原创 2024-06-18 08:30:47 · 4682 阅读 · 0 评论 -
ChatTTS:全新对话式文本转语音系统全面解析
chatTTs讲解和代码示例原创 2024-06-13 21:13:54 · 1714 阅读 · 0 评论 -
Qwen 2 模型介绍及其应用探索
Qwen 2 模型介绍及其应用探索原创 2024-06-10 23:41:03 · 2406 阅读 · 0 评论 -
YOLOv10、YOLOv9 和 YOLOv8 在实际视频中的对比
近期yolo对比原创 2024-06-10 15:28:07 · 7567 阅读 · 4 评论 -
探索微软新VLM Phi-3 Vision模型:详细分析与代码示例
phi 3模型代码原创 2024-06-08 15:44:42 · 2097 阅读 · 0 评论 -
ChatGPT的逆袭历程:核心技术深度解析
ChatGPT逆袭历程原创 2024-05-31 18:00:00 · 1506 阅读 · 0 评论 -
PaliGemma – 谷歌的最新开源视觉语言模型(一)
PaliGemma原创 2024-05-28 12:00:00 · 1672 阅读 · 0 评论 -
PaliGemma – 谷歌的最新开源视觉语言模型(二)【附代码】
PaliGemma代码原创 2024-05-28 17:00:00 · 2407 阅读 · 0 评论 -
探索 Mistral 新发布的具有原生函数调用功能的 7B 模型【附notebook文件】
Mistral 7B原创 2024-05-26 12:00:00 · 1136 阅读 · 0 评论 -
Phidata:快速构建一个智能 AI 助手【附代码示例】
Phidata是一个尖端的框架,专为开发具有超越传统语言模型能力的自治助手(或称为代理)而设计。这些 AI 助手拥有长期记忆、深入的情境理解能力以及通过函数调用执行操作的能力,使它们在各种应用中非常有效。项目近期在Github上非常火爆:https://github.com/phidatahq/phidata/blob/main/README.md利用Phidata可以快速构建一个满足业务需求的基于大模型的智能助理,快来试试吧。原创 2024-05-16 12:18:47 · 2817 阅读 · 12 评论 -
使用 LangGraph 实现邮件智能处理系统来处理客户咨询【附代码】
在这篇博文中,我们将探讨如何使用 LangGraph 结合 RAG(Retrieval-Augmented Generation)技术来构建一个响应客户邮件的电子邮件智能系统。LangGraph 是一个强大的框架,专为构建和部署基于图的语言应用而设计。它支持复杂的查询处理和信息检索任务,使得我们可以实现一个智能的邮件响应系统。我们的目标是创建一个系统,能够理解和分类客户邮件,然后生成回答问题的最佳策略,最终撰写出符合查询需求的回复邮件。原创 2024-05-13 00:02:59 · 1549 阅读 · 2 评论 -
开源AlphaFold3来啦!快来亲自尝试预测蛋白质结构!
AlphaFold3是AlphaFold系列的最新迭代,它利用深度学习技术预测蛋白质结构,特别是蛋白质间的复杂相互作用。此模型通过改进其前身的算法,增强了对多样化生物分子系统的处理能力。原创 2024-05-10 18:00:00 · 4515 阅读 · 4 评论 -
本地使用 Ollama 驱动 Llama 3,Phi-3 构建智能代理(附代码)
本地使用 Ollama 驱动 Llama 3,Phi-3 构建智能代理(附代码)原创 2024-05-09 12:53:53 · 2098 阅读 · 2 评论