庞德公-CSDN博客

原创 GRIT：让AI“指着图说话“的新思路

GRIT从本质上而言是一种改良过的强化学习，它针对输出进行了魔改，用一个生活例子来理解。想象一下，你在和朋友看一张照片，朋友问你："这张照片里有几只猫？"普通人会怎么回答？"我看看，这里有一只白猫（用手指着左上角），那里还有一只黑猫（指着右下角），所以一共有2只猫。"

2025-05-28 21:37:29 1094

原创 AI的“空间盲症“

Meta FAIR和香港中文大学的研究团队最近发布的Multi-SpatialMLLM项目，正在试图解决这个根本性问题。

2025-05-28 21:35:36 802

原创 Google AI发布 MedGemma：医疗文本与图像理解的开放模型套件

在 Google I/O 2025 大会上，Google 推出MedGemma，这是一套专为多模态医疗文本和图像理解设计的开放模型套件。MedGemma 基于 Gemma 3 架构构建，旨在为开发者提供一个强大的基础，用于创建需要集成分析医疗图像和文本数据的医疗应用程序。

2025-05-22 08:58:23 946

原创 PARSCALE：大语言模型的第三种扩展范式

随着人工智能技术的飞速发展，大语言模型（LLM）已成为推动机器智能向通用人工智能（AGI）迈进的核心驱动力。然而，传统的模型扩展方法正面临着前所未有的挑战：参数扩展需要巨大的存储空间，推理时扩展则带来显著的时间成本。在这一背景下，最近有研究团队提出了一种全新的扩展范式——PARSCALE（并行扩展），为大语言模型的发展开辟了第三条道路。

2025-05-22 08:56:39 986

视觉-语言模型（VLMs）作为实现通用人工智能的关键技术，通过整合图像和文本信息，在多个领域取得进展，但仍面临三维空间理解、精确计数等挑战。字节跳动推出的Seed1.5-VL模型，结合了高效的视觉编码器和大型语言模型，在多个公开基准测试中表现优异，尤其在GUI控制和游戏任务中超越现有系统。该模型采用动态分辨率支持机制，增强了图像细节处理能力，并通过多阶段预训练和动态帧-分辨率采样策略，提升了视频和语音理解能力。Seed1.5-VL的紧凑设计在保证性能的同时降低了推理成本，展示了强大的多模态推理能力。

2025-05-14 21:35:18 872

原创魔改离线VLLM

StreamBridge提出了一个简单有效的框架，将现有的离线Video-LLM缝升级为可处理流式视频的系统。它针对流式场景中的两大核心挑战：(1) 多轮实时理解：模型需要持续跟踪最近视频帧，同时结合历史上下文多轮交互；(2) 主动响应生成：模型应当主动监控视频流，在关键时刻生成回应，而不必等待用户明确提问。

2025-05-14 21:32:55 683

原创旧酒装新瓶：A2A+MCP

A2A的定位是与Anthropic的 Model Context Protocol（MCP）形成互补关系：MCP主要处理代理与其工具/数据源之间的连接，而A2A则促进代理之间的通信。

2025-05-09 08:32:46 792

原创 nanoVLM：750行代码训练视觉大模型

Hugging Face近日发布了nanoVLM，仅用750行代码从零开始训练视觉语言模型（VLM）。该项目秉承了Andrej Karpathy的nanoGPT等项目的精神：优先考虑代码可读性和模块化，同时不牺牲实际应用价值。

2025-05-09 08:29:16 439

原创 NVIDIA发布Parakeet TDT 0.6B-v2：ASR新标杆

2025年5月，NVIDIA重磅发布其全新一代自动语音识别（ASR）模型 ——Parakeet TDT 0.6B-v2。该模型具备 0.6B参数，采用CC-BY-4.0商用开源许可协议，并以实时因子（RTF）达3386 的惊人速度刷新行业纪录，标志着语音AI进入一个全新的高性能、低延迟时代。

2025-05-07 08:24:56 1088

原创 Synthetic Data Kit：LLM微调的语料提炼方案

针对特定任务微调主流LLM的最大挑战是：高质量、任务专用的数据很难获取。Meta的合成数据工具包(Synthetic Data Kit，SDK)为此提供了一个精简的开源解决方案，用于生成、筛选和格式化合成数据集—无需数据科学家参与。

2025-05-07 08:21:24 883

原创扒一扒最近较火的MCP

封面的图片很直观的阐述了MCP，它是一种开放协议，MCP 是一个开放协议，用于标准化应用程序向大语言模型提供上下文的方式。MCP由Anthropic公司在2024年底推出，旨在解决大语言模型（LLM）与外部数据源和工具之间的集成问题。

2025-05-04 17:05:25 1069

原创 Granite 4.0 Tiny：IBM也开始卷大模型？

IBM最近推出了其即将到来的Granite 4.0语言模型家族中体积最小的成员——Granite 4.0 Tiny的预览版。这款紧凑型模型在保持高效性能的同时，也为长文本处理和指令遵循场景带来了新的可能。

2025-05-04 17:02:39 773

原创深度思考Qwen3

这种所谓的"混合思考"模式，即在两种不同模式——"思考"和"非思考"之间切换，在"思考"模式下，Qwen3-235B能够逐步高效地分解复杂任务，非常适合数学、编程或深度分析。在思考模式下，Qwen3进行逐步、有条理的思考，非常适合微妙、复杂的问题，如编码挑战、包含详细说明的数学证明，或对复杂情况的深思熟虑。随着谷歌的Gemini-2.5-Pro和OpenAI的O3在各种基准测试中表现出色，加上"较老"的竞争者如DeepSeek R1仍然强劲，阿里巴巴的Qwen3-235B面临着艰难的挑战。

2025-05-03 15:31:53 1028

原创推理能力：五一模型大放送

4月30日，微软推出了Phi-4推理系列，包括三个模型——Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning。在广泛的推理基准测试中，Phi-4-reasoning-plus不仅在特定领域评估中表现出色，而且很好地泛化到规划和组合问题，如TSP和3SAT，尽管在这些领域没有明确训练。在基于语音的交互中，模型能够在30秒的剪辑中生成一致且自然的输出，保持与输入内容的一致性并最小化延迟，这对交互式系统和人机界面至关重要。

2025-05-03 14:58:04 870

原创臭皮匠与诸葛亮4：“盲猜”训练法

Test-Time Scaling，TTS是一种在推理过程中利用额外计算资源来提升大语言模型（LLMs）性能重要方法。TTS在模型测试/推理阶段，采用灵活的策略来优化模型的推理效果或效率的方法。

2025-05-02 12:12:56 677

原创臭皮匠与诸葛亮3：不用标注也可以训练大模型？

TAO 是一个强大的调优方法，在多个任务上都表现出色。想成功应用 TAO，需要几千条任务输入示例（可来源于部署的 AI 应用，或人工/合成生成）和可靠的评分方法。

2025-05-02 12:10:54 556

原创臭皮匠与诸葛亮2：1B参数的语言模型能超越405B模型吗？

Test-Time Scaling，TTS是一种在推理过程中利用额外计算资源来提升大语言模型（LLMs）性能重要方法。TTS在模型测试/推理阶段，采用灵活的策略来优化模型的推理效果或效率的方法。

2025-05-01 09:25:47 925

原创臭皮匠与诸葛亮1：覆盖率与正确率的博弈

将语言模型不断地扩大规模是可以提高它们的能力。而日常运用的时候，通常将推理限制在一次。要是对于同一个问题进行多次反复的采样生成，那么是否能够覆盖正确的答案？是否能够被准确的捞出？

2025-05-01 09:23:06 562

原创 NVIDIA AI发布Describe Anything 3B

NVIDIA推出了Describe Anything 3B（DAM-3B），一款多模态大语言模型，旨在提供详细的图像和视频本地化描述。配备DAM-3B-Video，该系统接受通过点、涂鸦或掩码指定区域输入，并生成具有上下文基础的描述性文本。

2025-04-30 09:03:22 702

原创 Polars: 新一代高性能数据处理库

Polars的新兴数据处理库正迅速崛起，吸引了众多数据科学家和分析师的关注。本文将深入探讨Polars的背景、技术原理、突出优势以及与现有数据处理库的对比分析，帮助读者全面了解这一强大工具的价值。

2025-04-30 08:57:21 721

原创靴子落地：Qwen3

Qwen 3已经凌晨正式发布，Qwen 3系列模型参数范围从0.6B到235B不等，提供了前所未有的灵活性和卓越性能。与前代产品不同，这次发布提供了一系列针对不同需求量身定制的模型。

2025-04-29 09:01:47 340

原创学而不倦：LLM书籍系列

大型语言模型（LLM）的普及，越来越多的人对AI与LLM工程感兴趣，尤其是从模型设计到实际部署。应各位读者的要求，后续将陆续推荐一些英文书籍，这些书籍系统讲解AI与LLM工程知识，更以实际项目经验为依托，帮助读者从零构建可落地的AI系统。

2025-04-29 08:24:33 1021

原创 Metaflow：全栈式的数据科学框架

Metaflow最初由Netflix开发，现在由Outerbounds支持，旨在提高研究和工程团队在各种项目上的生产力，从传统统计到最先进的深度学习和基础模型。Metaflow确保了实际AI和ML系统的无缝端到端管理。

2025-04-29 08:22:25 608

原创是时候，纵览时空大模型

Spatio-temporal，随着基础模型(FM)和大型语言模型(LLM)的出现，时空基础模型(STFM)通过整合感知、优化和推理能力来增强时空数据挖掘，提供了新的可能性。

2025-04-28 08:36:31 992

原创 BitNet：划时代的1-bit大模型

微软最近发布的模型BitNet b1.58 2B4T代表对模型效率的极致追求。BitNet架构旨在使用极低位权重运行，将量化技术推向了高潮。先来温习一些背景知识。

2025-04-28 08:30:53 1034

原创利用语料来透析（“哲学思考”） “数字孪生” 上

数据交易包不包括交付，其实仁者见仁，不同的见解演化出不同路径。目前大致分软流通和硬流通两种模式。软流通涉及数据凭证，数据合规，数据安全以及数据资产入表等，硬流通涉及具体流通技术，隐私计算区块链乃至缘于欧洲数据空间技术的“变种”数据空间技术。

2024-10-07 12:48:24 947

原创 WordLlama：在消费级GPU上奔跑的“瘦子”

WordLlama一个开源、快速、轻量级（16MB） NLP 工具包，用于相似性和针对 CPU优化任务。它是一种用于NLP和单词嵌入的实用程序，它类似于GloVe、Word2Vec或FastText。它首先从最先进的LLaMA3中提取。

2024-09-20 08:30:39 617

原创 Apple发布iPhone16和Apple Intelligence

Apple宣布iPhone 16将成为第一款专为生成式人工智能打造的机型，它将允许用户使用自然语言提示创建文本和图像。

2024-09-10 08:44:44 775

原创突发：Runway删库跑路，备受瞩目的Stable Diffusion v1.5不见了！

“这是一个神奇的世界，留给人类的是千变万化的瞬间。”正如电影里台词阐述的那样， Runway旗下的视频编辑工具Gen-2展现了AI将文本转化为视频世界的魔力与神奇，只需要输入短短几个词语或者一句话的描绘，就能生成想要的视频画面。

2024-09-01 09:54:28 2206

原创优雅谈大模型：白话ZeRO 下

若模型足够小，单个GPU能够搞定，则可以使用数据并行将其扩展到多个节点。随着模型大小的增加，可能需要张量并行才能将模型分布到单个节点内的多个 GPU 上。如果模型变得更大，可以在同一节点内应用张量并行，而在不同节点之间使用管道并行。

2024-09-01 09:52:42 955

原创 Jamba前生今世：1.5开源来袭

近日AI21 Labs发布Jamba 1.5系列开放模型，包括Jamba 1.5 Mini和Jamba 1.5 Large，这些模型建立在新颖的SSM-Transformer架构之上，某种意义上也算是AI技术的突破。

2024-08-24 08:57:12 1139

原创 AI架构系列：去其形而留其意

最近很多的咨询都在问我相同的问题，如何将LLM集成到垂直领域的业务场景。这里提到的场景当然这些场景不再是生成式应用，而是较为专业的领域。我翻了一篇三月份的论文，以这篇论文来回答读者的问题。其实就是要将LLM去其形，而留其意。

2024-08-19 20:50:52 874

原创 ViT篇外：NVIDIA Llama-3.1-Minitron 4B

LLMs例如Llama 3.1 405B和NVIDIA Nemotron-4 340B在许多具有挑战性的任务中表现出色，包括编码、推理和数学。但是部署它们需要大量资源。开发小型且高效的语言模型成为热门，毕竟好用且部署成本要低很多。

2024-08-19 20:47:54 1218

原创 Grok 2携AI图片生成重生

埃隆·马斯克（Elon Musk）的人工智能初创公司xAI推出其最新的AI助手Grok 2的测试版，添加了类似于OpenAI的DALL-E和Google的Gemini的图像生成工具，但对可以生成的图像类型的限制显然较少。

2024-08-17 08:31:33 682

原创 TorchChat：Ollama的潜在对手

昨天介绍的PyTorch最近发布TorchChat。TorchChat允许在本地台式机、笔记本电脑或移动设备上下载和运行大型语言模型。会不会让你想到什么，没错就是Ollama。

2024-08-17 08:27:38 1213

原创优雅谈大模型：Python编程篇

Python在机器学习领域的地位十分关键，虽然后面有Julia，Mojo等其他对手的挑战，Python拥有庞大的机器学习库和框架，尤其是生态系统。当然它和Java，Scala，Go，Rust等编程语言对比，在工程化方面还是稍欠火候。

2024-08-17 08:24:55 1016

原创泡沫还是机遇？复盘18个月的AI装备竞赛

最近是科技财报季，所有的人都会有提问：什么时候会有人开始从人工智能中赚钱？人工智能历史发展曲线经历了多次的沉浮。

2024-08-17 07:46:53 424

原创三个臭皮匠与一个诸葛亮：覆盖率与正确率的博弈

将语言模型不断地扩大规模是可以提高它们的能力。而日常运用的时候，通常将推理限制在一次。要是对于同一个问题进行多次反复的采样生成，那么是否能够覆盖正确的答案？是否能够被准确的捞出？

2024-08-17 07:45:35 1038

原创 NiFi ：1 初识这把“十年一剑”的利器

“现在AI和数据处理密不可分，80%企业可利用Apache NiFi轻松解决复杂的数据问题，快速完成场景建设。对于数据分析师或者研发人员，NiFi让其摆脱复杂的数据工程，而是将精力放在应用和分析的创新之上。NiFi的GUI令人赏心悦目！！”

2024-08-05 07:05:03 813

原创 Flux：Midjourney的新图像模型挑战者

Black Forest Labs是一家由前Stability.ai开发人员创立的AI初创公司，旨在为图像和视频创建尖端的生成式 AI 模型。这家初创公司声称，其第一个模型系列Flux.1为文本到图像的生成设定新的标准。

2024-08-04 10:59:14 1004

空空如也

空空如也