自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(164)
  • 收藏
  • 关注

原创 GRIT:让AI“指着图说话“的新思路

GRIT从本质上而言是一种改良过的强化学习,它针对输出进行了魔改,用一个生活例子来理解。想象一下,你在和朋友看一张照片,朋友问你:"这张照片里有几只猫?"普通人会怎么回答?"我看看,这里有一只白猫(用手指着左上角),那里还有一只黑猫(指着右下角),所以一共有2只猫。"

2025-05-28 21:37:29 1094

原创 AI的“空间盲症“

Meta FAIR和香港中文大学的研究团队最近发布的Multi-SpatialMLLM项目,正在试图解决这个根本性问题。

2025-05-28 21:35:36 802

原创 Google AI发布 MedGemma:医疗文本与图像理解的开放模型套件

在 Google I/O 2025 大会上,Google 推出MedGemma,这是一套专为多模态医疗文本和图像理解设计的开放模型套件。MedGemma 基于 Gemma 3 架构构建,旨在为开发者提供一个强大的基础,用于创建需要集成分析医疗图像和文本数据的医疗应用程序。

2025-05-22 08:58:23 946

原创 PARSCALE:大语言模型的第三种扩展范式

随着人工智能技术的飞速发展,大语言模型(LLM)已成为推动机器智能向通用人工智能(AGI)迈进的核心驱动力。然而,传统的模型扩展方法正面临着前所未有的挑战:参数扩展需要巨大的存储空间,推理时扩展则带来显著的时间成本。在这一背景下,最近有研究团队提出了一种全新的扩展范式——PARSCALE(并行扩展),为大语言模型的发展开辟了第三条道路。

2025-05-22 08:56:39 986

原创 Seed1.5-VL:高效通用的视觉-语言基础模型

视觉-语言模型(VLMs)作为实现通用人工智能的关键技术,通过整合图像和文本信息,在多个领域取得进展,但仍面临三维空间理解、精确计数等挑战。字节跳动推出的Seed1.5-VL模型,结合了高效的视觉编码器和大型语言模型,在多个公开基准测试中表现优异,尤其在GUI控制和游戏任务中超越现有系统。该模型采用动态分辨率支持机制,增强了图像细节处理能力,并通过多阶段预训练和动态帧-分辨率采样策略,提升了视频和语音理解能力。Seed1.5-VL的紧凑设计在保证性能的同时降低了推理成本,展示了强大的多模态推理能力。

2025-05-14 21:35:18 872

原创 魔改离线VLLM

StreamBridge提出了一个简单有效的框架,将现有的离线Video-LLM缝升级为可处理流式视频的系统。它针对流式场景中的两大核心挑战:(1) 多轮实时理解:模型需要持续跟踪最近视频帧,同时结合历史上下文多轮交互;(2) 主动响应生成:模型应当主动监控视频流,在关键时刻生成回应,而不必等待用户明确提问。

2025-05-14 21:32:55 683

原创 旧酒装新瓶:A2A+MCP

A2A的定位是与Anthropic的 Model Context Protocol(MCP)形成互补关系:MCP主要处理代理与其工具/数据源之间的连接,而A2A则促进代理之间的通信。

2025-05-09 08:32:46 792

原创 nanoVLM:750行代码训练视觉大模型

Hugging Face近日发布了nanoVLM,仅用750行代码从零开始训练视觉语言模型(VLM)。该项目秉承了Andrej Karpathy的nanoGPT等项目的精神:优先考虑代码可读性和模块化,同时不牺牲实际应用价值。

2025-05-09 08:29:16 439

原创 NVIDIA发布Parakeet TDT 0.6B-v2:ASR新标杆

2025年5月,NVIDIA重磅发布其全新一代自动语音识别(ASR)模型 ——Parakeet TDT 0.6B-v2。该模型具备 0.6B参数,采用CC-BY-4.0商用开源许可协议,并以 实时因子(RTF)达3386 的惊人速度刷新行业纪录,标志着语音AI进入一个全新的高性能、低延迟时代。

2025-05-07 08:24:56 1088

原创 Synthetic Data Kit:LLM微调的语料提炼方案

针对特定任务微调主流LLM的最大挑战是:高质量、任务专用的数据很难获取。Meta的合成数据工具包(Synthetic Data Kit,SDK)为此提供了一个精简的开源解决方案,用于生成、筛选和格式化合成数据集—无需数据科学家参与。

2025-05-07 08:21:24 883

原创 扒一扒最近较火的MCP

封面的图片很直观的阐述了MCP,它是一种开放协议,MCP 是一个开放协议,用于标准化应用程序向大语言模型提供上下文的方式。MCP由Anthropic公司在2024年底推出,旨在解决大语言模型(LLM)与外部数据源和工具之间的集成问题。

2025-05-04 17:05:25 1069

原创 Granite 4.0 Tiny:IBM也开始卷大模型?

IBM最近推出了其即将到来的Granite 4.0语言模型家族中体积最小的成员——Granite 4.0 Tiny的预览版。这款紧凑型模型在保持高效性能的同时,也为长文本处理和指令遵循场景带来了新的可能。

2025-05-04 17:02:39 773

原创 深度思考Qwen3

这种所谓的"混合思考"模式,即在两种不同模式——"思考"和"非思考"之间切换,在"思考"模式下,Qwen3-235B能够逐步高效地分解复杂任务,非常适合数学、编程或深度分析。在思考模式下,Qwen3进行逐步、有条理的思考,非常适合微妙、复杂的问题,如编码挑战、包含详细说明的数学证明,或对复杂情况的深思熟虑。随着谷歌的Gemini-2.5-Pro和OpenAI的O3在各种基准测试中表现出色,加上"较老"的竞争者如DeepSeek R1仍然强劲,阿里巴巴的Qwen3-235B面临着艰难的挑战。

2025-05-03 15:31:53 1028

原创 推理能力:五一模型大放送

4月30日,微软推出了Phi-4推理系列,包括三个模型——Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning。在广泛的推理基准测试中,Phi-4-reasoning-plus不仅在特定领域评估中表现出色,而且很好地泛化到规划和组合问题,如TSP和3SAT,尽管在这些领域没有明确训练。在基于语音的交互中,模型能够在30秒的剪辑中生成一致且自然的输出,保持与输入内容的一致性并最小化延迟,这对交互式系统和人机界面至关重要。

2025-05-03 14:58:04 870

原创 臭皮匠与诸葛亮4:“盲猜”训练法

Test-Time Scaling,TTS是一种在推理过程中利用额外计算资源来提升大语言模型(LLMs)性能重要方法。TTS在模型测试/推理阶段,采用灵活的策略来优化模型的推理效果或效率的方法。

2025-05-02 12:12:56 677

原创 臭皮匠与诸葛亮3:不用标注也可以训练大模型?

TAO 是一个强大的调优方法,在多个任务上都表现出色。想成功应用 TAO,需要几千条任务输入示例(可来源于部署的 AI 应用,或人工/合成生成)和可靠的评分方法。

2025-05-02 12:10:54 556

原创 臭皮匠与诸葛亮2:1B参数的语言模型能超越405B模型吗?

Test-Time Scaling,TTS是一种在推理过程中利用额外计算资源来提升大语言模型(LLMs)性能重要方法。TTS在模型测试/推理阶段,采用灵活的策略来优化模型的推理效果或效率的方法。

2025-05-01 09:25:47 925

原创 臭皮匠与诸葛亮1:覆盖率与正确率的博弈

将语言模型不断地扩大规模是可以提高它们的能力。​而日常运用的时候,通常将推理限制在一次。要是对于同一个问题进行多次反复的采样生成,那么是否能够覆盖正确的答案?是否能够被准确的捞出​?

2025-05-01 09:23:06 562

原创 NVIDIA AI发布Describe Anything 3B

NVIDIA推出了Describe Anything 3B(DAM-3B),一款多模态大语言模型,旨在提供详细的图像和视频本地化描述。配备DAM-3B-Video,该系统接受通过点、涂鸦或掩码指定区域输入,并生成具有上下文基础的描述性文本。

2025-04-30 09:03:22 702

原创 Polars: 新一代高性能数据处理库

Polars的新兴数据处理库正迅速崛起,吸引了众多数据科学家和分析师的关注。本文将深入探讨Polars的背景、技术原理、突出优势以及与现有数据处理库的对比分析,帮助读者全面了解这一强大工具的价值。

2025-04-30 08:57:21 721

原创 靴子落地:Qwen3

Qwen 3已经凌晨正式发布,Qwen 3系列模型参数范围从0.6B到235B不等,提供了前所未有的灵活性和卓越性能。与前代产品不同,这次发布提供了一系列针对不同需求量身定制的模型。

2025-04-29 09:01:47 340

原创 学而不倦:LLM书籍系列

大型语言模型(LLM)的普及,越来越多的人对AI与LLM工程感兴趣,尤其是从模型设计到实际部署。应各位读者的要求,后续将陆续推荐一些英文书籍,这些书籍系统讲解AI与LLM工程知识,更以实际项目经验为依托,帮助读者从零构建可落地的AI系统。

2025-04-29 08:24:33 1021

原创 Metaflow:全栈式的数据科学框架

Metaflow最初由Netflix开发,现在由Outerbounds支持,旨在提高研究和工程团队在各种项目上的生产力,从传统统计到最先进的深度学习和基础模型。Metaflow确保了实际AI和ML系统的无缝端到端管理。

2025-04-29 08:22:25 608

原创 是时候,纵览时空大模型

Spatio-temporal,随着基础模型(FM)和大型语言模型(LLM)的出现,时空基础模型(STFM)通过整合感知、优化和推理能力来增强时空数据挖掘,提供了新的可能性。

2025-04-28 08:36:31 992

原创 BitNet:划时代的1-bit大模型

微软最近发布的模型BitNet b1.58 2B4T代表对模型效率的极致追求。BitNet架构旨在使用极低位权重运行,将量化技术推向了高潮。先来温习一些背景知识。

2025-04-28 08:30:53 1034

原创 利用语料来透析(“哲学思考”) “数字孪生” 上

数据交易包不包括交付,其实仁者见仁,不同的见解演化出不同路径。目前大致分软流通和硬流通两种模式。软流通涉及数据凭证,数据合规,数据安全以及数据资产入表等,硬流通涉及具体流通技术,隐私计算区块链乃至缘于欧洲数据空间技术的“变种”数据空间技术。

2024-10-07 12:48:24 947

原创 WordLlama:在消费级GPU上奔跑的“瘦子”

WordLlama一个开源、快速、轻量级 (16MB) NLP 工具包,用于相似性和针对 CPU优化任务。它是一种用于NLP和单词嵌入的实用程序,它类似于GloVe、Word2Vec或FastText。它首先从最先进的LLaMA3中提取。

2024-09-20 08:30:39 617

原创 Apple发布iPhone16和Apple Intelligence

Apple宣布iPhone 16将成为第一款专为生成式人工智能打造的机型,它将允许用户使用自然语言提示创建文本和图像。

2024-09-10 08:44:44 775

原创 突发:Runway删库跑路,备受瞩目的Stable Diffusion v1.5不见了!

“这是一个神奇的世界,留给人类的是千变万化的瞬间。”正如电影里台词阐述的那样, Runway旗下的视频编辑工具Gen-2展现了AI将文本转化为视频世界的魔力与神奇,只需要输入短短几个词语或者一句话的描绘,就能生成想要的视频画面。

2024-09-01 09:54:28 2206

原创 优雅谈大模型:白话ZeRO 下

若模型足够小,单个GPU能够搞定,则可以使用数据并行将其扩展到多个节点。随着模型大小的增加,可能需要张量并行才能将模型分布到单个节点内的多个 GPU 上。如果模型变得更大,可以在同一节点内应用张量并行,而在不同节点之间使用管道并行。

2024-09-01 09:52:42 955

原创 Jamba前生今世:1.5开源来袭

近日AI21 Labs发布Jamba 1.5系列开放模型,包括Jamba 1.5 Mini和Jamba 1.5 Large,这些模型建立在新颖的SSM-Transformer架构之上,某种意义上也算是AI技术的突破。

2024-08-24 08:57:12 1139

原创 AI架构系列:去其形而留其意

最近很多的咨询都在问我相同的问题,如何将LLM集成到垂直领域的业务场景​。这里提到的场景当然这些场景不再是生成式​应用,而是较为专业的领域。我翻了一篇三月份的论文,以这篇论文来回答​读者的问题。其实就是要​将LLM去其形,而留其意。

2024-08-19 20:50:52 874

原创 ViT篇外:NVIDIA Llama-3.1-Minitron 4B

LLMs例如Llama 3.1 405B和NVIDIA Nemotron-4 340B在许多具有挑战性的任务中表现出色,包括编码、推理和数学。但是部署它们需要大量资源。开发小型且高效的语言模型成为热门,毕竟好用且部署成本要低很多。

2024-08-19 20:47:54 1218

原创 Grok 2携AI图片生成重生

埃隆·马斯克(Elon Musk)的人工智能初创公司xAI推出其最新的AI助手Grok 2的测试版,添加了类似于OpenAI的DALL-E和Google的Gemini的图像生成工具,但对可以生成的图像类型的限制显然较少。

2024-08-17 08:31:33 682

原创 TorchChat:Ollama的潜在对手

昨天介绍的PyTorch最近发布TorchChat。TorchChat允许在本地台式机、笔记本电脑或移动设备上下载和运行大型语言模型。会不会让你想到什么,没错就是Ollama。

2024-08-17 08:27:38 1213

原创 优雅谈大模型:Python编程篇

Python在机器学习领域的地位十分关键,虽然后面有Julia,Mojo等其他对手的挑战,Python拥有庞大的机器学习库和框架,尤其是生态系统。当然它和Java,Scala,Go,Rust等编程语言对比,在工程化方面还是稍欠火候。

2024-08-17 08:24:55 1016

原创 泡沫还是机遇?复盘18个月的AI装备竞赛

最近是科技财报季,所有的人都会有提问:什么时候会有人开始从人工智能中赚钱?人工智能历史发展曲线经历了多次的沉浮。

2024-08-17 07:46:53 424

原创 三个臭皮匠与一个诸葛亮:覆盖率与正确率的博弈

将语言模型不断地扩大规模是可以提高它们的能力。​而日常运用的时候,通常将推理限制在一次。要是对于同一个问题进行多次反复的采样生成,那么是否能够覆盖正确的答案?是否能够被准确的捞出​?

2024-08-17 07:45:35 1038

原创 NiFi :1 初识这把“十年一剑”的利器

“现在AI和数据处理密不可分,80%企业可利用Apache NiFi轻松解决复杂的数据问题,快速完成场景建设。对于数据分析师或者研发人员,NiFi让其摆脱复杂的数据工程,而是将精力放在应用和分析的创新之上。NiFi的GUI令人赏心悦目!!”

2024-08-05 07:05:03 813

原创 Flux:Midjourney的新图像模型挑战者

Black Forest Labs是一家由前Stability.ai开发人员创立的AI初创公司,旨在为图像和视频创建尖端的生成式 AI 模型。这家初创公司声称,其第一个模型系列Flux.1为文本到图像的生成设定新的标准。

2024-08-04 10:59:14 1004

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除