- 博客(164)
- 收藏
- 关注
原创 GRIT:让AI“指着图说话“的新思路
GRIT从本质上而言是一种改良过的强化学习,它针对输出进行了魔改,用一个生活例子来理解。想象一下,你在和朋友看一张照片,朋友问你:"这张照片里有几只猫?"普通人会怎么回答?"我看看,这里有一只白猫(用手指着左上角),那里还有一只黑猫(指着右下角),所以一共有2只猫。"
2025-05-28 21:37:29
1094
原创 Google AI发布 MedGemma:医疗文本与图像理解的开放模型套件
在 Google I/O 2025 大会上,Google 推出MedGemma,这是一套专为多模态医疗文本和图像理解设计的开放模型套件。MedGemma 基于 Gemma 3 架构构建,旨在为开发者提供一个强大的基础,用于创建需要集成分析医疗图像和文本数据的医疗应用程序。
2025-05-22 08:58:23
946
原创 PARSCALE:大语言模型的第三种扩展范式
随着人工智能技术的飞速发展,大语言模型(LLM)已成为推动机器智能向通用人工智能(AGI)迈进的核心驱动力。然而,传统的模型扩展方法正面临着前所未有的挑战:参数扩展需要巨大的存储空间,推理时扩展则带来显著的时间成本。在这一背景下,最近有研究团队提出了一种全新的扩展范式——PARSCALE(并行扩展),为大语言模型的发展开辟了第三条道路。
2025-05-22 08:56:39
986
原创 Seed1.5-VL:高效通用的视觉-语言基础模型
视觉-语言模型(VLMs)作为实现通用人工智能的关键技术,通过整合图像和文本信息,在多个领域取得进展,但仍面临三维空间理解、精确计数等挑战。字节跳动推出的Seed1.5-VL模型,结合了高效的视觉编码器和大型语言模型,在多个公开基准测试中表现优异,尤其在GUI控制和游戏任务中超越现有系统。该模型采用动态分辨率支持机制,增强了图像细节处理能力,并通过多阶段预训练和动态帧-分辨率采样策略,提升了视频和语音理解能力。Seed1.5-VL的紧凑设计在保证性能的同时降低了推理成本,展示了强大的多模态推理能力。
2025-05-14 21:35:18
872
原创 魔改离线VLLM
StreamBridge提出了一个简单有效的框架,将现有的离线Video-LLM缝升级为可处理流式视频的系统。它针对流式场景中的两大核心挑战:(1) 多轮实时理解:模型需要持续跟踪最近视频帧,同时结合历史上下文多轮交互;(2) 主动响应生成:模型应当主动监控视频流,在关键时刻生成回应,而不必等待用户明确提问。
2025-05-14 21:32:55
683
原创 旧酒装新瓶:A2A+MCP
A2A的定位是与Anthropic的 Model Context Protocol(MCP)形成互补关系:MCP主要处理代理与其工具/数据源之间的连接,而A2A则促进代理之间的通信。
2025-05-09 08:32:46
792
原创 nanoVLM:750行代码训练视觉大模型
Hugging Face近日发布了nanoVLM,仅用750行代码从零开始训练视觉语言模型(VLM)。该项目秉承了Andrej Karpathy的nanoGPT等项目的精神:优先考虑代码可读性和模块化,同时不牺牲实际应用价值。
2025-05-09 08:29:16
439
原创 NVIDIA发布Parakeet TDT 0.6B-v2:ASR新标杆
2025年5月,NVIDIA重磅发布其全新一代自动语音识别(ASR)模型 ——Parakeet TDT 0.6B-v2。该模型具备 0.6B参数,采用CC-BY-4.0商用开源许可协议,并以 实时因子(RTF)达3386 的惊人速度刷新行业纪录,标志着语音AI进入一个全新的高性能、低延迟时代。
2025-05-07 08:24:56
1088
原创 Synthetic Data Kit:LLM微调的语料提炼方案
针对特定任务微调主流LLM的最大挑战是:高质量、任务专用的数据很难获取。Meta的合成数据工具包(Synthetic Data Kit,SDK)为此提供了一个精简的开源解决方案,用于生成、筛选和格式化合成数据集—无需数据科学家参与。
2025-05-07 08:21:24
883
原创 扒一扒最近较火的MCP
封面的图片很直观的阐述了MCP,它是一种开放协议,MCP 是一个开放协议,用于标准化应用程序向大语言模型提供上下文的方式。MCP由Anthropic公司在2024年底推出,旨在解决大语言模型(LLM)与外部数据源和工具之间的集成问题。
2025-05-04 17:05:25
1069
原创 Granite 4.0 Tiny:IBM也开始卷大模型?
IBM最近推出了其即将到来的Granite 4.0语言模型家族中体积最小的成员——Granite 4.0 Tiny的预览版。这款紧凑型模型在保持高效性能的同时,也为长文本处理和指令遵循场景带来了新的可能。
2025-05-04 17:02:39
773
原创 深度思考Qwen3
这种所谓的"混合思考"模式,即在两种不同模式——"思考"和"非思考"之间切换,在"思考"模式下,Qwen3-235B能够逐步高效地分解复杂任务,非常适合数学、编程或深度分析。在思考模式下,Qwen3进行逐步、有条理的思考,非常适合微妙、复杂的问题,如编码挑战、包含详细说明的数学证明,或对复杂情况的深思熟虑。随着谷歌的Gemini-2.5-Pro和OpenAI的O3在各种基准测试中表现出色,加上"较老"的竞争者如DeepSeek R1仍然强劲,阿里巴巴的Qwen3-235B面临着艰难的挑战。
2025-05-03 15:31:53
1028
原创 推理能力:五一模型大放送
4月30日,微软推出了Phi-4推理系列,包括三个模型——Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning。在广泛的推理基准测试中,Phi-4-reasoning-plus不仅在特定领域评估中表现出色,而且很好地泛化到规划和组合问题,如TSP和3SAT,尽管在这些领域没有明确训练。在基于语音的交互中,模型能够在30秒的剪辑中生成一致且自然的输出,保持与输入内容的一致性并最小化延迟,这对交互式系统和人机界面至关重要。
2025-05-03 14:58:04
870
原创 臭皮匠与诸葛亮4:“盲猜”训练法
Test-Time Scaling,TTS是一种在推理过程中利用额外计算资源来提升大语言模型(LLMs)性能重要方法。TTS在模型测试/推理阶段,采用灵活的策略来优化模型的推理效果或效率的方法。
2025-05-02 12:12:56
677
原创 臭皮匠与诸葛亮3:不用标注也可以训练大模型?
TAO 是一个强大的调优方法,在多个任务上都表现出色。想成功应用 TAO,需要几千条任务输入示例(可来源于部署的 AI 应用,或人工/合成生成)和可靠的评分方法。
2025-05-02 12:10:54
556
原创 臭皮匠与诸葛亮2:1B参数的语言模型能超越405B模型吗?
Test-Time Scaling,TTS是一种在推理过程中利用额外计算资源来提升大语言模型(LLMs)性能重要方法。TTS在模型测试/推理阶段,采用灵活的策略来优化模型的推理效果或效率的方法。
2025-05-01 09:25:47
925
原创 臭皮匠与诸葛亮1:覆盖率与正确率的博弈
将语言模型不断地扩大规模是可以提高它们的能力。而日常运用的时候,通常将推理限制在一次。要是对于同一个问题进行多次反复的采样生成,那么是否能够覆盖正确的答案?是否能够被准确的捞出?
2025-05-01 09:23:06
562
原创 NVIDIA AI发布Describe Anything 3B
NVIDIA推出了Describe Anything 3B(DAM-3B),一款多模态大语言模型,旨在提供详细的图像和视频本地化描述。配备DAM-3B-Video,该系统接受通过点、涂鸦或掩码指定区域输入,并生成具有上下文基础的描述性文本。
2025-04-30 09:03:22
702
原创 Polars: 新一代高性能数据处理库
Polars的新兴数据处理库正迅速崛起,吸引了众多数据科学家和分析师的关注。本文将深入探讨Polars的背景、技术原理、突出优势以及与现有数据处理库的对比分析,帮助读者全面了解这一强大工具的价值。
2025-04-30 08:57:21
721
原创 靴子落地:Qwen3
Qwen 3已经凌晨正式发布,Qwen 3系列模型参数范围从0.6B到235B不等,提供了前所未有的灵活性和卓越性能。与前代产品不同,这次发布提供了一系列针对不同需求量身定制的模型。
2025-04-29 09:01:47
340
原创 学而不倦:LLM书籍系列
大型语言模型(LLM)的普及,越来越多的人对AI与LLM工程感兴趣,尤其是从模型设计到实际部署。应各位读者的要求,后续将陆续推荐一些英文书籍,这些书籍系统讲解AI与LLM工程知识,更以实际项目经验为依托,帮助读者从零构建可落地的AI系统。
2025-04-29 08:24:33
1021
原创 Metaflow:全栈式的数据科学框架
Metaflow最初由Netflix开发,现在由Outerbounds支持,旨在提高研究和工程团队在各种项目上的生产力,从传统统计到最先进的深度学习和基础模型。Metaflow确保了实际AI和ML系统的无缝端到端管理。
2025-04-29 08:22:25
608
原创 是时候,纵览时空大模型
Spatio-temporal,随着基础模型(FM)和大型语言模型(LLM)的出现,时空基础模型(STFM)通过整合感知、优化和推理能力来增强时空数据挖掘,提供了新的可能性。
2025-04-28 08:36:31
992
原创 BitNet:划时代的1-bit大模型
微软最近发布的模型BitNet b1.58 2B4T代表对模型效率的极致追求。BitNet架构旨在使用极低位权重运行,将量化技术推向了高潮。先来温习一些背景知识。
2025-04-28 08:30:53
1034
原创 利用语料来透析(“哲学思考”) “数字孪生” 上
数据交易包不包括交付,其实仁者见仁,不同的见解演化出不同路径。目前大致分软流通和硬流通两种模式。软流通涉及数据凭证,数据合规,数据安全以及数据资产入表等,硬流通涉及具体流通技术,隐私计算区块链乃至缘于欧洲数据空间技术的“变种”数据空间技术。
2024-10-07 12:48:24
947
原创 WordLlama:在消费级GPU上奔跑的“瘦子”
WordLlama一个开源、快速、轻量级 (16MB) NLP 工具包,用于相似性和针对 CPU优化任务。它是一种用于NLP和单词嵌入的实用程序,它类似于GloVe、Word2Vec或FastText。它首先从最先进的LLaMA3中提取。
2024-09-20 08:30:39
617
原创 Apple发布iPhone16和Apple Intelligence
Apple宣布iPhone 16将成为第一款专为生成式人工智能打造的机型,它将允许用户使用自然语言提示创建文本和图像。
2024-09-10 08:44:44
775
原创 突发:Runway删库跑路,备受瞩目的Stable Diffusion v1.5不见了!
“这是一个神奇的世界,留给人类的是千变万化的瞬间。”正如电影里台词阐述的那样, Runway旗下的视频编辑工具Gen-2展现了AI将文本转化为视频世界的魔力与神奇,只需要输入短短几个词语或者一句话的描绘,就能生成想要的视频画面。
2024-09-01 09:54:28
2206
原创 优雅谈大模型:白话ZeRO 下
若模型足够小,单个GPU能够搞定,则可以使用数据并行将其扩展到多个节点。随着模型大小的增加,可能需要张量并行才能将模型分布到单个节点内的多个 GPU 上。如果模型变得更大,可以在同一节点内应用张量并行,而在不同节点之间使用管道并行。
2024-09-01 09:52:42
955
原创 Jamba前生今世:1.5开源来袭
近日AI21 Labs发布Jamba 1.5系列开放模型,包括Jamba 1.5 Mini和Jamba 1.5 Large,这些模型建立在新颖的SSM-Transformer架构之上,某种意义上也算是AI技术的突破。
2024-08-24 08:57:12
1139
原创 AI架构系列:去其形而留其意
最近很多的咨询都在问我相同的问题,如何将LLM集成到垂直领域的业务场景。这里提到的场景当然这些场景不再是生成式应用,而是较为专业的领域。我翻了一篇三月份的论文,以这篇论文来回答读者的问题。其实就是要将LLM去其形,而留其意。
2024-08-19 20:50:52
874
原创 ViT篇外:NVIDIA Llama-3.1-Minitron 4B
LLMs例如Llama 3.1 405B和NVIDIA Nemotron-4 340B在许多具有挑战性的任务中表现出色,包括编码、推理和数学。但是部署它们需要大量资源。开发小型且高效的语言模型成为热门,毕竟好用且部署成本要低很多。
2024-08-19 20:47:54
1218
原创 Grok 2携AI图片生成重生
埃隆·马斯克(Elon Musk)的人工智能初创公司xAI推出其最新的AI助手Grok 2的测试版,添加了类似于OpenAI的DALL-E和Google的Gemini的图像生成工具,但对可以生成的图像类型的限制显然较少。
2024-08-17 08:31:33
682
原创 TorchChat:Ollama的潜在对手
昨天介绍的PyTorch最近发布TorchChat。TorchChat允许在本地台式机、笔记本电脑或移动设备上下载和运行大型语言模型。会不会让你想到什么,没错就是Ollama。
2024-08-17 08:27:38
1213
原创 优雅谈大模型:Python编程篇
Python在机器学习领域的地位十分关键,虽然后面有Julia,Mojo等其他对手的挑战,Python拥有庞大的机器学习库和框架,尤其是生态系统。当然它和Java,Scala,Go,Rust等编程语言对比,在工程化方面还是稍欠火候。
2024-08-17 08:24:55
1016
原创 泡沫还是机遇?复盘18个月的AI装备竞赛
最近是科技财报季,所有的人都会有提问:什么时候会有人开始从人工智能中赚钱?人工智能历史发展曲线经历了多次的沉浮。
2024-08-17 07:46:53
424
原创 三个臭皮匠与一个诸葛亮:覆盖率与正确率的博弈
将语言模型不断地扩大规模是可以提高它们的能力。而日常运用的时候,通常将推理限制在一次。要是对于同一个问题进行多次反复的采样生成,那么是否能够覆盖正确的答案?是否能够被准确的捞出?
2024-08-17 07:45:35
1038
原创 NiFi :1 初识这把“十年一剑”的利器
“现在AI和数据处理密不可分,80%企业可利用Apache NiFi轻松解决复杂的数据问题,快速完成场景建设。对于数据分析师或者研发人员,NiFi让其摆脱复杂的数据工程,而是将精力放在应用和分析的创新之上。NiFi的GUI令人赏心悦目!!”
2024-08-05 07:05:03
813
原创 Flux:Midjourney的新图像模型挑战者
Black Forest Labs是一家由前Stability.ai开发人员创立的AI初创公司,旨在为图像和视频创建尖端的生成式 AI 模型。这家初创公司声称,其第一个模型系列Flux.1为文本到图像的生成设定新的标准。
2024-08-04 10:59:14
1004
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人