自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(133)
  • 资源 (4)
  • 收藏
  • 关注

原创 【经验】bitsandbytes安装-LLAVA-1.5库调试

【环境配置问题摘要】在H100显卡(Ubuntu 20.04/CUDA 12.1&12.6)运行LLaVA-1.5时出现bitsandbytes库兼容性问题。错误显示系统无法找到匹配的CUDA运行时库(libcudart.so.11.0/12.0),且检测到路径冲突和非预期目录。尝试通过降级到CUDA 11.8和PyTorch 2.0.0+cu118解决,但后续出现FlashAttention的libc10.so和libcudart.so.11.0缺失问题。临时方案包括:添加LD_LIBRARY_P

2025-06-28 19:25:54 725

原创 迈向泛在智能:端侧大语言模型现状与展望

近年来,大语言模型技术在多个领域取得了突破性进展,为实现泛在智能提供了坚实的基础。然而,泛在智能要求在各种场景中实现无缝的智能体验,这对大语言模型的部署和应用提出了新的挑战。云上部署大模型时,面临实时性、安全性和个性化需求难以兼顾的问题,限制了其在不同环境中的适用性。这些挑战促使研究者探索端侧部署大语言模型的前景,以期在更接近数据源的位置实现更高效的智能服务。然而,端侧的资源限制为大语言模型的部署、推理与应用带来了严峻的挑战。本文首先探讨了这些挑战,并系统梳理了端侧大模型部署与推理应用的关键技术进展,包括模

2025-06-10 11:49:16 1050

原创 【经验】安装apex库

摘要:为在H800 GPU(计算能力9.0)上运行LLaMA2-Accessory项目,需解决PyTorch版本与CUDA兼容性问题。原环境使用CUDA 11.7和PyTorch 2.0.1(仅支持最高sm_86架构),与H800不兼容。解决方案包括:卸载旧版PyTorch,安装支持CUDA 12.1的PyTorch 2.3.0,并通过多CUDA版本共存管理切换运行环境。最终使用特定编译命令成功安装apex库,验证新环境支持H800的计算能力。整个过程涉及CUDA版本管理、PyTorch版本适配和apex库

2025-06-07 14:30:00 852 2

原创 【文献阅读】LLaVA-med: training a large language-and-vision assistant for biomedicine in one day

会话式生成式人工智能在赋能生物医学从业者方面已展现出显著潜力,但当前研究主要集中于单模态文本。多模态会话式人工智能通过利用公共网络上数十亿的图像 - 文本对取得了快速进展,但此类通用领域的视觉 - 语言模型在理解和讨论生物医学图像方面仍不够成熟。在本文中,我们提出了一种经济高效的方法来训练视觉 - 语言会话助手,该助手能够回答关于生物医学图像的开放式研究问题。关键思想是利用从 PubMed Central 提取的大规模、覆盖广泛的生物医学图注数据集,使用 GPT-4 从图注中自动生成遵循开放式指令的数据

2025-06-05 20:39:07 1053

原创 【文献阅读】SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

我们提出 SPHINX-X,这是基于 SPHINX 开发的扩展多模态大型语言模型(MLLM)系列。为改进架构和训练效率,我们对 SPHINX 框架进行修改,移除冗余视觉编码器,通过跳过标记绕过全填充子图像,并将多阶段训练简化为单阶段全集成范式。为充分释放 MLLM 的潜力,我们整合了覆盖语言、视觉和视觉 - 语言任务公开资源的综合性多领域多模态数据集。我们进一步用精心策划的 OCR 密集型和标记集(Set-of-Mark)数据集丰富该集合,扩展其多样性和通用性。通过在包括 TinyLlama1.1B

2025-06-05 16:31:41 934

原创 【文献阅读】(LLAVA-1.5)Improved Baselines with Visual Instruction Tuning

大型多模态模型(LMM)最近通过视觉指令调优展现出令人鼓舞的进展。在本文中,我们首次在 LLaVA 框架下的可控环境中系统研究了 LMM 的设计选择。我们发现,LLaVA 中全连接的视觉 - 语言连接器出人意料地强大且数据高效。通过对 LLaVA 进行简单修改,即使用带有 MLP 投影的 CLIP-ViT-L-336px 视觉编码器,并添加带有响应格式提示的学术任务导向 VQA 数据,我们建立了更强的基线,在 11 个基准测试中均达到了最先进水平。我们最终的 130 亿参数检查点仅使用 120 万公开可用数

2025-06-05 14:53:07 627

原创 【文献阅读】Minigpt-v2 large language model as a unified interface for vision-language multi-task learning

大型语言模型已展现出作为各类语言相关应用通用接口的卓越能力。受此启发,我们旨在构建一个统一接口,以完成图像描述、视觉问答和视觉接地等多项视觉语言任务。实现这一目标的挑战在于使用单一模型通过简单的多模态指令高效执行多样化的视觉语言任务。为解决这一问题,我们引入 MiniGPT-v2,该模型可作为统一接口以更好地处理各种视觉语言任务。我们提出在训练模型时为不同任务使用唯一标识符。这些标识符使我们的模型能够轻松区分每个任务指令,还能提高模型对每个任务的学习效率。经过三阶段训练,实验结果表明,与其他视觉语言通用

2025-06-05 11:59:40 655

原创 【文献阅读】Qwen2-vl: Enhancing vision-language model‘s perception of the world at any resolution

我们提出了 Qwen2-VL 系列,这是对先前 Qwen-VL 模型的高级升级,重新定义了视觉处理中传统的预定分辨率方法。Qwen2-VL 引入了原生动态分辨率机制,使模型能够将不同分辨率的图像动态处理为不同数量的视觉标记。这种方法使模型能够生成更高效、准确的视觉表示,紧密贴合人类感知过程。模型还集成了多模态旋转位置嵌入(M-RoPE),促进文本、图像和视频的位置信息有效融合。我们采用统一范式处理图像和视频,增强了模型的视觉感知能力。为探索大型多模态模型的潜力,Qwen2-VL 研究了大型视觉语言模

2025-06-04 19:00:43 583

原创 【文献阅读】LLaVA-Surg: towards multimodal surgical assistant via structured surgical video learning

多模态大型语言模型(LLMs)在各个领域取得了显著成功,但医学领域的研究主要集中在单模态图像上。与此同时,当前用于视频的通用领域多模态模型仍然缺乏理解手术视频并进行对话的能力。一个主要原因是手术领域缺乏相关数据集。在本文中,我们创建了一个新的数据集 Surg-QA,由 102,000 个手术视频 - 指令对组成,是迄今为止同类数据集中最大的。为了构建该数据集,我们提出了一种新颖的两阶段问答生成管道,利用 LLM 从公开的手术讲座视频中以结构化方式学习手术知识。该管道将生成过程分解为两个阶段,显著降低

2025-06-04 13:29:46 686

原创 【文献阅读】Biomedgpt: A unified and generalist biomedical generative pre-trained transformer for

传统生物医学人工智能(AI)模型专为特定任务或模态设计,在实际部署中灵活性有限,且难以利用整体信息。通用 AI 因其在解释不同数据类型和为多样化需求生成定制输出方面的多功能性,有望解决这些局限性。然而,现有的生物医学通用 AI 解决方案通常对研究人员、从业者和患者来说是重量级且闭源的。在此,我们提出 BiomedGPT,这是首个开源且轻量级的视觉 - 语言基础模型,设计为能够执行各种生物医学任务的通用模型。BiomedGPT 在 25 项实验中的 16 项中取得了最先进的结果,同时保持了计算友好的模

2025-06-03 21:11:46 1267

原创 【文献阅读】SPHINX: A Mixer of Weights, Visual Embeddings and Image Scales for Multi-modal Large Language

我们提出了SPHINX,这是一种通用多模态大型语言模型(MLLM),实现了模型权重、视觉嵌入和图像尺度的联合混合。首先,为了增强视觉-语言对齐,我们在预训练期间解冻大型语言模型(LLM),并引入了由真实世界和合成数据训练的LLM之间的权重混合策略。通过直接集成来自两个领域的权重,混合后的LLM可以高效融合多样化语义并具备良好的鲁棒性。其次,我们建议从各种网络架构、预训练范式和信息粒度中提取全面的视觉嵌入,为语言模型提供更鲁棒的图像表示。我们进一步提出一种有效策略,旨在更好地捕捉高分辨率图像的细粒度外

2025-06-02 21:52:50 1074

原创 【文献阅读】Learning Transferable Visual Models From Natural Language Supervision

最先进的计算机视觉系统经过训练,可预测一组固定的预先确定的对象类别。这种受限的监督形式限制了它们的通用性和可用性,因为指定任何其他视觉概念都需要额外的标记数据。直接从关于图像的原始文本中学习是一种很有前途的替代方法,它利用了更广泛的监督来源。我们证明,预测哪个标题与哪个图像匹配这一简单的预训练任务,是一种从互联网收集的 4 亿(图像,文本)对数据集上从头开始学习最先进图像表示的有效且可扩展的方法。预训练后,自然语言用于引用已学习的视觉概念(或描述新概念),使模型能够零样本迁移到下游任务。我们研究了

2025-06-02 16:45:51 1190

原创 【文献阅读】Surgical-VQA: Visual Question Answering in Surgical Scenes using Transformer

手术中的视觉问答(VQA)研究目前仍处于起步阶段。专业外科医生资源稀缺,且常被临床和学术工作压身,这使得他们难以及时回答患者、医学生或低年住院医师关于手术流程的疑问。有时,学生和低年住院医师为避免打断课堂,也会克制提问。尽管已有计算机辅助模拟器和过往手术录像供他们观察和提升技能,但答疑仍高度依赖医学专家。若能有一个可靠的 “Surgical-VQA 系统” 作为 “第二意见”,既能为专家分担答疑压力,又能为学习者提供支持。然而,标注医疗数据的匮乏和领域特定术语的存在,限制了手术流程 VQA 的研究进展。在此

2025-05-31 19:08:31 934

原创 SmolVLM2: The Smollest Video Model Ever(七)

表示你调用 OpenAI API 时达到了组织(organization)的请求速率限制(RPM,Requests Per Minute,每分钟请求数)。的请求速率达到了上限(最大 RPM 为 3),需要等待 1 秒钟后再尝试。成本上来讲,kimi应该是更便宜一些,还免费送了15块钱。解决:在调用的时候加一个计时器去限制一下。错误信息中明确指出你的账号所在组织。总的来说,kimi输出的起码。# 保存模型到本地指定目录。

2025-05-29 16:06:39 942

原创 【文献阅读】Hierarchical Reinforcement Learning: A ComprehensiveSurvey

分层强化学习(HRL)能够将具有挑战性的长时决策任务自主分解为更简单的子任务。在过去几年里,HRL 研究领域取得了显著发展,产生了大量方法。为了系统地研究 HRL,全面概述这一广阔领域十分必要。我们对各种 HRL 方法进行综述,涉及学习分层策略、子任务发现、迁移学习以及使用 HRL 的多智能体学习等方面的挑战。本文根据一种新颖的方法分类法进行综述,并基于此提出一系列重要的开放性问题,以推动 HRL 未来的研究。此外,我们在补充材料中概述了一些评估 HRL 方法的合适任务领域,以及 HRL 在实际应用中的

2025-05-29 16:01:09 903

原创 【文献阅读】V2-SfMLearner: Learning Monocular Depth and Ego-motion for Multimodal Wireless Capsule Endosco

深度学习可从胶囊内镜视频中预测深度图和胶囊自运动,辅助三维场景重建和病变定位。然而,胶囊内镜在胃肠道内的碰撞会导致训练数据中存在振动干扰。现有解决方案仅关注基于视觉的处理,忽略了振动等辅助信号,这些信号可减少噪声并提高性能。因此,我们提出 V²-SfMLearner,一种将振动信号集成到基于视觉的深度和胶囊运动估计中的多模态方法,适用于单目胶囊内镜。我们构建了包含振动和视觉信号的多模态胶囊内镜数据集,并且我们的人工智能解决方案开发了一种使用视觉 - 振动信号的无监督方法,通过多模态学习有效消除振动干

2025-05-27 20:22:01 921

原创 【文献阅读】EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery

近年来,多模态大语言模型(MLLMs)在计算机辅助诊断和决策中展现出巨大潜力。在机器人辅助手术领域,MLLMs 可作为手术培训和指导的有效工具。然而,临床应用中仍缺乏专门用于手术场景理解的 MLLMs。本文引入 EndoChat,以解决外科医生在手术场景理解中遇到的各种对话范式和子任务。为训练 EndoChat,我们通过一种新型流程构建了 Surg-396K 数据集,该流程基于收集的大规模内窥镜手术数据集,系统提取手术信息并生成结构化注释。此外,我们引入多尺度视觉令牌交互机制和基于视觉对比的推理机制

2025-05-27 11:11:05 811

原创 【文献阅读】Mixture of Lookup Experts

专家混合模型(MoE)在推理过程中仅激活部分专家,使得模型即使在参数规模扩大时仍能保持较低的推理 FLOPs 和延迟。然而,由于 MoE 动态选择专家,所有专家均需加载到 VRAM 中。其庞大的参数规模仍限制了部署,而仅在需要时将专家加载到 VRAM 的卸载策略会显著增加推理延迟。为解决这一问题,我们提出 Lookup 专家混合模型(MoLE),这是一种在通信和 VRAM 使用方面均高效的新型 MoE 架构。在 MoLE 中,专家在训练期间为前馈网络(FFNs),以嵌入层的输出作为输入。推理前,这些专家可重

2025-05-26 22:07:11 797

原创 【文献阅读】Depth Anything Unleashing the Power of Large-Scale Unlabeled Data

本文提出了 Depth Anything [1],这是一种高度实用的稳健单目深度估计解决方案。我们的目标不是追求新颖的技术模块,而是构建一个简单而强大的基础模型,能够在任何情况下处理任何图像。为此,我们通过设计一个数据引擎来收集和自动标注大规模无标签数据(约 6200 万),从而扩大数据集规模,显著扩大了数据覆盖范围,进而能够降低泛化误差。我们研究了两种简单而有效的策略,使数据规模扩大具有前景。第一,利用数据增强工具创建一个更具挑战性的优化目标,这迫使模型积极寻找额外的视觉知识并获得稳健的表征。

2025-05-08 16:39:23 737

原创 SmolVLM2: The Smollest Video Model Ever(六)

继续微调数据集问题代码中使用的数据集是示例idimagesvideo link600047611331100254611311200050522231本地数据集解析与对应关系在本地文件中:这里的test-xxx.parquet里面封装的就是数据集的prompt还有一些文本信息,不过是以二进制形式存储的,所以直接打开看不懂。对应着frames_real_test里面的80个文件夹。

2025-04-27 14:12:27 964

原创 【腹腔镜数据集】Cholec80+CholecSeg8k2020+Endoscapes2024

计算机辅助手术的发展旨在提高手术的正确性和安全性。然而,研究人员和工程师却面临着开发和训练更好算法所需的注释数据有限的问题。因此,同步定位与建图(SLAM)等基础算法的发展受到限制。基于Cholec80数据集,从Cholec80中的17个视频片段中提取了8,080个腹腔镜胆囊切除术图像帧,对图像进行注释并向公众发布。该数据集名为 CholecSeg8K。这些图像中的每一个都以十三个类别的像素级注释,这些类别通常在腹腔镜胆囊切除术中发现。

2025-04-24 11:39:07 739

原创 【文献阅读】General surgery vision transformer: A video pre-trained foundation model ...【GenSurgery数据集】

缺乏公开可用的数据和专门的基础模型是外科计算研究的主要障碍。为此,(i)我们开源了迄今为止最大的普通外科手术视频数据集,该数据集包含680小时的手术视频,涵盖28种手术的机器人和腹腔镜技术数据;(ii)我们提出了一种基于前向视频预测在手术视频上对普通外科视觉Transformer(GSViT)进行视频预训练的技术,该技术可用于实时手术应用,我们还开源了GSViT的代码和权重;(iii)我们还发布了针对10种手术的GSViT特定手术微调版本的代码和权重;(iv)我们在Cholec80阶段注释任务中展示了GSV

2025-04-24 11:30:00 849

原创 【文献阅读】VidLPRO: A Video-Language Pre-training Framework for Robotic and Laparoscopic...【GenSurg+数据集】

它使模型能够学习丰富且可泛化的表示,这些表示可以通过最小的微调适应各种下游任务,如图像 - 文本检索 [18, 19, 20]、视觉问答 [21, 22, 23, 24, 25]、视频理解 [26, 27, 28, 29, 30] 和零样本分类 [31, 32]。这是预期的,因为更多的帧提供了手术过程更丰富的表示,从而允许更精确的相位识别。此外,为了预训练VidLPRO,作者引入了GenSurg+,这是通过使用生成式文本GPT-4生成的17k对配对的GenSurgery的扩展版本,基于原始叙述生成的字幕。

2025-04-24 10:30:48 600

原创 【工程开发】LLMC准确高效的LLM压缩工具(三)——AWQ算法量化

AWQ算法

2025-04-23 15:04:06 800

原创 【文献阅读】AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided Surgical..【AutoLaparo数据集】

计算机辅助微创手术在造福现代手术室方面具有巨大潜力。内窥镜传输的视频数据提供了丰富的信息,为下一代智能手术系统的情境感知提供支持。为了在手术过程中实现精确感知和自动操作,基于学习的技术是一种很有前途的方法,近年来它能够实现先进的图像分析和场景理解。然而,学习这类模型高度依赖大规模、高质量和多任务标注的数据。目前,这是该领域的一个瓶颈,因为在计算机辅助干预(CAI)领域,可用的公共数据集仍然极为有限。在本文中,我们提出并发布了首个集成数据集(名为AutoLaparo),该数据集包含多个基于图像的感知任

2025-04-22 10:58:09 927

原创 【文献阅读】Endo3R: Unified Online Reconstruction from Dynamic Monocular Endoscopic Video

从单目手术视频重建3D场景可以增强外科医生的感知,因此在各种计算机辅助手术任务中起着至关重要的作用。然而,由于内镜视频存在诸如动态变形和无纹理表面等固有问题,实现尺度一致的重建仍然是一个未解决的挑战。尽管最近取得了一些进展,但目前的方法要么依赖校准或器械先验来估计尺度,要么采用类似结构从运动(Structure-from-Motion,SfM)的多阶段流程,这会导致误差积累并且需要离线优化。在本文中,我们提出了Endo3R,这是一个统一的3D基础模型,用于从单目手术视频进行在线尺度一致的重建,无需任何先

2025-04-21 15:04:19 616

原创 SmolVLM2: The Smollest Video Model Ever(五)

继续学习SmolLM模型概述SmolLM 是一系列小型语言模型,有三种规模:参数数量分别为 1.35 亿、3.6 亿和 17 亿。这些模型在 SmolLM 语料库上进行训练,该语料库是经过精心整理的高质量教育及合成数据集合,专为训练大语言模型而设计。更多详细信息,请参阅我们的博客文章。为构建 SmolLM-Instruct,我们在公开可用的数据集上对基础模型进行了微调。变更日志版本发布描述v0.1SmolLM-Instruct 的首次发布。

2025-04-20 22:05:30 829

原创 【文献阅读】EndoNet A Deep Architecture for Recognition Tasks on Laparoscopic Videos (Cholec80数据集)

手术流程识别在医学领域有诸多潜在应用,如手术视频数据库的自动索引以及实时手术室排班的优化等。因此,手术阶段识别已在多种手术场景下展开研究,包括白内障手术、神经外科手术和腹腔镜手术。在相关文献中,执行该任务通常使用两种类型的特征:视觉特征和工具使用信号。然而,所使用的视觉特征大多是手工制作的。此外,工具使用信号通常通过手动标注过程或使用额外设备收集。在本文中,我们提出了一种用于阶段识别的新方法,该方法利用卷积神经网络(CNN)从胆囊切除术视频中自动学习特征,并且仅依赖视觉信息。在先前的研究中,已经表明工具使用

2025-04-20 21:58:14 1192

原创 【工程开发】LLMC准确高效的LLM压缩工具(二)

确保数据集路径正确,若使用本地文件请检查压缩格式是否为zstd并确认文件完整性。可以看到已有的模型里作者实现了smollm,但是v2版本的太新了,没来得及实现。需要安装支持Zstandard(zstd)压缩的依赖库。:配置文件中的参数维度会与权重文件的张量形状严格匹配,确保参数正确加载。是Python中处理zstd压缩的官方库,安装后会自动被。)中的参数名会与代码定义的层名自动对齐,实现权重加载。

2025-04-15 14:38:39 788

原创 SmolVLM2: The Smollest Video Model Ever(四)

为了确定最有效的生成风格,我们通过训练 1.8B 模型进行了对比实验,其中我们使用不同的 Cosmopedia v1 子集数据,共计有 80 亿 token 的数据量。SmolLM-1.7B 还在 Python 编程能力上表现抢眼 (我们测评的 Qwen2-1.5B 分数和 Qwen 团队给出的不同,我们的实验配置是: temperature 设为 0.2,top-p 设为 0.95,样本量为 20)。我们发现,在针对中学生受众的生成数据上训练,模型在除了 MMLU 的各项指标上取得了最好的分数。

2025-04-15 11:54:29 894

原创 【工程开发】LLMC准确高效的LLM压缩工具(一)

大语言模型(LLMs)的最新进展凭借其卓越的涌现能力和推理能力,正推动我们迈向通用人工智能。然而,大量的计算和内存需求限制了它们的广泛应用。量化作为一种关键的压缩技术,虽可能对准确性构成潜在风险,但能够通过压缩和加速大语言模型,有效缓解这些需求。众多研究致力于将量化带来的准确性损失降至最低。然而,它们的量化配置各不相同,无法进行公平比较。在本文中,我们提出了LLMC,这是一个即插即用的压缩工具包,用于公平且系统地探究量化的影响。LLMC集成了数十种算法、模型和硬件,提供了从整数到浮点量化、从大语言模

2025-04-13 19:59:24 976

原创 【经验】FlashAttention is only supported on CUDA 11.6 and above. Note: make sure nvcc has a supported ve

FlashAttention is only supported on CUDA 11.6 and above. Note: make sure nvcc has a supported version by running nvcc -V.

2025-04-12 22:14:05 446

原创 SmolVLM2: The Smollest Video Model Ever(三)

虽然大语言模型在人工智能的许多应用中取得了突破,但其固有的大规模特性使得它们在计算上成本高昂,并且在资源受限的环境中部署具有挑战性。在本文中,我们记录了SmolLM2的开发过程,这是一种最先进的 “小型”(17亿参数)语言模型(LM)。为了获得强大的性能,我们使用多阶段训练过程,在约11万亿个词元的数据上对SmolLM2进行过度训练,该过程将网页文本与专业的数学、代码和指令跟随数据混合在一起。此外,在我们发现现有数据集存在规模过小或质量较低的问题时,我们引入了新的专业数据集(FineMath、Stack

2025-04-10 22:08:07 872

原创 SmolVLM2: The Smollest Video Model Ever(二)

大型视觉语言模型(VLMs)性能卓越,但需要大量计算资源,这限制了它们在移动和边缘设备上的部署。较小的视觉语言模型通常沿用大型模型的设计选择,比如广泛的图像标记化,这导致GPU内存使用效率低下,并且在设备上应用的实用性受到限制。我们推出SmolVLM,这是一系列专为资源高效推理而设计的紧凑型多模态模型。我们系统地探索了针对低计算开销优化的架构配置、标记化策略和数据整理方法。通过这些探索,我们确定了关键的设计选择,这些选择能在最小的内存占用下显著提升图像和视频任务的性能。

2025-04-10 20:32:30 1037

原创 【文献阅读】Capabilities of Gemini Models in Medicine

在众多医疗应用中实现卓越表现对人工智能来说是巨大挑战,这需要先进的推理能力、获取最新医学知识的途径,以及对复杂多模态数据的理解。Gemini模型在多模态和长上下文推理方面具备强大的通用能力,为医学领域带来了令人期待的可能性。基于Gemini 1.0和Gemini 1.5的这些核心优势,我们推出了Med - Gemini,这是一系列功能强大的多模态模型,专门针对医学领域进行了优化,能够无缝整合网络搜索功能,并且可以通过定制编码器高效地适配新的模态。

2025-04-09 21:17:14 662

原创 SmolVLM2: The Smollest Video Model Ever(一)

对于短上下文数据集,我们精简了原始 SmolLM2 的预训练混合数据,使其包含 20% 的 FineWeb-Edu、20% 的 DCLM,以及 20% 我们即将发布的数学数据集。商品包括 1 套前后刹车线(单价 100 美元,总价 100 美元)、2 套新踏板臂(单价 15 美元,总价 30 美元)、3 小时人工(单价 5 美元,总价 15 美元), subtotal 为 145 美元,销售税 6.25% 即 9.06 美元,总计 154.06 美元。这对于我们的像素重排策略的正常运行至关重要。

2025-04-09 11:43:59 1258

原创 【文献阅读】NVILA: Efficient Frontier Visual Language Models

发表于2025年3月6日英伟达团队近年来,视觉语言模型(VLMs)在准确性方面取得了显著进展。然而,其效率却较少受到关注。本文介绍了NVILA,这是一系列旨在优化效率和准确性的开源视觉语言模型。在VILA的基础上,我们通过先提高空间和时间分辨率,然后压缩视觉令牌来改进其模型架构。这种 “先缩放后压缩” 的方法使NVILA能够高效处理高分辨率图像和长视频。我们还进行了系统研究,以在NVILA从训练到部署的整个生命周期中提高其效率。在广泛的图像和视频基准测试中,NVILA的准确性与许多领先的开源和专有视觉语言模

2025-04-08 10:31:50 728

原创 【文献阅读】Key, Value, Compress: A Systematic Exploration of KV Cache Compression Techniques

大语言模型(LLMs)在生成文本、图像和视频内容方面展现出卓越的能力。然而,随着上下文长度的增加,注意力机制的计算成本会随着令牌数量的增加而呈二次方增长,这带来了显著的效率挑战。本文对各种键值(KV)缓存压缩策略进行了分析,提供了一个全面的分类体系,根据其基本原理和实现技术对这些方法进行分类。此外,我们评估了它们对性能和推理延迟的影响,深入了解了它们的有效性。我们的研究结果突出了KV缓存压缩所涉及的权衡,以及它对处理长上下文场景的影响,为更高效的大语言模型实现铺平了道路。近年来,大语言模型

2025-04-02 21:45:22 629

原创 【工程开发】Qwen2.5-VL-32B-Instruct 微调(三)

【测试一下性能】

2025-04-02 20:15:16 656 1

原创 【工程开发】Qwen2.5-VL-32B-Instruct 微调(二)

【文献阅读】Qwen2.5-VL Technical Report 我们介绍Qwen2.5-VL,这是通义千问视觉语言系列的最新旗舰模型,它在基础能力和创新功能方面都取得了显著进展。Qwen2.5-VL通过增强视觉识别、精确物体定位、强大的文档解析和长视频理解能力,在理解世界和与世界交互方面实现了重大飞跃。Qwen2.5-VL的一个突出特点是它能够使用边界框或点精确地定位物体。它可以从发票、表单和表格中可靠地提取结构化数据

2025-04-02 16:21:28 1505

gkd人工智能学院图像处理期末考试复习试卷

gkd人工智能学院图像处理期末考试2020试卷回顾文档; 其他的一些复习文档,如计算机学院的,还有一些整理的资料;

2020-12-16

gkd计算机学院算法设计与分析刘老师课后习题+答案完整版2020

gkd 计算机学院 算法设计与分析刘老师课后习题+答案 第一章到第十一章 刘老师、陈老师、马老师课后习题基本一致

2020-12-31

1 第一讲 2021-AI-Index-Report_Master 等.zip

介绍了人工智能行业当前的一些发展现状等,涉及了较多统计数据。

2021-04-16

python机器学习基本算法pdf讲解

1.1微积分与概率论 2.1.1参数估计的评价准则 3.凸优化基础 4.1广义线性回归和对偶优化 6.最大熵模型 7....

2018-08-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除