学术菜鸟小晨
5年IT从业经验,人工智能高级算法工程师、人工智能领域新星创作者、博客专家
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Mono-InternVL 多模型大模型测评
上海人工智能实验室的代季峰教授团队最近开发了一种新型多模态大模型Mono-InternVL,该模型在多模态任务中表现卓越,显示出技术上的显著优势。Mono-InternVL通过内嵌视觉专家,优化了视觉感知与理解的集成,大幅提高了处理效率。该模型采用了增量预训练方法,有效降低了训练中的信息遗忘问题,并通过内生视觉预训练方法,增强了模型在复杂任务中的性能。在多项多模态基准测试中,Mono-InternVL展现了优于现有模型的能力,特别是在OCR、问答系统和图表解析等方面表现出色。原创 2024-11-11 17:48:24 · 250 阅读 · 0 评论 -
实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B(多模态)
VLLM 是一种高效的深度学习推理库,通过PagedAttention算法有效管理大语言模型的注意力内存,其特点包括24倍的吞吐提升和3.5倍的TGI性能,无需修改模型结构,专门设计用于加速大规模语言模型(LLM)的推理过程。它通过优化显存管理、支持大模型的批处理推理以及减少不必要的内存占用,来提高多 GPU 环境下的推理速度和效率。这使得 VLLM 非常适合需要快速、大规模推理的任务,例如在生产环境中部署大语言模型进行实时文本生成或问答等应用。原创 2024-10-09 16:29:17 · 2994 阅读 · 1 评论 -
实战千问2大模型第四天——Qwen2-VL-7B(多模态)lora微调训练和测试
微调使得模型可以根据不同用户的需求进行定制,例如在特定领域内理解特殊的视觉内容或者专业术语。原创 2024-10-08 15:38:12 · 3851 阅读 · 0 评论 -
实战千问2大模型第三天——Qwen2-VL-7B(多模态)视频检测和批处理代码测试
阿里通义千问开源新一代视觉语言模型Qwen2-VL。其中,Qwen2-VL-72B在大部分指标上都达到了最优,刷新了开源多模态模型的最好表现,甚至超过了GPT-4o和Claude 3.5 Sonnet等闭源模型。1、能读懂不同分辨率和不同长宽比的图片:Qwen2-VL在多个视觉理解基准测试中取得了全球领先的表现,其中包括但不限于考察数学推理能力的MathVista、考察文档图像理解能力的DocVQA、考察真实世界空间理解能力的RealWorldQA、考察多语言理解能力的MTVQA。原创 2024-09-11 15:02:44 · 2566 阅读 · 0 评论 -
实战千问2大模型第二天——Qwen2-VL-7B(多模态)的部署和测试
2024年 8 月 30 日,通义千问团队今天对 Qwen-VL(视觉语言、Vision Language)模型进行更新,推出 Qwen2-VL。Qwen2-VL 的一项关键架构改进是实现了与上一代模型 Qwen-VL 不同,,从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知,使模型能够处理任何清晰度或大小的图像。原创 2024-09-10 17:57:28 · 4226 阅读 · 0 评论 -
实战千问2大模型第一天——Qwen2-7B(知识问答)的部署和fastapi封装
Qwen2-7B是由阿里云通义千问团队开发的一系列大型语言模型中的一个。这个模型是基于Transformer架构的,包含自注意力和因果掩码机制,专注于处理和生成自然语言文本。Qwen2-7B是在超大规模的预训练数据上训练得到的,这些数据不仅包括中英文,还包含其他25种语言的高质量数据。这个模型不仅在语言理解和生成方面表现出色,还在编程、数学解题等多个领域显示了其先进的性能。原创 2024-09-10 11:27:31 · 1665 阅读 · 0 评论