
3D Vision-Language
文章平均质量分 96
3D Vision-Language 方向的学习摸索
Binary Oracle
个人网站链接: https://binaryoracle.github.io/ (更新首发平台,CSDN目前定期同步更新); 一名普通但十分热爱探索技术的Coder , 开源框架spring committer , golang开源网络库netpoll committer;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LASO: Language-guided Affordance Segmentation on 3D Object 论文代码解读与复现
LASO论文提出了一种语言引导的3D对象功能区域分割任务及配套数据集。该数据集基于3D-AffordanceNet构建,包含19,751个点云-问题配对,涵盖23类物体和17种功能类型。研究团队手工设计了58种物体-功能组合的870个问题,并通过GPT-4扩展增强问题多样性。数据集采用seen/unseen两种评估模式,测试模型对新组合的泛化能力。代码实现中,数据集初始化通过建立物体类别和功能类型的索引映射关系,并加载标注数据与点云信息。这项工作为语言引导的3D功能分割研究提供了标准化评估基准。原创 2025-06-17 15:16:53 · 460 阅读 · 0 评论 -
语义分割中常用的损失函数
本文介绍了语义分割任务中常用的损失函数,重点分析了Dice Loss和BCE-Dice Loss的原理、特点及实现。Dice Loss基于Dice系数,对类别不平衡不敏感,适合小目标分割;BCE-Dice Loss结合了二元交叉熵(关注逐点分类)和Dice Loss(关注区域匹配)的优势,既能提升边缘识别精度,又能缓解类别不平衡问题。文章还提供了两种损失函数的PyTorch实现代码,包括平滑项处理等细节。这两种损失函数在医学图像分割等存在严重类别不平衡的场景中表现优异。原创 2025-06-14 11:58:48 · 695 阅读 · 0 评论 -
庖丁解牛BLIP2
BLIP-2论文提出了一种高效的多模态预训练方法,通过两阶段训练策略降低计算成本。核心创新是Q-Former模块,它在冻结的视觉编码器和语言模型之间建立桥梁。第一阶段使用图像-文本对比学习、基于图像的文本生成和图文匹配三种损失训练Q-Former;第二阶段将学习到的视觉特征适配到冻结的LLM。这种方法显著减少了训练开销(比现有方法节省15倍资源),同时保持了强大的zero-shot生成和视觉推理能力。代码已开源在LAVIS项目中,为多模态研究提供了高效解决方案。原创 2025-06-01 16:34:28 · 968 阅读 · 0 评论 -
简析PointNet++
PointNet++网络概述 PointNet++是对PointNet的改进,主要解决了局部特征学习问题。网络通过层次化结构处理点云数据,包含采样层、分组层和PointNet层三个核心组件:1)采样层使用最远点采样选择中心点;2)分组层通过球查询构建局部区域;3)PointNet层对局部区域进行特征编码。这种架构能够更好地捕捉局部上下文信息,同时保持对点云无序性和几何变换的鲁棒性。网络通过递归应用这些层次化操作,逐步抽象点云特征,最终实现对点云数据的分类或分割任务。原创 2025-06-01 16:18:48 · 1095 阅读 · 0 评论 -
简析PointNet
PointNet是首个直接处理点云数据的深度学习方法。针对点云的无序性、点间关系、几何变换不变性及噪声问题,PointNet创新性地采用对称函数(max pooling)实现顺序不变性,通过T-Net网络实现几何变换鲁棒性,并结合局部与全局特征融合机制。理论证明其仅依赖关键点集,对缺失和噪声具有强鲁棒性。实验显示,即使50%点缺失,分类准确率仅下降3.7%。该架构奠定了三维深度学习的基石,为点云分类、分割等任务提供了统一解决方案。原创 2025-05-28 15:33:52 · 635 阅读 · 0 评论 -
文本引导的 3D 视觉定位综述
文本引导的 3D 视觉定位综述翻译 2025-04-22 16:14:16 · 156 阅读 · 0 评论