MiDaS：迈向鲁棒单目深度估计的开源之旅

最新推荐文章于 2025-05-16 15:02:56 发布

许煦津

最新推荐文章于 2025-05-16 15:02:56 发布

阅读量355

点赞数 3

本文链接：https://blog.csdn.net/gitblog_00055/article/details/138842821

版权

MiDaS：迈向鲁棒单目深度估计的开源之旅

MiDaS 项目地址: https://gitcode.com/gh_mirrors/mid/MiDaS

1. 项目介绍

MiDaS（Monocular Depth Estimation System） 是一个由Intel-isl维护的开源项目，旨在通过单一图像计算深度信息。它基于论文“Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer”(TPAMI 2022)，提出了一种结合多个数据集训练的深度学习模型，从而提升了模型在未见过的数据集上的泛化能力。MiDaS提供了多种模型配置，以适应不同场景下的性能和速度需求，包括支持嵌入式设备的轻量级版本。

2. 项目快速启动

环境准备

首先，确保安装好Anaconda，并创建一个新的环境来管理依赖项：

conda env create -f environment.yaml
conda activate midas-py310

可选地，如果你计划使用特定的模型（如Next-ViT），需额外执行以下命令：

git submodule add https://github.com/isl-org/Next-ViT midas/external/next_vit

对于OpenVINO模型，则安装相应的Python包：

pip install openvino

运行示例

将输入图片放置于input文件夹内，然后通过指定模型类型运行脚本进行预测：

python run.py --model_type dpt_beit_large_512 --input_path input --output_path output

这里的dpt_beit_large_512是模型类型之一，你可以根据需要替换为其他模型。

3. 应用案例和最佳实践

MiDaS广泛应用于无人机导航、机器人自主移动、增强现实以及3D重建等领域。最佳实践中，开发者应考虑目标平台的计算资源和对精度的需求选择合适的模型版本。例如，在资源受限的设备上，选择dpt_swin2_tiny_256可以平衡速度与准确性。

在进行实验时，调整--height参数可以探索不同的推理高度，尽管这可能影响到模型精度。使用--square选项可以强制输出方形图，适用于保持一致视觉比例的应用。

4. 典型生态项目

MiDaS不仅适用于标准桌面和服务器环境，其还被集成到移动应用(iOS/Android)中，使得实时深度感知成为可能。通过ROS1(Robot Operating System)，机器人开发者可以直接利用MiDaS进行环境感知，增强了机器人的环境理解能力。此外，项目亦支持Docker容器化部署，便于在不同硬件上快速部署和测试。

以上就是MiDaS项目的简要介绍及使用指南，通过这些步骤，开发者能够轻松接入强大的单目深度估计功能，进一步推动计算机视觉在实际项目中的应用。

MiDaS 项目地址: https://gitcode.com/gh_mirrors/mid/MiDaS

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考