pytorch图像分类全流程(二)

文章讲述了在使用ImageNet1000类别信息和resnet18预训练模型时的图像预处理步骤,包括RCTN(缩放、裁剪、转Tensor、归一化)以及使用transforms.Compose的注意事项。提到了OpenCV和PIL在处理图像格式上的差异,如OpenCV默认BGR格式而PyTorch需要RGB,以及在GPU和CPU上运行tensor和numpy的限制。另外,还指出在图片上添加文本的库限制和模型预测时硬件选择的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本次使用的是ImageNet 1000类别信息,resnet18预训练模型。记录一些一坑和知识点。
在传入图片或视频之前我们都会对其进行预处理,归纳下来为四个字母RCTN:缩放、裁剪、转 Tensor、归一化,可以使用transforms.Compose()函数打包对应四个函数进行预处理,当然这里有个小坑,transforms.Compose()只接受pillow格式的图像,不能拿opencv传入图片。然后,需要用unsqueeze(0)函数给图像增加一个张数的维度,才能传入模型。
还有一些小细节,也是小坑:

  1. pytorch里面应该输入RGB顺序的图片,但是图片如果拿opencv打开一定注意是BGR格式,应该转换成RGB格式在输入到pytorch中。
  2. 如果要在图片上写入中文文字只能用pillow写入,opencv只能写入英文。分别使用的函数为draw.text()和cv2.putText(),具体如何使用可以自行查阅。
  3. 在训练模型和使用模型预测时,可以使用cpu也可以使用gpu,我们知道图片都是以矩阵形式储存,tensor和numpy都是矩阵,但前者只能在GPU运行,后者只能在CPU运行。
    先写到这里,后面其他小坑会继续更新。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值