本次使用的是ImageNet 1000类别信息,resnet18预训练模型。记录一些一坑和知识点。
在传入图片或视频之前我们都会对其进行预处理,归纳下来为四个字母RCTN:缩放、裁剪、转 Tensor、归一化,可以使用transforms.Compose()函数打包对应四个函数进行预处理,当然这里有个小坑,transforms.Compose()只接受pillow格式的图像,不能拿opencv传入图片。然后,需要用unsqueeze(0)函数给图像增加一个张数的维度,才能传入模型。
还有一些小细节,也是小坑:
- pytorch里面应该输入RGB顺序的图片,但是图片如果拿opencv打开一定注意是BGR格式,应该转换成RGB格式在输入到pytorch中。
- 如果要在图片上写入中文文字只能用pillow写入,opencv只能写入英文。分别使用的函数为draw.text()和cv2.putText(),具体如何使用可以自行查阅。
- 在训练模型和使用模型预测时,可以使用cpu也可以使用gpu,我们知道图片都是以矩阵形式储存,tensor和numpy都是矩阵,但前者只能在GPU运行,后者只能在CPU运行。
先写到这里,后面其他小坑会继续更新。