- 针对不同平台对生成的模型进行转换,也就是俗称的parse、convert,即前端解释器
- 针对转化后的模型进行优化
- 在特定的平台(嵌入端或者服务端)成功运行已经转化好的模型
- 在模型可以运行的基础上,保证模型的速度、精度和稳定性
- 用C++、cuda写算子(预处理、op、后处理等等)去实现一些独特的算子
- 调bug、联合编译、动态静态库混搭
- 好用的开源推理框架:Caffe、
NCNN、MNN、TVM(移动端首选)
、OpenVino(libtorch)、libtorch、PaddlePaddle- 好用的半开源推理框架:TensorRT(GPU服务器首选)
- 好用的开源服务器框架:triton-inference-server
- 基础知识:计算机原理、编译原理等
1. 模型结构
- 使用现有的网络结构
- 模型重参化: 训练时采用多分支的网络进行训练,尽可能利用多分支结构的优势来提升模型性能,而在使用时先进行一个等价转换,将多分支网络转换为一个单路网络,然后再进行推理使用ÿ