OpenPPL.PPL.NN x86后端自定义算子开发指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00809/article/details/149015464

OpenPPL.PPL.NN x86后端自定义算子开发指南

概述

本文将详细介绍如何在OpenPPL.PPL.NN项目的x86后端中添加自定义算子。通过本教程，开发者可以掌握从参数定义到内核实现的全流程开发方法。我们将以LeakyReLU算子为例，演示完整的开发过程。

开发流程概览

在x86后端添加自定义算子主要分为以下四个步骤：

算子参数定义与解析（可选）：定义算子参数结构体并实现解析函数
框架层算子上下文实现：实现数据类型推断、形状推断、数据格式选择等功能
内核执行调度：实现内核调度接口
内核计算实现：编写具体的计算内核

1. 算子参数定义与解析

1.1 参数结构体定义

对于需要参数的算子，首先需要定义参数结构体。以LeakyReLU为例：

struct LeakyReLUParam {
    float alpha;  // LeakyReLU仅需要一个alpha参数
    bool operator==(const LeakyReLUParam& p) const { 
        return this->alpha == p.alpha; 
    }
};

结构体中需要：

包含算子所需的所有参数
重载==运算符，用于图优化时的参数比较

1.2 参数解析函数实现

参数解析函数负责从模型文件中读取并解析算子参数：

ppl::common::RetCode ParseLeakyReLUParam(const ::onnx::NodeProto& pb_node, void* arg, ir::Node*, ir::GraphTopo*) {
    auto param = static_cast<ppl::common::LeakyReLUParam*>(arg);
    param->alpha = utils::GetNodeAttrByKey<float>(pb_node, "alpha", 0.01);
    return ppl::common::RC_SUCCESS;
}

解析函数需要：

从ONNX节点中读取参数值
处理默认值情况
返回操作状态码

1.3 参数注册

最后需要将参数结构体和解析函数注册到系统中：

PPL_REGISTER_OP_WITH_PARAM("", "LeakyRelu", ppl::nn::common::LeakyReLUParam, ParseLeakyReLUParam);

2. 框架层算子上下文实现

2.1 算子上下文类定义

算子上下文类继承自X86OptKernel，需要实现以下关键功能：

class LeakyReluOp final : public X86OptKernel {
public:
    // 必须实现的接口
    ppl::common::RetCode Init(const OptKernelOptions& options) override;
    KernelImpl* CreateKernelImpl() const override;
    
    // 可选实现的接口
    ppl::common::RetCode SelectFormat(...) override;

private:
    std::shared_ptr<ppl::common::LeakyReLUParam> param_;  // 参数指针
};

2.2 数据类型推断

注册数据类型推断函数，决定输出张量的数据类型：

infer_type_func_ = GenericInferType;  // 使用预定义的通用推断函数

也可以自定义推断逻辑，满足特殊需求。

2.3 形状推断

注册形状推断函数，决定输出张量的形状：

infer_dims_func_ = [](InputOutputInfo* info) -> RetCode {
    return oputils::ReshapeLeakyReLU(info, nullptr);
};

2.4 数据格式选择

实现SelectFormat函数选择最优的数据格式：

RetCode LeakyReluOp::SelectFormat(...) {
    if (input_format == DATAFORMAT_N16CX) {
        selected_input_formats->at(0) = DATAFORMAT_N16CX;
        selected_output_formats->at(0) = DATAFORMAT_N16CX;
    }
    return RC_SUCCESS;
}

x86后端支持的主要数据格式：

NDARRAY（传统NCHW格式）
N16CX（通道分块格式，优化内存访问）

2.5 创建内核接口

实现CreateKernelImpl函数创建内核接口：

KernelImpl* LeakyReluOp::CreateKernelImpl() const {
    return CreateKernelImplWithParam<LeakyReluKernel>(param_.get());
}

3. 内核执行调度

3.1 内核接口类定义

内核接口类继承自X86Kernel：

class LeakyReluKernel : public X86Kernel {
public:
    void SetParam(const ppl::nn::common::LeakyReLUParam* p) { param_ = p; }
private:
    ppl::common::RetCode DoExecute(KernelExecContext*) override;
    const ppl::nn::common::LeakyReLUParam* param_ = nullptr;
};

3.2 DoExecute实现

DoExecute是内核执行的核心函数：

ppl::common::RetCode LeakyReluKernel::DoExecute(KernelExecContext* ctx) {
    // 获取输入输出张量
    auto x = ctx->GetInput<TensorImpl>(0);
    auto y = ctx->GetOutput<TensorImpl>(0);
    
    // 根据数据类型和ISA选择不同内核
    if (data_type == ppl::common::DATATYPE_FLOAT32) {
        if (MayUseISA(ppl::common::ISA_X86_AVX)) {
            return kernel::x86::leaky_relu_fp32_avx(...);
        } else if (MayUseISA(ppl::common::ISA_X86_SSE)) {
            return kernel::x86::leaky_relu_fp32_sse(...);
        }
    }
    return ppl::common::RC_UNSUPPORTED;
}

4. 内核计算实现

4.1 内核函数声明

建议按照以下规范命名内核函数：

<opname>_<data_format>_<specialization>_<data_type>_<isa_type>

例如：

ppl::common::RetCode leaky_relu_fp32_avx(...);
ppl::common::RetCode leaky_relu_fp32_sse(...);

4.2 内核优化技巧

在实现x86内核时，可以考虑以下优化方法：

SIMD指令利用：根据支持的ISA级别(AVX/SSE等)使用相应指令集
循环展开：合理展开循环减少分支预测开销
数据预取：提前预取数据到缓存
内存对齐：确保数据访问对齐内存边界
并行化：对于大尺寸数据考虑多线程并行

总结

本文详细介绍了在OpenPPL.PPL.NN项目中为x86后端添加自定义算子的完整流程。通过参数定义、框架集成、调度实现和内核优化四个步骤，开发者可以实现高性能的定制算子。实际开发中，建议参考项目中的现有算子实现，并根据具体需求进行调整优化。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考