GELU 激活函数

本文深入探讨了GELU(高斯误差线性单元)激活函数,对比ReLU,GELU在保持性能优势的同时,引入了数据的统计特性。通过数学公式和Python实现代码,详细解析了GELU的工作原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

gelu(Gaussian error linear units,高斯误差线性单元)

论文链接:https://arxiv.org/abs/1606.08415

数学表达如下:

相比Relu:Relu将小于0的数据映射到0,将大于0的给与  等于 映射操作,虽然性能比sigmoid好,但是缺乏数据的统计特性,而Gelu则在relu的基础上加入了统计的特性。

 

python实现

import tensorflow as tf


def gelu(x):
  """Gaussian Error Linear Unit.
    x: float Tensor to perform activation.

  Returns:
    `x` with the GELU activation applied.
  """
  cdf = 0.5 * (1.0 + tf.tanh(
      (np.sqrt(2 / np.pi) * (x + 0.044715 * tf.pow(x, 3)))))
  return x * cdf

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值