)
Sigmoid 函数又称 S 型函数或 Logistic 函数是机器学习和深度学习中一种极其重要的激活函数。它的名称来源于其图像形状类似字母“S”。1. 函数定义与公式Sigmoid 函数的数学表达式为σ(x)11e−xσ(x)1e−x1其中 ee是自然对数的底数。该函数将任意实数输入 xx映射到 (0,1)(0,1) 的开区间内。2. 主要特点输出范围受限无论输入多大或多小输出始终在 0 到 1 之间。这一特性使其非常适合用于表示概率。平滑连续函数处处可导且导数可以用自身表示σ′(x)σ(x)(1−σ(x))σ′(x)σ(x)(1−σ(x))这在反向传播算法中计算梯度非常方便。单调递增随着输入增加输出也单调增加。中心对称关于点 (0,0.5)(0,0.5) 中心对称。3. 在机器学习中的应用二分类问题的输出层由于输出值在 0-1 之间Sigmoid 常被用作二分类模型如逻辑回归最后一层的激活函数输出结果可以直接解释为正类的概率。门控机制在循环神经网络RNN及其变体如 LSTM、GRU中Sigmoid 用于控制信息的流动如遗忘门、输入门决定哪些信息需要保留或丢弃。早期神经网络的隐藏层在深度学习早期Sigmoid 曾广泛用于隐藏层但后来逐渐被 ReLU 等函数取代。4. 优缺点分析优点输出范围固定便于解释为概率。函数平滑梯度计算简单。缺点梯度消失问题当输入值非常大或非常小时函数的梯度趋近于 0。在深层网络中这会导致反向传播时梯度几乎无法传递到浅层使得模型难以训练。计算成本高涉及指数运算 e−xe−x相比 ReLU 等线性分段函数计算速度较慢。输出非零中心Sigmoid 的输出始终为正这可能导致后续层输入的均值偏移影响收敛速度。5. 与其他函数的对比vs TanhTanh 也是 S 型但输出范围是 (−1,1)(−1,1)以 0 为中心通常比 Sigmoid 收敛更快但仍存在梯度消失问题。vs ReLUReLU 在正区间梯度恒为 1有效缓解了梯度消失问题且计算极快因此在现代深度神经网络的隐藏层中ReLU 及其变体如 Leaky ReLU已 largely 取代 Sigmoid。总结来说Sigmoid 函数在二分类输出层和门控机制中依然不可或缺但在深层网络的隐藏层中由于其梯度消失缺陷已不再是首选激活函数。