Redes Neuronales: perceptrón, backpropagation, funciones de activación y autoencoders

01 — La Neurona Artificial

De la biología
a las matemáticas

El punto de partida es la neurona. McCulloch y Pitts (1943) propusieron el primer modelo formal: una unidad que recibe señales, las pondera y produce una salida binaria. El perceptrón de Rosenblatt (1958) añadió pesos adaptables. Hoy la neurona artificial conserva esta estructura básica pero dentro de un marco diferenciable.

Neurona biológica

Neurona artificial

// Paso 1 — combinación lineal (pre-activación)
z = wᵀx + b = Σᵢ wᵢxᵢ + b

// Paso 2 — función de activación (no linealidad)
a = σ(z)

Perceptrón interactivo — ajusta pesos, entradas y función de activación

ENTRADAS

x₁1.50

x₂0.80

PARÁMETROS

w₁0.80

w₂-0.50

b0.30

ACTIVACIÓN

CONTRIBUCIONES wᵢxᵢ vs. SESGO b

02 — Funciones de Activación

La fuente de
la no linealidad

Sin σ no lineal, cualquier red profunda colapsa a una sola transformación afín. Trabajos clásicos como Hornik (1991) establecieron que la no linealidad--no la profundidad per se--es el ingrediente esencial para la aproximación universal.

Sigmoid — σ(z)

σ(z) = 1/(1+e⁻ᶻ) Rango: (0,1)
σ'(z) = σ(z)(1−σ(z)) max σ'= 0.25

Vanishing gradient en saturación (z≪0 o z≫0). Glorot & Bengio (2010) cuantificaron formalmente este problema.

ReLU — max(0,z)

ReLU(z) = max(0,z) Rango: [0,+∞)
ReLU'(z) = 1[z>0] (gradiente constante en activo)

ReLU se volvió central en deep learning moderno porque atenúa varios problemas de entrenamiento asociados a activaciones saturantes. Un riesgo conocido es el de neuronas muertas cuando z permanece ≤0 durante el entrenamiento.

Tanh

tanh(z) = (eᶻ−e⁻ᶻ)/(eᶻ+e⁻ᶻ) Rango: (−1,1)
tanh'(z) = 1−tanh²(z) centrado en cero

Al estar centrada en cero, tanh suele facilitar la optimización más que sigmoid en muchos contextos. Aun así, sigue siendo una activación saturante y puede sufrir vanishing gradients.

Leaky ReLU / ELU

LReLU(z) = max(αz,z), α≪1
ELU(z) = z si z>0; α(eᶻ−1) si z≤0

Corrigen neuronas muertas manteniendo gradiente pequeño α para z<0. ELU produce salidas de media cercana a cero.

Plotter — funciones y derivadas

derivadas

Vanishing gradient — propagación a través de L capas

Como intuición, el gradiente hacia capas tempranas depende de productos sucesivos de derivadas locales y matrices de pesos. En activaciones saturantes como sigmoid, esos productos pueden volverse muy pequeños al aumentar la profundidad, especialmente si la inicialización o la escala de activaciones no están bien controladas.

Capas L 6

Nota: este esquema ilustra la intuición del problema, pero en redes reales también importan la inicialización, la normalización y el espectro de las matrices de pesos. ReLU suele atenuar el vanishing gradient, no eliminarlo por completo.

03 — Arquitectura y Forward Pass

Redes de capas:
feedforward

Apilando neuronas en capas obtenemos una red profunda. La notación matricial permite calcular toda una capa en una sola multiplicación. Cada capa puede aprender representaciones progresivamente más útiles o abstractas de la anterior--de píxeles a bordes, a formas, a conceptos.

// Capa l — notación matricial (m ejemplos en paralelo)
Z^[l] = W^[l] · A^[l-1] + b^[l]
A^[l] = σ^[l](Z^[l])

W^[l] ∈ ℝ^{nˡ×nˡ⁻¹} b^[l] ∈ ℝ^nˡ A^[0] = x

Forward pass animado — valores propagándose capa a capa

Presiona para ver la propagación.

◈

Teorema de Aproximación Universal (Cybenko 1989; Hornik 1991): bajo hipótesis estándar, una red con una sola capa oculta suficientemente ancha puede aproximar cualquier función continua sobre un compacto. En la práctica, la profundidad suele aportar representaciones más eficientes y composicionales, además de ventajas expresivas bajo restricciones realistas de ancho, datos y parámetros.

04 — Funciones de Pérdida

Qué optimizamos

La pérdida cuantifica la distancia entre predicciones y valores reales. Su elección está dictada por la tarea (regresión vs. clasificación) y la distribución asumida sobre los errores.

MSE — Regresión

L=(1/m)Σ(y−ŷ)²
∂L/∂ŷ=−2(y−ŷ)/m

Maximiza la verosimilitud bajo ruido gaussiano. Sensible a outliers por penalización cuadrática.

BCE — Clasificación binaria

L=−(1/m)Σ[y·log(ŷ)+(1−y)·log(1−ŷ)]
∂L/∂ŷ=(ŷ−y)/(ŷ(1−ŷ))

Equivale a la log-verosimilitud negativa para una salida Bernoulli y está estrechamente relacionada con la divergencia KL: con la distribución objetivo fija, minimizar la entropía cruzada equivale a minimizar KL hasta una constante.

CCE + Softmax — Multiclase

L=−(1/m)ΣΣ yc·log(ŷc)
ŷc=eᶻᶜ/Σⱼeᶻʲ

Se usa típicamente junto con softmax en clasificación multiclase. Con la distribución objetivo fija, minimizar la entropía cruzada equivale a minimizar la divergencia KL salvo una constante independiente del modelo.

MAE — Robustez a outliers

L=(1/m)Σ|y−ŷ|
∂L/∂ŷ=−sign(y−ŷ)/m

Gradiente constante (no escala con el error). Corresponde a maximizar verosimilitud bajo distribución Laplace.

BCE vs MSE — superficie de pérdida interactiva

ŷ (pred)0.70

y (real)1

05 — Retropropagación

Cómo aprende
la red

Rumelhart, Hinton & Williams (1986) popularizaron el algoritmo que calcula ∂L/∂θ para todos los parámetros en tiempo O(|θ|), igual que un forward pass. La clave es la regla de la cadena aplicada en orden inverso, reutilizando cada cálculo intermedio exactamente una vez.

// Delta capa de salida L:
δ⁽ᴸ⁾ = ∇_AL ⊙ σ'(Z⁽ᴸ⁾)

// Delta capa l (propagación hacia atrás):
δ⁽ˡ⁾ = (W⁽ˡ⁺¹⁾ᵀ · δ⁽ˡ⁺¹⁾) ⊙ σ'(Z⁽ˡ⁾)

// Gradientes de parámetros:
∂L/∂W⁽ˡ⁾ = δ⁽ˡ⁾·(A⁽ˡ⁻¹⁾)ᵀ ∂L/∂b⁽ˡ⁾ = δ⁽ˡ⁾

Grafo computacional — forward (teal) → backward (rose)

Presiona para ver el flujo de gradientes.

1

Forward pass

Propagar x, almacenar Z⁽ˡ⁾ y A⁽ˡ⁾ en cada capa. Calcular L.

2

Gradiente en la salida

δ⁽ᴸ⁾ = ∇L · σ'(Z⁽ᴸ⁾). Punto de partida del backward.

3

Propagación hacia atrás

Para l = L−1,…,1: δ⁽ˡ⁾ = (W⁽ˡ⁺¹⁾ᵀ δ⁽ˡ⁺¹⁾) ⊙ σ'(Z⁽ˡ⁾).

4

Actualización

θ ← θ − η · ∇L. La complejidad total es O(2|θ|): un forward + un backward.

06 — Descenso de Gradiente

Navegando el
espacio de pérdida

Con los gradientes disponibles, el optimizador actualiza iterativamente los parámetros. Kingma & Ba (2014) propusieron Adam, que combina estimaciones adaptativas de primer y segundo momento con corrección de sesgo; hoy es uno de los optimizadores más usados en la práctica, aunque no siempre es la mejor opción para todos los problemas.

θ ← θ − η · ∇_θL(θ) // GD completo (batch)
θ ← θ − η · ∇L(θ;x⁽ⁱ⁾,y⁽ⁱ⁾) // SGD (un ejemplo)
θ ← θ − η · (1/|B|)Σ_i∈B∇L // Mini-batch

Superficie de pérdida 1D — descenso animado + historial de convergencia

η (lr)0.10

θ₀3.50

GUÍA

η pequeño → lento pero estable
η grande → puede divergir
Multimodal → mínimos locales
Meseta → ∇L ≈ 0 temporalmente

Optimizador	Idea clave	Regla de actualización
SGD+Momentum	Acumula velocidad pasada	v←βv−η∇L; θ←θ+v
AdaGrad	Escala η por parámetro	θ←θ−(η/√G+ε)∇L
RMSprop	EMA del gradiente²	E[g²]←ρE[g²]+(1-ρ)g²
Adam ★	Momentum + RMSprop + bias correction	m̂←m/(1−β₁ᵗ); v̂←v/(1−β₂ᵗ)

07 — El Problema de la Caja Negra

Capacidad sin
comprensión

Una red neuronal profunda es localmente interpretable (cada neurona realiza una suma ponderada) pero globalmente opaca: millones de parámetros interactúan no linealmente produciendo comportamientos emergentes que no pueden rastrearse manualmente.

La caja negra — entradas, salidas, interior inaccesible

Raíces de la opacidad

∞

Composición no lineal

L capas de σ(Wx+b) producen una función sin forma analítica cerrada.

⊗

Alta dimensionalidad

Parámetros θ ∈ ℝ⁹ a ℝ¹⁷⁵ᴮ: sin intuición geométrica posible.

◎

Representaciones distribuidas

Un concepto vive en patrones de activación de miles de neuronas simultáneas, no en una sola.

⚡

Emergencia

Capacidades no programadas emergen de la optimización. No hay regla explícita que las explique.

Explosión de parámetros en modelos reales — escala logarítmica

Jerarquía de representaciones por capa

Interpretabilidad (XAI)

Métodos locales

LIME: aproxima la red con un modelo lineal en vecindad de x.
SHAP: atribuye la predicción a cada feature usando valores de Shapley (teoría de juegos).
Saliency maps: |∂ŷ/∂x| revela qué dimensiones de la entrada más afectan la salida.

Métodos globales

Grad-CAM: mapas de calor sobre activaciones convolucionales.
Probing: clasificadores lineales sobre representaciones internas.
Dictionary learning: Bricken et al. (2023) usaron SAE overcomplete sobre activaciones de LLMs para identificar features monosemánticas.

⚠

Los métodos actuales de XAI suelen ofrecer explicaciones parciales, locales o dependientes del modelo, y existe un debate activo sobre qué tan fieles son respecto del mecanismo real del modelo. La opacidad sigue siendo un problema abierto en seguridad y alineamiento de IA, una de las motivaciones para estudiar representaciones más descomponibles como las obtenidas con autoencoders sparse overcomplete.

08 — Autoencoders

Aprender representaciones
sin supervisión

Un autoencoder aprende a comprimir la entrada a un espacio latente de menor dimensión y reconstruirla. No requiere etiquetas: la señal de aprendizaje es la propia reconstrucción. Hinton & Salakhutdinov (2006) mostraron que este tipo de entrenamiento contribuía de manera importante al renovado interés en deep learning en esa etapa.

// Encoder — comprime x al espacio latente
z = f_θ(x) z ∈ ℝ^d

// Decoder — reconstruye desde z
x̂ = g_φ(z)

// Pérdida de reconstrucción (MSE):
L(θ,φ) = (1/n)||x − g_φ(f_θ(x))||²

// Objetivo: min_θ,φ 𝔼_x~p(x)[L]

§8.1 Autoencoder Estándar (Undercomplete)

El caso estándar tiene d < dim(x) (bottleneck compresivo). El cuello de botella fuerza a la red a retener solo parte de la información de entrada. En el caso lineal con pérdida cuadrática, esto se conecta estrechamente con PCA; en el caso no lineal, puede aprender representaciones más flexibles, pero no es equivalente a PCA en general.

Arquitectura encoder → bottleneck → decoder

Presiona para animar.

Demo de compresión — reconstrucción vs. dimensión latente d

Comprimimos una señal de 16 valores a d dimensiones usando una base ortogonal fija (DCT) como demostración pedagógica de compresión y reconstrucción. Esto ilustra la lógica de un bottleneck, aunque no equivale al entrenamiento general de un autoencoder aprendido sobre datos.

d3

§8.2 Autoencoder Denoising

Vincent et al. (2008) propusieron corromper deliberadamente la entrada antes de pasarla al encoder. La red debe reconstruir x limpio desde x̃ corrupto, lo que la obliga a aprender representaciones más robustas. Formalmente, minimiza:

// Entrada corrompida: aplicar corrupción estocástica q(x̃|x)
x̃ = x + ε, ε ~ 𝒩(0, σ²I) // ruido gaussiano

// Objetivo del denoising AE:
L_DAE(θ,φ) = 𝔼_x~p(x) 𝔼_x̃~q(x̃|x)[||x − g_φ(f_θ(x̃))||²]

// La corrupción hace la tarea más difícil → representaciones más generales

◈

Trabajos clásicos mostraron que, bajo ciertos regímenes y para niveles pequeños de corrupción, los denoising autoencoders se conectan teóricamente con la estimación del score function ∇_x log p(x). Esa conexión ayuda a entender por qué esta familia de ideas es relevante para modelos generativos modernos.

Denoising AE — ajusta el nivel de ruido y ve la reconstrucción

La señal original x (teal) se corrompe con ruido gaussiano σ (rose). La reconstrucción x̂ (gold) se obtiene aquí mediante umbralización suave en el espacio DCT como una aproximación didáctica inspirada en ideas de denoising y sparsity, no como una implementación literal de un autoencoder entrenado end-to-end.

σ ruido0.15

d latente8

§8.3 Autoencoder Overcomplete + Sparse

Un AE overcomplete tiene d > dim(x): más dimensiones latentes que la entrada. Sin restricciones adicionales, la red aprende trivialmente la identidad. La restricción de esparsidad hace el problema no trivial y útil: fuerza que solo unas pocas unidades estén activas para cada entrada.

// Pérdida AE sparse overcomplete:
L(θ,φ) = ||x − g_φ(f_θ(x))||² + λ||z||₁

// z ∈ ℝᵈ con d > dim(x) (overcomplete)
// La penalización L1 induce esparsidad: ||z||₀ ≪ d

// Solución via ISTA (Iterative Shrinkage-Thresholding):
z ← S_λ/L(z − (1/L)·Dᵀ(Dz−x))
S_τ(u) = sign(u)·max(|u|−τ, 0) // umbral suave

◈

Olshausen & Field (1997) mostraron que un diccionario overcomplete+sparse aprende filtros tipo Gabor, cualitativamente similares a receptivos observados en la corteza visual primaria V1. Esto sugiere que principios de sparse coding pueden capturar regularidades relevantes de señales naturales.

◈

Trabajos recientes (Bricken et al. (2023) en Anthropic) han usado sparse autoencoders overcomplete sobre activaciones internas de modelos de lenguaje para descomponer representaciones distribuidas en features más interpretables y menos polisemánticos. Es una línea prometedora para mecanistic interpretability, aunque sigue siendo un área activa y lejos de estar resuelta.

Overcomplete + Sparse — ISTA en tiempo real

Diccionario D ∈ ℝ^16×32 (2× overcomplete). ISTA encuentra z ∈ ℝ³² mínimamente sparse que reconstruye x. Observa cómo λ controla cuántos átomos están activos.

λ (sparse)0.10

Resumen comparativo

Variante	d vs dim(x)	Restricción extra	Aprende	Referencia
AE estándar	d < dim(x)	Ninguna	Compresión no supervisada; conexión con PCA en el caso lineal	Hinton & Salakhutdinov 2006
AE Denoising	d < dim(x)	Corrupción q(x̃\|x)	Representaciones robustas; conexión teórica con score matching bajo ciertos regímenes	Vincent et al. 2008
AE Overcomplete+Sparse	d > dim(x)	λ\|\|z\|\|₁	Diccionario overcomplete; features más interpretables	Olshausen & Field 1997
VAE	d < dim(x)	KL(q(z\|x)\|\|p(z))	Espacio latente estructurado; generación	Kingma & Welling 2013

09 — Referencias

Literatura
fundamental

Selección de los trabajos seminales que sustentan el contenido de este documento.

[1]McCulloch, W.S. & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 5, 115–133. doi:10.1007/BF02478259
[2]Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65(6), 386–408. doi:10.1037/h0042519
[3]Rumelhart, D.E., Hinton, G.E. & Williams, R.J. (1986). Learning representations by back-propagating errors. Nature, 323, 533–536. doi:10.1038/323533a0
[4]Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals and Systems, 2(4), 303–314. doi:10.1007/BF02551274
[5]Hornik, K. (1991). Approximation capabilities of multilayer feedforward networks. Neural Networks, 4(2), 251–257. doi:10.1016/0893-6080(91)90009-T
[6]LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278–2324. doi:10.1109/5.726791
[7]Olshausen, B.A. & Field, D.J. (1997). Sparse coding with an overcomplete basis set: A strategy employed by V1? Vision Research, 37(23), 3311–3325. doi:10.1016/S0042-6989(97)00169-7
[8]Hinton, G.E. & Salakhutdinov, R.R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504–507. doi:10.1126/science.1127647
[9]Vincent, P., Larochelle, H., Bengio, Y. & Manzagol, P.-A. (2008). Extracting and composing robust features with denoising autoencoders. ICML 2008. dl.acm.org/doi/10.1145/1390156.1390294
[10]Glorot, X. & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks. AISTATS 2010. proceedings.mlr.press/v9/glorot10a
[11]Nair, V. & Hinton, G.E. (2010). Rectified linear units improve restricted Boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning (ICML). icml.cc/Conferences/2010/papers/432.pdf
[12]Kingma, D.P. & Welling, M. (2013). Auto-encoding variational Bayes. ICLR 2014. arXiv:1312.6114
[13]Kingma, D.P. & Ba, J. (2014). Adam: A method for stochastic optimization. ICLR 2015. arXiv:1412.6980
[14]Goodfellow, I., Bengio, Y. & Courville, A. (2016). Deep Learning. MIT Press. deeplearningbook.org
[15]Bricken, T. et al. (2023). Towards Monosemanticity: Decomposing Language Models with Dictionary Learning. Anthropic. transformer-circuits.pub/2023/monosemantic-features