Desde la neurona individual hasta autoencoders overcomplete y el problema de la caja negra. Material animado e interactivo con foco didáctico: combina formulaciones exactas con algunas simplificaciones pedagógicas.
El punto de partida es la neurona. McCulloch y Pitts (1943) propusieron el primer modelo formal: una unidad que recibe señales, las pondera y produce una salida binaria. El perceptrón de Rosenblatt (1958) añadió pesos adaptables. Hoy la neurona artificial conserva esta estructura básica pero dentro de un marco diferenciable.
Sin σ no lineal, cualquier red profunda colapsa a una sola transformación afín. Trabajos clásicos como Hornik (1991) establecieron que la no linealidad--no la profundidad per se--es el ingrediente esencial para la aproximación universal.
Vanishing gradient en saturación (z≪0 o z≫0). Glorot & Bengio (2010) cuantificaron formalmente este problema.
ReLU se volvió central en deep learning moderno porque atenúa varios problemas de entrenamiento asociados a activaciones saturantes. Un riesgo conocido es el de neuronas muertas cuando z permanece ≤0 durante el entrenamiento.
Al estar centrada en cero, tanh suele facilitar la optimización más que sigmoid en muchos contextos. Aun así, sigue siendo una activación saturante y puede sufrir vanishing gradients.
Corrigen neuronas muertas manteniendo gradiente pequeño α para z<0. ELU produce salidas de media cercana a cero.
Como intuición, el gradiente hacia capas tempranas depende de productos sucesivos de derivadas locales y matrices de pesos. En activaciones saturantes como sigmoid, esos productos pueden volverse muy pequeños al aumentar la profundidad, especialmente si la inicialización o la escala de activaciones no están bien controladas.
Nota: este esquema ilustra la intuición del problema, pero en redes reales también importan la inicialización, la normalización y el espectro de las matrices de pesos. ReLU suele atenuar el vanishing gradient, no eliminarlo por completo.
Apilando neuronas en capas obtenemos una red profunda. La notación matricial permite calcular toda una capa en una sola multiplicación. Cada capa puede aprender representaciones progresivamente más útiles o abstractas de la anterior--de píxeles a bordes, a formas, a conceptos.
Teorema de Aproximación Universal (Cybenko 1989; Hornik 1991): bajo hipótesis estándar, una red con una sola capa oculta suficientemente ancha puede aproximar cualquier función continua sobre un compacto. En la práctica, la profundidad suele aportar representaciones más eficientes y composicionales, además de ventajas expresivas bajo restricciones realistas de ancho, datos y parámetros.
La pérdida cuantifica la distancia entre predicciones y valores reales. Su elección está dictada por la tarea (regresión vs. clasificación) y la distribución asumida sobre los errores.
Maximiza la verosimilitud bajo ruido gaussiano. Sensible a outliers por penalización cuadrática.
Equivale a la log-verosimilitud negativa para una salida Bernoulli y está estrechamente relacionada con la divergencia KL: con la distribución objetivo fija, minimizar la entropía cruzada equivale a minimizar KL hasta una constante.
Se usa típicamente junto con softmax en clasificación multiclase. Con la distribución objetivo fija, minimizar la entropía cruzada equivale a minimizar la divergencia KL salvo una constante independiente del modelo.
Gradiente constante (no escala con el error). Corresponde a maximizar verosimilitud bajo distribución Laplace.
Rumelhart, Hinton & Williams (1986) popularizaron el algoritmo que calcula ∂L/∂θ para todos los parámetros en tiempo O(|θ|), igual que un forward pass. La clave es la regla de la cadena aplicada en orden inverso, reutilizando cada cálculo intermedio exactamente una vez.
Propagar x, almacenar Z⁽ˡ⁾ y A⁽ˡ⁾ en cada capa. Calcular L.
δ⁽ᴸ⁾ = ∇L · σ'(Z⁽ᴸ⁾). Punto de partida del backward.
Para l = L−1,…,1: δ⁽ˡ⁾ = (W⁽ˡ⁺¹⁾ᵀ δ⁽ˡ⁺¹⁾) ⊙ σ'(Z⁽ˡ⁾).
θ ← θ − η · ∇L. La complejidad total es O(2|θ|): un forward + un backward.
Con los gradientes disponibles, el optimizador actualiza iterativamente los parámetros. Kingma & Ba (2014) propusieron Adam, que combina estimaciones adaptativas de primer y segundo momento con corrección de sesgo; hoy es uno de los optimizadores más usados en la práctica, aunque no siempre es la mejor opción para todos los problemas.
| Optimizador | Idea clave | Regla de actualización |
|---|---|---|
| SGD+Momentum | Acumula velocidad pasada | v←βv−η∇L; θ←θ+v |
| AdaGrad | Escala η por parámetro | θ←θ−(η/√G+ε)∇L |
| RMSprop | EMA del gradiente² | E[g²]←ρE[g²]+(1-ρ)g² |
| Adam ★ | Momentum + RMSprop + bias correction | m̂←m/(1−β₁ᵗ); v̂←v/(1−β₂ᵗ) |
Una red neuronal profunda es localmente interpretable (cada neurona realiza una suma ponderada) pero globalmente opaca: millones de parámetros interactúan no linealmente produciendo comportamientos emergentes que no pueden rastrearse manualmente.
L capas de σ(Wx+b) producen una función sin forma analítica cerrada.
Parámetros θ ∈ ℝ⁹ a ℝ¹⁷⁵ᴮ: sin intuición geométrica posible.
Un concepto vive en patrones de activación de miles de neuronas simultáneas, no en una sola.
Capacidades no programadas emergen de la optimización. No hay regla explícita que las explique.
LIME: aproxima la red con un modelo lineal en vecindad de x.
SHAP: atribuye la predicción a cada feature usando valores de Shapley (teoría de juegos).
Saliency maps: |∂ŷ/∂x| revela qué dimensiones de la entrada más afectan la salida.
Grad-CAM: mapas de calor sobre activaciones convolucionales.
Probing: clasificadores lineales sobre representaciones internas.
Dictionary learning: Bricken et al. (2023) usaron SAE overcomplete sobre activaciones de LLMs para identificar features monosemánticas.
Los métodos actuales de XAI suelen ofrecer explicaciones parciales, locales o dependientes del modelo, y existe un debate activo sobre qué tan fieles son respecto del mecanismo real del modelo. La opacidad sigue siendo un problema abierto en seguridad y alineamiento de IA, una de las motivaciones para estudiar representaciones más descomponibles como las obtenidas con autoencoders sparse overcomplete.
Un autoencoder aprende a comprimir la entrada a un espacio latente de menor dimensión y reconstruirla. No requiere etiquetas: la señal de aprendizaje es la propia reconstrucción. Hinton & Salakhutdinov (2006) mostraron que este tipo de entrenamiento contribuía de manera importante al renovado interés en deep learning en esa etapa.
El caso estándar tiene d < dim(x) (bottleneck compresivo). El cuello de botella fuerza a la red a retener solo parte de la información de entrada. En el caso lineal con pérdida cuadrática, esto se conecta estrechamente con PCA; en el caso no lineal, puede aprender representaciones más flexibles, pero no es equivalente a PCA en general.
Comprimimos una señal de 16 valores a d dimensiones usando una base ortogonal fija (DCT) como demostración pedagógica de compresión y reconstrucción. Esto ilustra la lógica de un bottleneck, aunque no equivale al entrenamiento general de un autoencoder aprendido sobre datos.
Vincent et al. (2008) propusieron corromper deliberadamente la entrada antes de pasarla al encoder. La red debe reconstruir x limpio desde x̃ corrupto, lo que la obliga a aprender representaciones más robustas. Formalmente, minimiza:
Trabajos clásicos mostraron que, bajo ciertos regímenes y para niveles pequeños de corrupción, los denoising autoencoders se conectan teóricamente con la estimación del score function ∇x log p(x). Esa conexión ayuda a entender por qué esta familia de ideas es relevante para modelos generativos modernos.
La señal original x (teal) se corrompe con ruido gaussiano σ (rose). La reconstrucción x̂ (gold) se obtiene aquí mediante umbralización suave en el espacio DCT como una aproximación didáctica inspirada en ideas de denoising y sparsity, no como una implementación literal de un autoencoder entrenado end-to-end.
Un AE overcomplete tiene d > dim(x): más dimensiones latentes que la entrada. Sin restricciones adicionales, la red aprende trivialmente la identidad. La restricción de esparsidad hace el problema no trivial y útil: fuerza que solo unas pocas unidades estén activas para cada entrada.
Olshausen & Field (1997) mostraron que un diccionario overcomplete+sparse aprende filtros tipo Gabor, cualitativamente similares a receptivos observados en la corteza visual primaria V1. Esto sugiere que principios de sparse coding pueden capturar regularidades relevantes de señales naturales.
Trabajos recientes (Bricken et al. (2023) en Anthropic) han usado sparse autoencoders overcomplete sobre activaciones internas de modelos de lenguaje para descomponer representaciones distribuidas en features más interpretables y menos polisemánticos. Es una línea prometedora para mecanistic interpretability, aunque sigue siendo un área activa y lejos de estar resuelta.
Diccionario D ∈ ℝ16×32 (2× overcomplete). ISTA encuentra z ∈ ℝ32 mínimamente sparse que reconstruye x. Observa cómo λ controla cuántos átomos están activos.
| Variante | d vs dim(x) | Restricción extra | Aprende | Referencia |
|---|---|---|---|---|
| AE estándar | d < dim(x) | Ninguna | Compresión no supervisada; conexión con PCA en el caso lineal | Hinton & Salakhutdinov 2006 |
| AE Denoising | d < dim(x) | Corrupción q(x̃|x) | Representaciones robustas; conexión teórica con score matching bajo ciertos regímenes | Vincent et al. 2008 |
| AE Overcomplete+Sparse | d > dim(x) | λ||z||₁ | Diccionario overcomplete; features más interpretables | Olshausen & Field 1997 |
| VAE | d < dim(x) | KL(q(z|x)||p(z)) | Espacio latente estructurado; generación | Kingma & Welling 2013 |
Selección de los trabajos seminales que sustentan el contenido de este documento.