Progresión arquitectónica: de LSTM a Transformers modernos
Innovaciones técnicas verificables en arquitecturas de redes neuronales para NLP
Las arquitecturas de procesamiento del lenguaje evolucionaron resolviendo cuellos de botella computacionales concretos.
2014-2016: Era LSTM
Las redes LSTM procesaban secuencias pero con dependencias largas degradaban. Vanishing gradients limitaban contexto efectivo a 100-200 tokens. No paralelizables durante entrenamiento.
2017: Mecanismo de atención
Self-attention permite que cada token acceda directamente a todos los demás. Complejidad O(n²) en longitud de secuencia pero totalmente paralelizable. Elimina cuello de botella secuencial.
2019: Mejoras posicionales
Embeddings posicionales sinusoidales evolucionan a learned positional encodings. Rotary Position Embeddings (RoPE) mejoran extrapolación a secuencias más largas.
2020-2023: Optimizaciones de eficiencia
Flash Attention reduce uso de memoria de O(n²) a O(n). Sparse attention patterns limitan complejidad. Multi-query attention reduce costo de inferencia.
Impacto medible
GPT-2 procesaba 1024 tokens. GPT-4 maneja 128,000. Throughput de inferencia mejoró 10-100x con misma calidad mediante optimizaciones arquitectónicas.