Lista de verificación: desarrollo histórico de los modelos de lenguaje grandes
Evolución técnica verificable de arquitecturas de procesamiento del lenguaje natural
Los modelos de lenguaje grandes no surgieron de la nada. Tienen una historia concreta que vale la pena examinar críticamente.
1950-1990: Fundamentos estadísticos
Los sistemas basados en reglas dominaban. N-gramas y modelos de Markov procesaban texto mediante probabilidades simples. Funcionaban para tareas limitadas pero colapsaban con complejidad real.
2003-2013: Redes neuronales preliminares
Bengio introduce modelos neuronales del lenguaje en 2003. Word2Vec aparece en 2013, representando palabras como vectores densos. Aún requerían arquitecturas específicas para cada tarea.
2017: Transformers cambian todo
El paper Attention is All You Need presenta la arquitectura transformer. Elimina recurrencia, permite paralelización masiva. GPT-1 y BERT siguen en 2018.
2019-presente: Escalado agresivo
GPT-2 demuestra que escalar parámetros mejora capacidades. GPT-3 con 175 mil millones de parámetros hace few-shot learning viable. Los costos computacionales se disparan exponencialmente.
Cada fase resolvió problemas técnicos específicos, no fue magia gradual.