Inteligencia Artificial IA

Datasets de entrenamiento: evolución y problemas de escala

Composición documentada de corpus de entrenamiento y efectos en comportamiento del modelo

Dra. Isabel Moreno

07/27/25

2 min

125 vistas

Datasets de entrenamiento: evolución y problemas de escala

Los LLM son tan buenos como sus datos de entrenamiento. La calidad y composición importan más que la cantidad bruta.

2018: BookCorpus y Wikipedia

BERT entrenó con 3.3 mil millones de tokens. Fuentes curadas manualmente. Alta calidad pero volumen limitado. Sesgos hacia contenido enciclopédico formal.

2019: WebText

GPT-2 usó contenido de Reddit con upvotes altos. 8 millones de documentos, 40 GB texto. Sesgo hacia demografía de Reddit: predominantemente masculina, occidental, técnica.

2020: Common Crawl filtrado

GPT-3 entrenó con 570 GB de texto. Incluye Common Crawl, libros, Wikipedia. Filtrado por calidad pero contamina benchmarks: datos de test aparecen en entrenamiento.

2022-2024: Datasets masivos problemáticos

PaLM: 780 mil millones de tokens. Llama: 1.4 trillones. Incluyen código, conversaciones, contenido multilingüe. Problemas: toxicidad, desinformación, violaciones copyright.

Consecuencias técnicas

Modelos memorizan contenido verbatim. Amplifican sesgos estadísticos del dataset. Auditorías muestran problemas persistentes en generaciones.

2018: BookCorpus y Wikipedia

2019: WebText

2020: Common Crawl filtrado

2022-2024: Datasets masivos problemáticos

Consecuencias técnicas

Configuración de cookies