Datasets de entrenamiento: evolución y problemas de escala
Composición documentada de corpus de entrenamiento y efectos en comportamiento del modelo
Los LLM son tan buenos como sus datos de entrenamiento. La calidad y composición importan más que la cantidad bruta.
2018: BookCorpus y Wikipedia
BERT entrenó con 3.3 mil millones de tokens. Fuentes curadas manualmente. Alta calidad pero volumen limitado. Sesgos hacia contenido enciclopédico formal.
2019: WebText
GPT-2 usó contenido de Reddit con upvotes altos. 8 millones de documentos, 40 GB texto. Sesgo hacia demografía de Reddit: predominantemente masculina, occidental, técnica.
2020: Common Crawl filtrado
GPT-3 entrenó con 570 GB de texto. Incluye Common Crawl, libros, Wikipedia. Filtrado por calidad pero contamina benchmarks: datos de test aparecen en entrenamiento.
2022-2024: Datasets masivos problemáticos
PaLM: 780 mil millones de tokens. Llama: 1.4 trillones. Incluyen código, conversaciones, contenido multilingüe. Problemas: toxicidad, desinformación, violaciones copyright.
Consecuencias técnicas
Modelos memorizan contenido verbatim. Amplifican sesgos estadísticos del dataset. Auditorías muestran problemas persistentes en generaciones.