Explorador interactivo: la física estadística detrás de los modelos de lenguaje
El paisaje representa la función de pérdida de un modelo de machine learning. Cada punto (x, y) es una configuración de parámetros; la altura es la pérdida. Los valles son mínimos locales — buenas soluciones. La esfera blanca desciende por gradiente, como una partícula que rueda cuesta abajo en un sistema físico. Hacé doble clic en la superficie para lanzar la partícula. Arrastrá para rotar, scroll para zoom.
La misma fórmula matemática viajó de los átomos a los tokens durante 140 años.