Cómo funciona realmente un LLM

La mentira del “siguiente token” y la obsesión por convertir palabras en números

“La IA no entiende palabras. Solo entiende estadísticas, y tú solo entiendes titulares.”

La próxima vez que alguien diga “la IA predice el siguiente token” como si con eso entendiera todo, respóndele:
“Ajá, y tú entiendes a Kant porque sabes leer la contraportada.”

Porque sí, la mayoría de los artículos y posts que hablan de LLMs reducen todo a esa frasecita simplona…
Pero detrás del “token siguiente” hay un sistema complejo que no funciona como creemos.
Esto es lo que de verdad pasa detrás del telón.

1. Tokenización: el primer acto de deshumanización del lenguaje

Un LLM no ve palabras. Ve números.
Cuando dices “Hola mundo”, el modelo ve algo como:

Hola → 1543  
mundo → 87521

¿Y entonces ya entiende?
No.

Tokenizar es solo convertir texto en índices de una base de datos.
Punto.

Lo que sí es interesante: esta conversión permite usar el lenguaje como materia prima matemática.
No es lectura. Es cálculo.

Piensa en la tokenización como meter Shakespeare en un Excel.

2. Embeddings: el GPS semántico del modelo

Una vez que tenemos los números, ¿cómo “entiende” el modelo que gato y perro están cerca, pero gato y microondas no?

Gracias a los embeddings, que proyectan esas palabras en un espacio vectorial.
No es magia. Es estadística + geometría.

Cada palabra se convierte en un vector (una serie de números con dirección).
Y la distancia entre vectores expresa la relación semántica.

Si “abogado” está cerca de “tribunal” y lejos de “tortilla”, no es porque el modelo entienda de leyes.
Es porque ha visto muchos textos en los que aparecen juntos.

3. Embeddings posicionales: el orden sí altera el producto

¿Quién está sentado sobre quién?

  • “Joël está sentado sobre el gato”
  • “El gato está sentado sobre Joël”

Los mismos tokens.
El mismo diccionario.

Pero el modelo necesita algo para distinguir que uno es comedia y el otro crueldad animal.

Ahí entran los embeddings posicionales: un mecanismo que le da a cada token un lugar en la frase.
Así el modelo no mezcla roles en la escena.

4. vectores: el lenguaje como coordenadas

Todos estos embeddings son vectores, y los vectores permiten hacer algo brutal: aplicar matemáticas puras al lenguaje.

¿Te imaginas hacer cálculos con párrafos?
Ellos sí.

Por eso los LLMs almacenan su conocimiento en bases de datos vectoriales. Porque todo es más rápido, más barato y más escalable si en vez de manipular ideas… manipulas números.

📊 Con vectores puedes comparar frases, imágenes, sonidos. Todo es lo mismo: puntos en un espacio multidimensional.

5. Redes de neuronas: el “cerebro” que calcula lo probable

Ahora que tenemos números con dirección, necesitamos un sistema que los relacione, combine y decida qué viene después.

Ese sistema son los neural networks.

¿Y cómo lo hacen?
Con nodos conectados entre sí, que envían señales y ajustan probabilidades.
Literalmente: como un cerebro que solo piensa en porcentajes.

Por ejemplo, si el modelo recibe “leche con…”, puede tener:

  • café: 60%
  • cereales: 30%
  • ketchup: 0.1%

Y elegir en base a esos porcentajes… o desviarse si lo entrenamos para ser más creativo (eso lo veremos en otra parte 😉).

I
N
P
U
T
H1
H2
H3
H1
H2
H3
O
U
T
60%

café

30%

cereales

0.1%

ketchup

Todo esto (tokenización, embeddings, vectores y redes) es solo el principio.
Ni hemos entrado al mecanismo de atención, el entrenamiento ni las alucinaciones que sufre ChatGPT cuando no ha desayunado.

Pero si has llegado hasta aquí sin confundir IA con magia negra, ya sabes más que el 80% de LinkedIn.

Atención, entrenamiento y el arte de no decir tonterías con confianza

“No es que entienda. Es que calcula mejor que tú… y a veces igual de mal.”

6. El mecanismo de atención: cuando la IA decide a quién escuchar en la oración

Imagina que estás leyendo esta frase:

“El abogado a quien Juan recomendó porque había ganado el caso del perro que mordió al cartero…”

¿Ya te perdiste?

El modelo también, a menos que sepa dónde está lo importante.

Por eso existe el mecanismo de atención. Un sistema que le permite al modelo “ponderar” cada palabra en función de las demás, sin importar su distancia en la frase. Si ve “avocat”, ¿habla de un licenciado o de un guacamole? El contexto decide.
Y la atención le permite enfocarse en las pistas correctas.

No es que entienda.
Es que detecta patrones de coocurrencia en base a miles de millones de frases.
Y eso (en su mundo) es suficiente para parecer inteligente.

7. Pre training: aprender el mundo sin saber que lo estás haciendo

El pre training es la etapa en que un modelo se expone a todo el lenguaje posible.

Literalmente: Libros, Wikipedia, Reddit, el horóscopo y tus posts que nadie lee.

Durante este proceso, el modelo no memoriza datos. Aprende patrones. Y su único objetivo es: predecir el siguiente token. Eso es todo. No quiere entenderte, ayudarte ni saber si amas a tu madre. Solo quiere decir cuál palabra vendría después según la estadística.

Pregunta: “La capital de Francia es…”
El modelo responde: “París”
Porque lo ha visto muchas veces, no porque haya ido.

8. Fine tuning: convertir un loro en un experto temático

Una vez entrenado con el mundo, hay que ajustarlo a una tarea.

Eso es el fine tuning.

¿Quieres un modelo que te ayude con contratos legales? Fine tuning con textos jurídicos.
¿Uno que hable como un gamer adolescente? Fine tuning con Twitch y foros de LoL.

El fine tuning especializa.
No enseña desde cero, pero corrige sesgos y potencia lo relevante.

GPT-4o, por ejemplo, fue ajustado para ser mejor en ciencia, matemáticas y programación.
Por eso puede razonar código… y también escribir poesía sobre arrays multidimensionales.

9. Supervised fine tuning: cuando enseñamos como si fuera niño de primaria

Aquí no solo le das texto al modelo. Le das ejemplos concretos.

  • Pregunta → Respuesta correcta

Como si enseñaras con tarjetas.

Este proceso reduce errores y acelera el aprendizaje porque el modelo no tiene que adivinar qué se espera:
ya lo sabe.

Es como decirle: “Cuando alguien te pregunta ‘¿qué es la relatividad?’, tú le respondes esto, no una metáfora sobre caballos en el espacio”.

10. Instruction tuning: ahora sí, obedece

Aquí se entrena al modelo para seguir instrucciones explícitas.

  • Prompt: “Traduce esto al español”
  • Input: “I love pizza”
  • Output esperado: “Amo la pizza”

Ya no se trata solo de saber cosas.
Se trata de hacer cosas con lo que sabe.

Y este tuning es lo que separa a un modelo “que completa texto” de uno que actúa como asistente útil.

⚠️ Ojo: esto no garantiza que obedezca siempre.
Solo que tiene más probabilidades de hacerlo si el prompt es claro.

11. RLHF: reforzamiento con el látigo humano

RLHF (Reinforcement Learning from Human Feedback) es el castigo y premio.
Literalmente.

Le mostramos outputs a humanos.
Y los humanos califican: bueno, malo, aceptable.

Luego, el modelo ajusta sus respuestas para agradar más.
No a Dios, sino a ti.

Antes del RLHF, si pedías “¿cuánto cocino la pasta?”, el modelo respondía:
“La historia de la pasta comienza en Mesopotamia, donde…”
Después del RLHF: “8 minutos”.

12. Alineamiento: por qué la IA no te ayuda a vengarte de tu ex

Aquí no se trata de inteligencia, sino de ética operativa.

El alineamiento es lo que evita que el modelo responda:

“¿Quieres vengarte de tu jefe? Aquí tienes una receta con cloroformo casero.”

Se hace filtrando datos, regulando outputs y creando límites.
Aunque a veces esos límites son más PR que prevención real.

Aun así, si te frustra que ChatGPT no responda ciertas cosas, dale las gracias al alineamiento.
Sin él, la IA ya habría sido cancelada 87 veces por minuto.

Todo este proceso (atención, entrenamiento, supervisión, alineamiento) no convierte al modelo en un ser pensante.

Lo convierte en una máquina de patrones que simula comprensión.
Pero lo hace tan bien, que empezamos a confiarle decisiones, emociones… y hasta nuestras recetas.

La psicología de una red neuronal insegura

“No confíes en una IA que necesita miles de millones de ejemplos para aprender a no equivocarse con la palabra ‘gato’.”

13. Context window: el Alzheimer temporal de tu chatbot favorito

Un LLM no tiene memoria infinita.
Tiene una “ventana de contexto” que define cuántos tokens puede retener al mismo tiempo.

Ejemplo: si el límite es 8,000 tokens y tu conversación ya pasó los 12,000… adiós primeras frases, ya no existen para él.

Es como si hablaras con alguien con una memoria RAM limitada: después de cierto punto, empieza a improvisar.

Por eso a veces las respuestas se vuelven incoherentes o contradictorias.
No es malicia. Es que ya no recuerda lo que dijiste 5 mensajes arriba.

14. Los parámetros: la (in)madurez del modelo

Un parámetro es como una creencia interna del modelo: un número que decide cómo pesa cierta información.

Los modelos grandes tienen cientos de miles de millones de parámetros.
Y no, no todos están pensando cosas profundas.

Algunos solo están ahí para decir “en este contexto, el plural tiene más sentido”.

Los parámetros se componen de:

  • Pesos: cuánto influye un nodo sobre otro
  • Sesgos: qué tan fácil se activa un nodo

Cuanto más “ajustados” estén esos valores, más competente es el modelo.
O al menos, menos ridículo.

15. Loss functions: el castigo necesario para crecer

La loss function mide qué tan mal lo hizo el modelo.

Es como ese profesor que no te decía si lo hiciste bien, sino cuánto te equivocaste.

  • ¿Predijo “gato” cuando la respuesta era “perro”?
    Le restamos puntos.
  • ¿Dijo “gatto”?
    Bueno, le restamos menos, pero sigue estando mal.

Es la diferencia entre equivocarse por ignorancia o por aproximación.

El objetivo del modelo: minimizar la loss.
Porque menos pérdida = más precisión = menos vergüenza.

16. Optimizers: el coach que viene después del fracaso

Después de equivocarse, el modelo necesita alguien que lo ayude a corregirse.

Ahí entran los optimizers: algoritmos que ajustan los pesos y sesgos de los parámetros para mejorar la próxima vez.

Piensa en ellos como entrenadores de boxeo.
“¿Ves lo que hiciste ahí? Mal. Ajusta el golpe. Cambia el ángulo. No repitas eso.”

No adivinan.
Calculan cómo moverse hacia una solución más precisa, sin perder la cabeza en el intento.

17. Back propagation: la terapia inversa del error

Cuando el modelo se equivoca, no basta con decirle “¡te equivocaste!”

Hay que saber dónde falló la cadena.

Back propagation revisa, nodo por nodo, cuáles contribuyeron al error.
Y luego ajusta su comportamiento.

Es como si dijeras: “¿Quién fue el primero en la oficina que dijo ‘pongamos Comic Sans’? Ah, tú. Ya no decides más fuentes.”

Gracias a este proceso, el modelo aprende de sus propios errores.
No como tú, que volviste a escribir “estrategia sin contenido” en tu pitch de SEO.

Esta es la parte menos glamorosa del viaje.
Pero sin pérdida, castigo, corrección y humildad matemática, no tendríamos ningún modelo funcional.

Es también donde se distingue una IA mediocre de una que puede escribir un ensayo decente (o ayudarte a programar una app, o explicarte la relatividad en emojis).

Regularización, sampling y el arte de no parecer un robot

“La IA es como un alumno aplicado con ansiedad: aprende todo, pero si no lo corriges, repite como loro y olvida la creatividad.”

18. Regularization: olvidar un poco para entender mejor

Los LLMs tienen un problema muy humano: sobreaprenden.
Se aferran a los ejemplos que vieron y los repiten como si fueran la única verdad.

Si vio que todos los perros eran chihuahuas, entonces todo lo que no ladra como uno… no es perro.

Ahí entra la regularización:
Un proceso diseñado para que el modelo no dependa tanto de ciertos caminos aprendidos.

¿La técnica más conocida?
Dropout:
Durante el entrenamiento, se apagan neuronas al azar.
Así, el modelo se ve obligado a generalizar, no memorizar.

Es como decirle: “Resuelve este problema, pero sin usar tu truco favorito”.

El resultado: un modelo menos rígido y más flexible ante casos nuevos.
Como ese perro peludo que nunca había visto, pero que quizá también es un perro.

19. Sampling: porque siempre responder igual aburre

Sin sampling, un LLM tiende a elegir siempre la palabra más probable.

Y eso suena… robótico.

  • Usuario: “¿Cómo estás?”
  • Modelo sin sampling: “Estoy bien, gracias. ¿Y tú?”
  • Modelo con sampling: “Todo cool. ¿Tú qué tal?”

La diferencia está en que sampling introduce aleatoriedad controlada.

No elige cualquier palabra.
Solo entre las más probables. Pero no siempre la número 1.

Esto hace que las respuestas ganen en variedad, creatividad y tono.

20. Top-k: filtrar antes de improvisar

El Top-k es una técnica de sampling donde el modelo:

  1. Ordena todas las palabras posibles por probabilidad
  2. Elige solo las k más altas
  3. Toma una al azar entre ellas

Ejemplo:
“Comí una…”
Top-k = 3 → solo puede elegir entre “pizza”, “manzana” y “kiwi”

Esto elimina opciones absurdas como “helicóptero” o “código Morse”, pero aún le deja espacio para sonar humano.

🍕 Diversidad sin locura.

21. Top-p: ¿cuánto riesgo estás dispuesto a aceptar?

El Top-p (también llamado nucleus sampling) es más elegante.

  1. Ordena las palabras por probabilidad.
  2. Va sumando esas probabilidades hasta alcanzar un umbral (ej. 90%).
  3. Elige al azar dentro de ese grupo.

Esto adapta el número de palabras posibles a la distribución real.

Si hay una palabra dominante, top-p puede usar solo una o dos.
Si hay muchas opciones razonables, abre el juego.

Resultado: flexibilidad con límites.
Como improvisar con carta de vinos en la mano.

22. Temperature: creatividad al gusto

La temperatura es como el picante en la salsa: modula cuánta locura permitimos en las respuestas.

  • Baja (0.2) → el modelo se vuelve muy predecible, casi literal.
  • Alta (1.5) → empieza a soltar respuestas más arriesgadas, poéticas, a veces… inadecuadas.

Temperatura baja: “La capital de Francia es París.”
Temperatura alta: “París es el suspiro de Europa en forma de ciudad.”
Temperatura muy alta: “La capital de Francia es Croissant McDonald.”

Cuanto más alta, más caos.
Ideal para brainstorming, no para diagnósticos médicos.

Entre olvidar para no sobreajustarse, y aleatorizar para no sonar como encarta 98, el LLM se vuelve menos máquina y más personaje.

No piensa.
Pero actúa como si pensara.
Y en un mundo donde eso basta para impresionar, las técnicas como dropout, sampling y temperatura se convierten en maquillaje cognitivo.

¿El resultado?
Una IA que no solo sabe… sino que parece saberparece sentir, y parece tener estilo.

Alucinaciones, memoria externa y la fantasía del razonamiento inteligente

“Una IA puede darte una respuesta rápida, segura… y completamente inventada. Como tu cuñado en Navidad.”

23. Alucinaciones: cuando la IA miente con confianza

Una alucinación no es un error cualquiera.
Es cuando la IA responde con total seguridad algo que es completamente falso.

Y lo hace con una serenidad que ya quisieras tú para tus pitchs de venta.

¿Por qué alucina?

  • Porque aprendió de datos erróneos
  • Porque prioriza la fluidez por encima de la veracidad
  • Porque tu prompt es ambiguo, contradictorio o absurdo

“¿Quién ganó el mundial de fútbol de 1492?”
“Cristóbal Colón, jugando de delantero por la Niña.”

Eso no es sarcasmo. Es una respuesta alucinada.

24. RAG: cómo prestarle una libreta de apuntes a la IA

RAG (Retrieval-Augmented Generation) es un invento brillante: le das al modelo una fuente externa con datos confiables y le dices: “Antes de responder, revisa tus notas”.

En vez de usar solo su “cultura general”, el LLM consulta documentos, PDFs, bases de datos…
Y genera la respuesta con esa información.

¿El resultado?
Menos alucinaciones. Más contexto real.
O al menos, más probabilidad de que cite algo que existe.

Ideal para evitar que el modelo te invente fórmulas químicas o biografías de CEOs ficticios.

25. Chain of thought: fingir que piensa, y hacerlo bien

Muchos modelos modernos pueden aplicar el Chain of Thought: una técnica donde razonan paso a paso antes de llegar a la respuesta.

  • No sueltan la solución directa
  • Primero plantean el problema
  • Luego lo descomponen
  • Finalmente responden

Esto es clave en tareas complejas, como matemáticas, lógica, programación.

Pregunta: “Si tengo 3 manzanas y regalo 1, ¿cuántas quedan?”
Respuesta sin CoT: “2”
Respuesta con CoT: “Tienes 3 manzanas. Regalas 1. Entonces quedan 2.”

Parece simple, pero ese “parecer” es lo que separa a un loro predictivo de un sistema útil.

26. Quantization: adelgazar al modelo sin dejarlo tonto

Los LLMs son enormes. Literalmente.

Correr uno en tu laptop sin un GPU con esteroides es como intentar minar criptomonedas con una calculadora Casio.

Por eso existe la quantization: convertir los números complejos (en 32 bits) a versiones más simples (8 bits).

  • Más rápido
  • Menos espacio
  • Menor consumo

¿Pierde precisión? Un poco.
Pero gana eficiencia. Y eso vale oro si quieres tener tu propio mini modelo en local.

Es como comprimir una imagen: si lo haces bien, casi no se nota.

27. Distillation: crear el “hijo prodigio” de un modelo gigante

Otra forma de optimizar: enseñar a un modelo pequeño a imitar a uno grande. Eso es la distillation. Se entrena un modelo compacto (el estudiante) copiando los outputs de un modelo gigantesco (el maestro).

El resultado:

  • Más rápido
  • Más barato
  • Menos brillante, pero suficientemente útil

Ejemplo: DistilBERT, versión light de BERT.
Mantiene el 95% del rendimiento con 40% menos peso.

Como un becario que aprendió todo lo importante sin los vicios del jefe.

28. MCP: el USB-C de la inteligencia artificial

MCP significa que ya no necesitas mil integraciones a medida.

Ahora puedes enchufar un modelo a tus herramientas como si fueran periféricos: le das un “brief” del sistema (qué datos tiene, cómo acceder a ellos) y listo.

El modelo ya sabe dónde buscarqué encontrar y cómo ayudarte.

En vez de preguntarle “¿Qué KPI tengo en GA4?”, puedes escribir: “¿Cómo va el tráfico orgánico este mes?” Y él conecta, busca y responde. Como un buen intern digital.

Es el futuro del conversational analytics, y empresas como Empirik ya están desarrollando estos sistemas para uso interno.

Aquí ya no estamos hablando de cómo funciona el modelo “en su cabeza”, sino de cómo interactúa con el mundo.

De cómo compensa su falta de memoria, su tendencia a inventar, su lentitud… con herramientas, técnicas y arquitectura.

La IA de hoy no es solo un modelo de lenguaje.
Es un sistema conectado, afinado, filtrado y a veces… encadenado por diseño.

Y aún así, puede hacer cosas extraordinarias.
Incluso si no sabe por qué las hace.

ChatGPT no es toda la IA (y la IA no es ChatGPT)

“Decir que ChatGPT es la IA es como decir que un microondas es toda la ingeniería eléctrica.”

No, la IA no es (solo) esto que estás usando

Lo que hoy llamamos “IA” en conversaciones casuales es casi siempre lo mismo:

  • Un modelo de lenguaje grande (LLM)
  • Con una interfaz amigable
  • Que responde en lenguaje natural
  • Y que fue fine tunizado para sonar servicial

Eso se llama ChatGPT.
O Claude. O Gemini.
O cualquier sistema LLM conversacional.

Pero la IA es muchísimo más grande que eso.

Entonces… ¿qué es la IA?

La inteligencia artificial como disciplina existe desde los años 50.
Y no empezó escribiendo poemas ni corrigiendo PDFs.

Existen:

  • IA simbólica (basada en reglas lógicas)
  • IA estadística (modelos probabilísticos simples)
  • Redes neuronales (como las que usa un LLM)
  • Visión por computadora
  • Reconocimiento de voz
  • Sistemas expertos
  • Motores de recomendación
  • Robótica autónoma

Y eso sin contar todo lo que hacen algoritmos invisibles en:

  • Diagnóstico médico
  • Finanzas
  • Detección de fraudes
  • Ciberseguridad
  • Traducción automática
  • Juegos, vehículos, drones, publicidad

ChatGPT es solo una punta (muy brillante) del iceberg

Los LLMs como ChatGPT son una forma muy especializada de IA:

  • Son generativos (crean texto nuevo)
  • Están entrenados en lenguaje natural
  • Responden a prompts en tiempo real
  • Parecen conversacionales, pero son máquinas de predicción de tokens

No razonan.
No entienden.
No tienen memoria estable, ni conciencia, ni objetivos.
Y aún así, son increíblemente útiles.

Pero no te confundas.

No todo lo que genera texto bonito es “inteligente”
Y no toda la IA se basa en generar texto

¿Por qué importa esta distinción?

Porque si no entendemos qué es qué, terminamos:

  • Usando mal las herramientas
  • Exigiendo a un LLM lo que haría un sistema experto
  • Confiando ciegamente en respuestas alucinadas
  • Y lo peor: hablando de “automatizar procesos” con un botón mágico que no existe

El conocimiento técnico no es una barrera.
Es una brújula para no perderse.

Está bien usar la palabra “IA” como abreviatura cultural. Pero si vas a trabajar con ella (si vas a integrarla en tus procesos, en tus estrategias, en tu visión a futuro) entonces entiéndela de verdad.

Porque un LLM puede responder con seguridad. Pero la seguridad sin comprensión no es conocimiento. Es espectáculo.

Y tú no estás aquí para hacer magia.
Estás aquí para hacer que las cosas funcionen.

En fin…

28 nociones, explicadas, contextualizadas, digeridas.

Ahora ya puedes:

  • Usar un LLM con criterio
  • Explicar cómo funciona sin repetir clichés
  • Y detectar cuando alguien no tiene ni idea pero lo disimula bien

Ciao, ciao