Es imposible no hablar de Chat GPT en este momento, ya que hay mucho buzz mediático sobre la herramienta conversacional de OpenAI. Pero, ¿cómo funciona esta herramienta? ¿Cuáles son los mecanismos que actúan en el “vientre de la bestia”? ¿Cuáles son sus posibles limitaciones? Y, sobre todo, la pregunta que domina hoy el mundo de los buscadores: ¿Chat GPT remplazará a Google?
Llevo muchos años estudiando los algoritmos. Mi Santo Grial siempre ha sido la toma de decisiones en presencia de incertidumbre y en un contexto de grandes cantidades de datos. Algunos de los algoritmos en los que más tiene futuro se encuentran en lo que ahora llamamos Inteligencia Artificial (IA).
Nunca habría podido imaginar lo que se ha visto en los últimos años en machine learning, el procesamiento del lenguaje natural, análisis de imágenes y similares. Vivimos una época en la que se presentan resultados extraordinarios casi semanalmente. Para ser sincero, me siento un poco como si estuviera reviviendo los primeros años de la Web…
El tema del momento es, por supuesto, el famoso Chat GPT. El recien nacido de la familia openAI es un gran éxito gracias a su capacidad para hablar con humanos. Nadie puede negar que la herramienta es realmente asombrosa, aunque, por supuesto, sus limitaciones pueden verse desde el primer uso.
Para los profesionales del SEO, la revolución de la inteligencia artificial es tanto una oportunidad como un riesgo. Es un riesgo para los redactores web, pero es una oportunidad para quienes solían recurrir a ellos y que pueden ver una forma de conseguir por menos lo que solían pagar. Para un motor de búsqueda como Google, esto es obviamente un riesgo, ya que el big boss de Google, Sundar Pichai, ha creado incluso una nueva organización interna para intentar evitar que openAI le supere en el campo de la IA.
Voy a hablarte del chat GPT. ¿Qué es realmente? ¿Cuáles son sus limitaciones técnicas? ¿Cuánto cuesta? También intentaré dar algunas respuestas a la pregunta que está en la mente de todos: ¿Chat GPT es un peligro potencial para Google?
¿Qué es Chat GPT?
Chat GPT es un modelo de lenguaje que ha sido diseñado -como su nombre indica- para ser conversacional. Esto significa que es capaz de seguir instrucciones dadas por un ser humano a través de un prompt (una pregunta o instrucción). Para seguir estas instrucciones, el modelo tiene la capacidad de dialogar y de utilizar una forma de sentido común que puede tener un ser humano y que no se encuentra en otros modelos (como GPT3, por ejemplo).
Otro punto fuerte del modelo, para imitar el comportamiento humano, es su capacidad de continuidad de la memoria: Chat GPT es capaz de recordar lo que le dijiste en preguntas anteriores, y de elaborar respuestas basadas en este historial de discusiones. Este aspecto es el más antropomórfico: a veces tienes la ilusión de chatear con una persona real, que de vez en cuando se equivocará en sus respuestas.
Chat GPT es el último de una larga serie de modelos lingüísticos. Todo empezó con word2vec de Tomas Mikolov (entonces en Google), seguido de fastText del mismo investigador (entonces en Facebook) y muchos otros como Ernie en 2019 (en Baidu), BERT en 2018 (Google), Grover y Elmo en 2018 y 2019 (instituto Allen). También hay modelos en Francia (de Lighton).
Con el paso del tiempo, estos modelos se hicieron más grandes y expresivos. Pero el verdadero avance ha sido la aparición de modelos basados en transformers en openAI. Ahora es el operador líder en la materia, por delante de todos los demás, ya sea para aplicaciones de imagen o de texto. Su primer modelo data de 2018, es GPT. Pero el gran público empezó a interesarse por ellos con GPT2, el primer modelo muy grande, cuando tenía “sólo” 1.500 millones de parámetros y un dataset de entrenamiento de 8 millones de páginas web. Ahora nos damos cuenta de que GPT2 era sólo una prueba de concepto, y que el verdadero avance es GPT3, un modelo con 175.000 millones de parámetros, entrenado en un dataset de varias miles de millones de páginas de contenido.
GPT3 es una innovación disruptiva, y se ha iniciado un gran movimiento en el marketing digital y en el SEO, con la generación de textos como principal objetivo. Pero el modelo (y las muchas herramientas que lo utilizan) puede servir para buscar temas, escribir esquemas de artículos, hacer traducciones, etc. En realidad, el único problema de este modelo es la dificultad para que un humano no especializado lo “haga funcionar”. Por eso han surgido muchas herramientas, y es bastante sorprendente ver que también ellas están siendo en parte uberizadas por el nuevo modelo que se avecina.
Esto nos lleva al Chat GPT, el primer gran modelo con capacidad real de interactuar con humanos, que abre el camino a una nueva UX intuitiva: la discusión (y sí, concepto antiguo 🙂 ). En el corazón de Chat GPT hay dos innovaciones: una relativa a la memoria del sistema, la otra a su capacidad de escribir respuestas atractivas para los humanos.
Cómo construir un modelo como Chat GPT
Chat GPT es, en definitiva, una forma de demostrador, pero sigue siendo una verdadera proeza industrial y algorítmica. Hay varios puntos interesantes que señalar sobre este modelo, el primero es que en realidad es menos potente que GPT3 o GPT3.5 (es GPT3 con fine-tuning).
Otro punto crucial es su capacidad para guardar en la memoria las interacciones con el usuario. El modelo realiza una codificación vectorial de la historia de la discusión, y la proporciona como entrada al modelo, además de la pregunta que se formule. De este modo, lo que se ha dicho en el pasado contribuye a la respuesta propuesta por el modelo. Este truco para simular una memoria es una de las limitaciones que causarán problemas en la evolución posterior del modelo.
Por último, el tercer punto es el uso de algoritmos de aprendizaje por refuerzo para “educar” al modelo. Este es el punto más importante. Para construir GPT3, los investigadores entrenaron el modelo enseñándole a predecir las palabras que seguían a un grupo de palabras dadas como entrada. El sistema recibe algún tipo de recompensa cada vez que su predicción coincide con la realidad.
Como Chat GPT es un modelo que pretende complacer a los humanos en sus respuestas, para su entrenamiento había que recompensarlo cuando una respuesta complacía a los humanos. Es imposible pedir a los humanos que validen o invaliden miles de millones de respuestas en el proceso de aprendizaje. Fue John Schulman quien, en openAI, tuvo la idea de utilizar un algoritmo de aprendizaje por refuerzo. Un primer algoritmo aprenderá de unos pocos humanos (se rumorea que hay 40.000) si les gustan o no las respuestas de calibración. Este algoritmo podrá entonces responder en lugar de los humanos para entrenar el modelo en un dataset mucho mayor. Técnicamente, el modelo intenta una respuesta, el algoritmo de aprendizaje por refuerzo le dice si está bien o no. En un caso continúa su “vida”, en el otro cambia y vuelve a empezar.
Esta idea se aplicó por primera vez para crear un primer modelo (instructGPT). Chat GPT es un modelo similar, la segunda iteración del proceso en OpenAI.
Por supuesto, un modelo entrenado por retroalimentación humana significa que puede sufrir más sesgos. OpenAI explica que han hecho todo lo posible para asegurarse de que no sea así, que nadie se engañe y que probablemente no sea del todo cierto, pero que las respuestas atraen a un gran número de personas, lo que obviamente es suficiente para el buzz del momento.
El problema del sesgo es visible en cuanto se pide información sobre temas muy complejos y técnicos: las respuestas son más bien blandas, menos buenas de lo que daría GPT3, se debe principalmente a que los humanos que validaron el dataset no tenían el nivel necesario para comprender y validar respuestas complejas.
Las limitaciones actuales y futuras de Chat GPT
Dejando a un lado la cuestión del sesgo, hay dos fuertes limitaciones asociadas a Chat GPT.
La primera es la de la memoria simulada: no podemos hacer embeddings para almacenar los datos en interacciones muy largas. En algún momento, el modelo olvidará el pasado, y de una forma brutal. No como un humano, que guardará en la memoria las cosas más importantes y olvidará el resto. Para avanzar hacia una herramienta mejor, openAI tendrá que encontrar otros mecanismos para recordar contextos (y eso no me parece en absoluto insuperable).
La segunda es el coste. Por supuesto, está el coste de fabricación. Recuerdo aquí que el coste de fabricación de GPT3 en el momento de su lanzamiento se estimó en unos 12 millones de dólares, pero se calcula que ahora se puede conseguir un nivel de calidad similar por mucho menos (probablemente entre 6 y 8 millones de dólares). Para Chat GPT, partimos de GPT3, y finalmente eliminaremos algunas de sus posibles respuestas y suavizaremos las demás. El coste algorítmico es inevitablemente elevado, pero también hay que tener en cuenta los costes humanos (si hubo 40.000 personas para el entrenamiento, no es poca cosa). Así que, una vez más, estamos hablando de unos pocos millones.
Pero el mayor coste no está en la fabricación del modelo, sino en su explotación, lo que llamamos la inferencia. Para calcular los costes operativos, hay que usar el narrizometro o una bola de cristal, pero varias fuentes coinciden en ciertas estimaciones. Utilizaré la de 1 centavo cada 30 palabras. Actualmente hay un millón de usuarios, si cada uno hace 50 preguntas al día a chat GPT, con respuestas medias de 50 palabras, estamos en 2,500 palabras al día y por usuario, es decir 83 centavos al día por cada uno, ¡830,000 dólares en total! Y creo que si el uso se hace masivo, la hipótesis de las 2,500 palabras al día está muy lejos de la realidad.
Esto plantea muchas preguntas, incluyendo el modelo de negocio.
Este último límite, ¿evitará que esta tecnología sustituya a toda una gama de productos existentes, al menos durante un tiempo? Es muy complicado de decir, y mencionaré el caso particular del Search y Google en la conclusión.
¿Es la muerte del Search y de Google?
La primera cuestión que me parece importante es la muerte de la búsqueda “clásica”. Todo el mundo considera que la búsqueda en Internet es simplemente una interfaz de búsqueda, cuando en realidad es un dispositivo de interacción (la página web del motor) y toda una maquinaria invisible para el usuario (rastreador, índice, algoritmos diversos).
Para sustituir completamente a un motor, la IA tendría que ser capaz de encontrar todas las fuentes, clasificar las que son interesantes, populares, de confianza, etc., y luego hacer una lista con ellas. Y luego tendría que resumirlos al nivel de comprensión adecuado para su usuario. Hoy esto parece una posibilidad bastante remota. Por otra parte, sustituir la interfaz web del motor para todas las consultas “sencillas” es ahora posible en gran medida.
Tienes que imaginarte a la IA para el Search como un amigo al que haces preguntas por Whatsapp para que busque en la web por ti una información. Lo que este amigo puede hacer y darte información es básicamente lo que también puede hacer una IA. Para un gran número de búsquedas esto puede funcionar, pero no para todas. Por otra parte, el motor sigue siendo necesario para que la IA pueda responderte.
Esto es bastante gracioso, porque Google vía Amit Singhal en 2015 (otra época), pensó que estaba consiguiendo algo así con Google Now.
Ya que hablamos de Google, hay una segunda cuestión, que mantiene vivas las fantasías: ¿El chat GPT va a ser el inicio de la caída de Google? Ésta es una pregunta mucho más compleja que la primera.
De hecho, es cada vez más probable que la respuesta a la primera pregunta sea que las tecnologías que están surgiendo actualmente cambiarán el panorama de la búsqueda y de los usos asociados. Esto es cierto para Google, que sin duda tendrá que reinventarse en parte.
Para reinventarse, porque para morir, Google tendría que perderse por completo la revolución de la IA, aunque siga siendo una de las empresas punteras en la materia. Además, la historia de Google es edificante: no es el primer motor de búsqueda, no es el inventor de la publicidad en línea, no es el inventor de algoritmos del tipo learning to rank, etc. Pero, es el líder indiscutible en este campo. ¿Por qué? Porque Google siempre ha sido capaz de industrializar la búsqueda y la tecnología disruptiva más rápido y mejor que los demás.
Echemos un vistazo al panorama actual: por un lado, está openAI y los miles de millones de Microsoft, 10 para ser exacto. OpenAI tiene GPT3, Chat GPT y pronto GPT4. Google obtiene unos beneficios de más de 70.000 millones al año (uno puede imaginarse el flujo de caja asociado…), tiene centros de datos por todas partes, y actualmente tiene un modelo documentado (palm) 3 veces mayor que GPT3 con 540.000 millones de parámetros.
Pagar a 40.000 o incluso 200.000 personas para que califiquen un dataset ni siquiera es una cuestión para Google. Hacer un chat GPT más grande es, sin duda, fácil para la empresa.
Hay que recordar que Google despidió a Black Lemoine por argumentar que LaMDA, el modelo conversacional de Google, era consciente. Así que es posible que Google ya tenga un modelo del mismo tipo que chat GPT. Mi predicción completamente arbitraria es que en 6 meses como máximo Google puede sacar un producto mejor que chat GPT, si la empresa decide que es una prioridad máxima.
En realidad, la verdadera problemática es financiera: hoy Google basa sus ingresos en un modelo publicitario que sigue siendo muy rentable. Una herramienta-asistente, que haría en parte la búsqueda, debe encontrar su monetización. Establecer publicidad en un asistente conversacional parece complicado, mientras que un modelo de suscripción parece más realista. Y en cuanto a la monetización mediante suscripción, Microsoft está mucho más avanzado con su suscripción al paquete Office.
La otra cuestión es de saber qué va a pasar cuando todo esto será de pago. Hoy Chat GPT tiene 1 millón de usuarios -eso es mucho, pero no es nada comparado con la masa de usuarios de Google- y la herramienta está caída la mitad del día (exagero). ¿Quién va a pagar 40$ al mes por acceder a una herramienta que ni hace la mitad del Search? Y que tendrá que enchufarse a un motor (que también querrá su parte, con lo que aumentará el precio).
Para resumir la segunda pregunta, creo que Google se encuentra en una posición incómoda, con grandes decisiones estratégicas que tomar, pero no en peligro como a uno le gustaría creer. Y si se resuelve el problema de la monetización, será Google quien tome la delantera muy rápidamente.
En conclusión, como suele ocurrir, no hay mucho más que decir. Estamos viviendo un momento importante en la tecnología, y el primer sector que se verá perturbado, al menos en parte, es la Web, que es nuestro medio de vida y nuestro ecosistema. Muchas profesiones van a sufrir cambios profundos, hablamos de Search, pero son las profesiones de marketing digital, SEO y redacción web las que más deberían reflexionar sobre su futuro, es hora de reinventarse (¿otra vez?).