La metodología del corpus semántico en SEO

Share at:

ChatGPT Perplexity WhatsApp LinkedIn X Grok Google AI

Hoy me gustaría echar un vistazo a este concepto, que a veces parece malinterpretado y, en realidad, muy subestimado en SEO.

¿Es complicado entender este concepto?

No, no es complicado. No hay matemáticas en este post, ni siquiera gráficas (¡aunque el tema se presta a eso!). En cambio, quizá te sorprendan los resultados que puedes conseguir en SEO si aplicas este método… Como suele ocurrir en el Placer del SEO, intento hacer cosas nuevas o raras. Así que si los conceptos abordados aquí parecen proceder de “otro universo”, es normal. Pero, una vez más, es sencillo de entender y utilizar.

¿Qué es un corpus semántico en SEO?

Detrás de este curioso término se pueden esconder varios significados diferentes según el tema. Estos significados pueden ser similares, pero difieren en su aplicación.

“Un corpus semántico es el conjunto de consultas utilizadas por los internautas sobre un mismo tema”

¿Qué podemos añadir a esta definición?

Bueno, un corpus no es un conjunto de palabras clave, sino un conjunto de textos.  Si tu biblioteca contiene toda una repisa de libros sobre la teoría cuántica (¡qué delicia!), tienes un corpus: una base de datos de contenidos sobre este tema concreto.

En el caso de la web, Google es el bibliotecario. Ha clasificado las páginas según multitud de temas y los utiliza como “base de conocimientos” (en sentido literal) para identificar el tema de las páginas nuevas que no conoce. Fíjate en que he dicho “identificar” y no “comprender”. Google no entiende nada, pero tiene mucha potencia de cálculo y muchos datos.

Así que voy a darte el sentido en el que utilizo este término para eliminar cualquier ambigüedad desde el principio. Un corpus se utiliza para clasificar contenidos. Cualquier clasificación es arbitraria; es una elección que hacemos para poder “ordenar” los contenidos. Hay varias formas de hacerlo.

Tu biblioteca musical puede clasificarse en listas por intérprete, por estilo, por compositor, por letra alfabética… es tu elección: haz lo que quieras. En el desarrollo de objetos, una clase es una colección de objetos instanciados, pero también lo es una lista o una tabla. Lo mismo ocurre con una enumeración (por extensión).

Veamos algunos ejemplos de la vida real, para que todo el mundo lo entienda.

Tomemos páginas de la web, por ejemplo, recetas de cocina. Podemos decidir (es arbitrario) que todas las recetas de la web forman un conjunto de páginas porque todas tienen el mismo tema en común. Pero estas recetas también podrían incluir todas las recetas de postres. En el conjunto de recetas de postres, también podemos incluir recetas de pasteles.

En estos ejemplos, cada corpus incluye otros corpus. Pero esto no es necesariamente así. Por ejemplo, todas las páginas web en español, sea cual sea su tema, forman un corpus que no trata necesariamente de recetas de cocina…

De hecho, la clasificación de los contenidos vendrá determinada por tus necesidades. Hay que señalar, sin embargo, que un corpus no es necesariamente un tema… por ejemplo, puedes clasificar contenidos escritos en español, pero decir que se trata de un tema es falso (si nos referimos al significado actual de la palabra “tema”).

¿Qué tiene que ver esto con el SEO?

Cuando la gente busca en la web, aunque utilice una palabra clave concreta, está buscando un conjunto de páginas que corresponden a esa palabra clave, pero en un sentido específico.  

Por ejemplo, escriben “muebles de roble”.  Vale, pero ¿qué buscan cuando teclean esta palabra clave? ¿La historia de los muebles de roble? ¿Instrucciones de montaje? ¿Una tienda de muebles? ¿Un producto de limpieza para muebles de roble?  

Lo que el internauta busca, sin expresarlo, está en un corpus concreto de páginas, las que contienen su palabra clave. Teclean esta palabra clave con un objetivo concreto en mente.   Si buscan una buena tienda de muebles, no quieren que Google les devuelva contenido que se desvíe del sentido en que están utilizando esa palabra clave.  

Para conseguirlo, nuestro viejo amigo ha creado varias clasificaciones de páginas. Cada página está vinculada a 1 o más corpus (raramente sólo 1). Estos corpus deben responder a distintos tipos de solicitud.   La idea, en nuestro caso, es facilitar al motor la comprensión y poner delante de él el corpus que más nos interesa: el corpus que representa la intención del internauta al que queremos llegar.  

En resumen, yo diría que la pertenencia a un corpus da a tu página la relevancia que necesita para ser la página ideal que Google busca en un contexto de búsqueda determinado.

¿Cómo los motores de búsqueda reconocen el corpus deseado por el internauta?

Hasta la fecha, los métodos utilizados se han basado en lo que los internautas no han dicho.

Por ejemplo, el motor de búsqueda se fijará en tus búsquedas anteriores, para ver exactamente lo que buscas y lo que te has saltado. También utilizará información menos obvia, como tus datos de Gmail. Hay varias formas de hacerlo, pero no son perfectas. Sin embargo, permiten modificar las SERP en función del usuario.

Reconocer la intención del usuario tiene sus límites y no podemos hacer mucho al respecto…
Por otro lado, podemos asegurarnos de que tu página esté vinculada a un corpus concreto, el que nosotros queremos, no el que encuentra Google porque la descripción de tu página es demasiado neutra para estar vinculada a algo concreto.

Una de las razones por las que Google elimina las páginas demasiado cortas es que, incluso con palabras clave, no sabe realmente a qué corpus pertenece el contenido. Por eso es tan importante implementar una estrategia SXO: da a Google pistas mucho más allá de lo que puedas imaginar… Con una estrategia de contenido bien diseñada, puedes conseguir que vincule la página al corpus o corpus elegidos por ti y no por él.

Puedes tanto informarlo como engañarlo… Por ejemplo, puedes hacerles creer que está en una enciclopedia cuando en realidad está en una central de reservas… O al contrario, necesitas que te identifiquen como la central de reservas. (Es una cuestión de objetivos de marketing y de conocimientos de SEO).

Los que no sepan lo que es una estrategia SXO sólo tienen que hacer el curso “Mínimo SEO Viable” y registrarte para el lanzamiento de mi próximo curso sobre el SXO 😉

Pero, ¿cómo ayudas a los motores a entenderlo? Tanto si usas o no la estrategia SXO, tienes que proporcionar al motor de búsqueda este conocimiento del corpus de cada página de destino.

¿Qué método debes utilizar para ayudar al motor de búsqueda a comprender a qué corpus pertenece tu página?

Aquí es donde la cosa se pone divertida 😉 .
Te dejo reflexionar, comentar, compartir y tomate un cafecito o una copita de vino.  Te daré el punto de partida, luego podrás resolverlo con tu cabeza.

No te preocupes, ¡te seguiré ayudando! Bueno, ya dejo de molestarte.

Puedes modificar este método a tu gusto.

Empieza con un navegador que no tenga cookies ni historial y desconéctate del espía de Gmail o Chrome.
Escribe en Google la palabra clave para la que quieres posicionarte. Normalmente, Google te propondrá una serie de páginas que considera las más relevantes, sin saber lo que quieres, a menudo con un desglose de los distintos corpus posibles.

Empezando por el mejor resultado, toma las 2 ó 3 primeras páginas que correspondan EXACTAMENTE al corpus que deseas, PERO que NO reciban enlaces (esto es importante).

En los textos de estas 2 ó 3 páginas, recoge las palabras significativas, aquellas que no podrían utilizarse en otro contexto que no fuera el de tu corpus (pueden ser verbos, sustantivos, adjetivos, también símbolos). Ten en cuenta también las etiquetas TITLE. De hecho te recomiendo hacerlo con la búsqueda allintitle: “tupalabraclave”.

Haz tus páginas con un texto 100% original, pero utilizando exactamente los mismos términos y verbos que consideres relacionados con el corpus. No dudes en ser generoso con la cantidad de texto.
Sobre todo, no hagas un relleno de palabras clave. Google se dará cuenta rápidamente.

Piénsalo dos veces si tienes que buscar sinónimos de palabras identificadas como parte del corpus deseado.
Variante: puedes navegar entre los sitios y Google hasta que Google capte el corpus deseado y te sugiera sólo las páginas relevantes. Entonces tendrás las mejores páginas de este corpus en las SERP. De nuevo, ignora las páginas que reciben enlaces, ya que no sabrás si están posicionadas por ellos o por su relevancia intrínseca.

Si te centras en darle a Google las pistas para que te incluya en un corpus específico, cuando los internautas busquen páginas en este corpus, tendrás todas las posibilidades de que Google te identifique como especialmente relevante, con un netlinking idéntico.
Quizá pienses que esto es mucho que gestionar… pero no necesariamente cuando veas los beneficios en términos de relevancia… ¿Quieres estar número en google o no?
Es más, es esencial que Google te entienda, sin hacer spam ni toneladas de enlaces.

Diviértete 😉

Una vez que hayas entendido todo esto, estarás listo para empezar a buscar formas de hacer que tu sitio web se ajuste a las intenciones del internauta…
Sin revelar todo, me gustaría sugerirte algunas ideas y pruebas para hacer que un sitio responda a las búsquedas personalizadas. 

La diferencia entre las huellas extraídas de un corpus y las palabras clave relacionadas

Aquí voy a hacer algunas reflexiones:

Tenemos demasiada tendencia en SEO a reducirlo todo siempre a palabras clave, pero la palabra no es la única entidad que se puede explotar en un texto…
Decir que en 100 textos se encontraron x términos específicos con mucha frecuencia no significa que esos x términos puedan encontrarse juntos en el MISMO contenido… Ciertos términos también pueden ser rivales.
Prefiero hablar de un grupo de palabras para una página, otro grupo para otra, y así sucesivamente. De este modo, a escala de un corpus, creamos conjuntos difusos. Como no quiero marearte con la teoría subyacente, pasaremos a la siguiente reflexión.
Si todavía respiras cuando llegues aquí, habrás hecho lo más difícil. Entonces es probable que saques el máximo provecho de este contenido 😉 .
Lo que realmente está en juego

Al principio de este contenido, intentaba animarte a que hicieras de esto parte de la búsqueda personalizada.
Pero en la práctica, mucha gente sólo lo utiliza para encontrar palabras clave para un tema determinado (o una búsqueda determinada). Es una pena, porque en realidad no se trata de eso.

Juntar bolsas de palabras en búsquedas no personalizadas es necesario, pero no suficiente.
Tienes que averiguar qué hace el alma de las páginas que le gustan a Google, con una intención concreta e identificada por parte del internauta. Detenerse en acumular una bolsa de palabras en los primeros 50 o 100 resultados de búsqueda es un poco como comprar un Lamborghini y limitarse a la primera marcha.
Así que vamos a ver cómo utilizar los corpus en la búsqueda personalizada.

De los corpus no personalizados a los corpus personalizados

Vamos a utilizar sólo una bolsa de palabras para la explicación siguiente.

Entonces, has recopilado páginas que responden a una búsqueda. Como lo has hecho sin cookies y sin historial, el resultado que obtienes no lo obtendrá nadie ;-). Pero imaginemos que repites la operación después de haber saturado tu navegador de información para que Google perciba una intención. Esta intención podría ser, por ejemplo, que quieres comprar, en lugar de alquilar, no sé qué objeto que te interesa, y quizá de alta gama. Por supuesto, tu consulta no contiene los términos ” rentar ” o ” comprar ” ni ninguna otra pista.

Entonces recuperas un nuevo conjunto de páginas. Extraes otra bolsa de palabras.  Compara con las versiones con y sin intención. Algunas de las bolsas de palabras serán diferentes.
Si no estás acostumbrado a cachondear a Google para que perciba la intención, puedes hacer el experimento basándote en la geolocalización de tu IP.  Entre una configuración “neutral” y una configuración “localizada”, verás diferencias bastante claras en determinadas búsquedas.

De todas formas, antes de recuperar un corpus, alimenta tu navegador con lo necesario para que te identifique con la intención que has identificado como favorable.

¿Existe una función de transferencia?

Si nombramos un corpus no personalizado C y un corpus personalizado C’, ¿existe una función que nos permita pasar de C a C’?
En términos más generales, si llamamos GC al conjunto de corpus resultantes de un conjunto de consultas no personalizadas y GC’ al conjunto de corpus resultantes de esas mismas consultas, pero personalizadas, ¿podemos encontrar una función de transferencia que nos permita deducir una cosa de la otra?
Está claro que te gustaría que yo te diera la respuesta, pero los mejores experimentos son aquellos en los que has participado, ¿no?
Así que te dejaré hacer algunas pruebas, no te decepcionarán los resultados y aprenderás muchas cosas muy interesantes.

Perspectivas

Obviamente, muchos sitios tienen varios públicos objetivos.
Es posible crear contenidos que reproduzcan tanto los distintos perfiles posibles como las distintas etapas en las que puede encontrarse un internauta antes de realizar una compra.
Utilizando un enfoque de estudio de corpus múltiple, es posible formar varias trayectorias en un sitio…  

¿En serio, todavía estás acá?

Puede que Google sea un robot bastante primitivo, pero el contenido de tu sitio no tiene por qué limitarse a ser un blabla hecho a ciegas.

Un motor de búsqueda puede utilizar una serie de técnicas para “seleccionar” contenidos que satisfagan a los internautas.
Un buen contenido no es sólo un conjunto de palabras, sino palabras que se unen…

He hecho todo lo posible por ser conciso: ¡sólo 2.247 palabras!