Hace unas semanas, una agencia SEO presumió de haber descifrado el algoritmo de clasificación de Google con una tasa de éxito del 92%. Gracias al reverse engineering, lograrían determinar si una página puede clasificarse.
Tengo muy poca información para determinar si fue un buzz o no… Todos podrán hacer su opinión.
Para saber más, veamos las problemáticas que se encuentran en este tipo de proyectos.
¿Qué es la ingeniería inversa?
El reverse engineering es un proceso que consiste en analizar un producto o sistema para comprender su funcionamiento y reproducirlo.
En nuestro caso, analizaremos los resultados de búsqueda en una gran escala para intentar reproducir la fórmula “mágica” de Google.
Puedes imaginarlo, este ejercicio es todo menos sencillo para un motor de búsqueda tan complejo como Google, hay muchos parámetros a tener en cuenta.
Las diferentes problemáticas
En qué palabras clave basarse
Nuestro algoritmo necesitará muchos datos para asegurarnos de predecir resultados confiables (Predictive Ranking). Sabemos que Google ponderará los factores de clasificación de diferentes maneras en función de la tipología de las búsquedas.
Por ejemplo, la dimensión semántica es menos importante en una ficha de producto o en una receta de cocina que en un artículo. La razón es simple, todas las recetas de pastel de chocolate como todas las fichas de productos para la PS5 son similares, por lo que no es un criterio discriminatorio que permita a Google elegir cuál es el mejor resultado.
Por el contrario, la semántica de un artículo permite a Google comprender si el artículo responde a la intención de un internauta.
Para eso, tendremos que aislar diferentes grupos de consultas para realizar una ingeniería inversa eficaz.
Recuperar los resultados de las páginas de resultados
Una vez que hayamos identificado las palabras clave, debemos recopilar los datos de la clasificación.
En este punto, surgen varias preguntas:
- ¿Recupero las posiciones sólo de la primera página? (Más rápido y menos costoso)
- ¿O voy hacia el top 100? (más largo pero más completo)
Todo depende de la pregunta que quieras responder:
- ¿Qué se necesita para clasificar en la página 1?
- ¿Qué se necesita para clasificar en el top 3?
- ¿Qué se necesita para ser el primero en Google?
Personalmente, me gustan las últimas 2 porque son las posiciones que aportan más tráfico.
¿Qué métricas utiliza Google?
Una vez más, la respuesta no es fácil. Google seguramente tiene mucho más de 200 criterios para calcular el ranking de las páginas.
Por lo tanto, hay que identificarlos sin cometer errores, si olvidas criterios importantes, los resultados del algoritmo no serán confiables.
Vemos algunos criterios que parecen relevantes:
- ¿El título está optimizado?
- ¿El artículo es relevante con una respuesta a la intención de búsqueda?
- ¿La página es popular? (En el sitio / en la web)
- ¿El sitio es popular? (En el sitio / en la web)
- ¿Es una receta de cocina / un artículo / un producto…?
- ¿El autor es un experto? (criterio EAT)
- ¿La página es reciente?
- ¿La página es mobile friendly?
- ¿Los core web vitals son respetados?
- ….
Ya ves, la lista es larga… y para cada criterio, habrá que definir cómo calcularlo. ¿Cómo determinas que un título está optimizado? No es tan sencillo…
¿Cómo colectar estas métricas?
Aquí también la respuesta no es trivial, porque tendremos que intentar recopilar las mismas métricas que Google para poder simular los mismos resultados.
Por parte de los criterios, existe herramientas que colectan los datos. Pero estas herramientas no tienen la potencia de cálculo de Google (que pocede muchos recursos para soca era toda la web).
Por lo tanto, tendremos que elegir las herramientas adecuadas para tener los datos más cercanos a Google.
Depende de ti elegir entre Majestic, Ahref, Semrush o SE Ranking para encontrar los indicadores que te parecen más cercanos a lo que Google calcula en términos de popularidad.
En el lado semántico, hay muchas herramientas para puntuar las páginas en función de una palabra clave.
Esto tendrá un coste porque el acceso a la API de las herramientas a veces puede ser caro.
Las propias métricas de Google
Para ciertos temas, Google calcula sus propias métricas. Recientemente, Google ha lanzado la HCU (Helpful Content Update) que le permite detectar las páginas que no están creadas para los humanos. Actualmente, ninguna herramienta es capaz de calcular un indicador similar.
Además, Google conoce la tasa de clics y la tasa de rebote en la SERP, algo que nadie más puede hacer.
Por lo cual seremos ciegos a ciertos criterios, lo que hará que los algoritmos sean menos fiables.
La métrica de la malla interna
Aquí no hay ninguna complejidad técnica. Los crawlers son capaces de identificar todos los enlaces internos que apuntan a una página. Pero lo que es complicado es ir a rastrear todos los sitios de la competencia (porque algunos tienen varios millones de páginas. Es un proceso largo…
Muchas páginas se clasifican sin backlinks, en estos casos, la malla interna será la única señal de popularidad de una página. Por tanto, esta información es muy importante.
El algoritmo de Google evoluciona regularmente
El reverse engineering funcionará siempre y cuando el algoritmo no evolucione o no lo haga demasiado. En cuanto el algoritmo evoluciona significativamente, tendremos que rehacer todo el trabajo para actualizar los datos y rehacer nuestro algoritmo.
Como mínimo, si las palabras clave que te interesan se ven afectadas por los Core Update, tendrás que volver a ejecutar todos los procesos varias veces al año para cada vertical.
En conclusión
Simular a Google es un trabajo complejo. Técnicamente, los algoritmos de machine learning son muy útiles para analizar datos. Esto es un gran paso adelante.
Pero aún queda mucho trabajo por hacer en la fase previa para identificar los factores adecuados y recuperar los datos correctos.
En cualquier caso, no necesitamos necesariamente un 92% de éxito para poder utilizar los resultados y así mejorar nuestra estrategia SEO gracias a la Data.