Yandex Data Leaks: una filtración revela secretos del algoritmo del motor de búsqueda ruso

La filtración del código fuente de parte de los servicios de Yandex nos ofrece una visión sin obstáculos de los factores de clasificación del algoritmo de búsqueda.

Yandex: los secretos del algoritmo de búsqueda revelados

Se ha filtrado a la red el código fuente del buscador ruso, que revela más de 1.900 factores de clasificación utilizados por el algoritmo para posicionar las páginas web en los resultados. Un duro golpe para Yandex, pero una verdadera oportunidad para los expertos en SEO.

¿Te suena Yandex? Es el nombre del 4º motor de búsqueda más utilizado del mundo, por detrás de Google, Bing y Yahoo. En Rusia, es mucho más que un “simple” motor de búsqueda, ya que Yandex es el equivalente no sólo de Google, sino también de Amazon, Uber y Netflix, todo en uno. La filtración del código fuente de parte de sus servicios, incluido el algoritmo de búsqueda, es por tanto un evento mayor. Para los especialistas en SEO, también es una oportunidad de oro para sumergirse en los aproximadamente 1.900 factores de clasificación revelados, y así perfeccionar su comprensión de cómo funcionan los motores de búsqueda en general… ¡incluido Google!

Yandex Data Leaks: ¿de qué estamos hablando?

Más de 44 GB de archivos fueron robados al gigante tecnológico ruso en julio de 2022 y compartidos en Internet el 25 de enero de 2023. El código fuente divulgado en esta ocasión pertenece a diversos servicios de la empresa, en particular a su motor de búsqueda, pero también a Yandex Maps, Metrika (el equivalente ruso de Google Analytics), Market (“similar a Amazon”), una plataforma Cloud y muchos otros; en total, están afectados al menos trece servicios del gigante ruso.

Para los expertos en SEO, la gran noticia es la revelación de una parte importante de los criterios del algoritmo de los motores de búsqueda para clasificar las páginas web.

En el ecosistema SEO, esta filtración de datos es un evento que podría compararse fácilmente con la publicación de documentos gubernamentales secretos por parte de WikiLeaks o los Panama Papers. La información contenida en este archivo abre una ventana a uno de los mayores misterios del SEO: ¿cuáles son exactamente los criterios que utiliza un motor de búsqueda para decidir quién ocupa los primeros puestos en la SERP (la página de resultados)?

¿Por qué son importantes estas revelaciones para los expertos SEO?

Para comprender la importancia de este descubrimiento para la comunidad SEO, tenemos que entrar en los detalles (al menos un poco) de cómo funciona un motor de búsqueda. Un motor de búsqueda dispone de un algoritmo cuya función es explorar la multitud de páginas que existen en la Web, indexarlas en un archivo específico y evaluar su pertinencia en relación con las solicitudes realizadas por los internautas. En pocas palabras, cuanto mejor “clasificada” esté una página por el algoritmo, más posibilidades tendrá de aparecer arriba en los resultados.

Los motores son (bastante) transparentes sobre sus actualizaciones algorítmicas, y proporcionan a los webmasters una lista de buenas prácticas que deben aplicar para mejorar la puntuación de sus páginas. Pero cuando se trata de factores de clasificación específicos, la situación es confusa, y siempre lo ha sido. Google y los demás no te dicen exactamente lo que tienes que hacer para posicionarte en las SERP. La razón es comprensible: para quienes dominan estos factores, resulta posible piratear el algoritmo para clasificar sus páginas casi siempre.

Sin embargo, el trabajo de los especialistas en SEO consiste precisamente en descifrar estos criterios basándose en recomendaciones y en un análisis detallado de los procesos algorítmicos. Por eso la revelación de los factores de clasificación de Yandex ha causado tanto revuelo en la comunidad SEO.

Aunque los archivos no son recientes, y teniendo en cuenta que muchos factores se consideran obsoletos (y que seguramente se han añadido otros desde entonces), estos datos ofrecen, sin embargo, una visión sin precedentes de los secretos del algoritmo de búsqueda.

¿Cuáles son los principales factores de clasificación en Yandex?

La lista completa de los factores de clasificación de Yandex de los archivos robados se ha compartido ampliamente en Internet. Cada criterio está numerado, nombrado, descrito, asociado a autores y vinculado a documentación interna. El experto SEO Alex Buraks destacó los elementos más notables de la lista, siendo el primero de ellos el PageRank -sí, ¡el mismo criterio que utiliza Google! – utilizado por Yandex para evaluar la relevancia de las páginas.

Te presento una selección de los factores más interesantes.

Factores de clasificación relacionados con el tráfico

  • Porcentaje de tráfico orgánico (frente a PPC).
  • Porcentaje de tráfico directo en el tráfico total entrante (el hecho de que una parte importante del tráfico proceda de búsquedas orgánicas puede ser considerado un problema por el algoritmo).
  • El número de visitantes únicos del sitio web.
  • El número de consultas que se refieren directamente al sitio web o a la URL de una página del sitio web.

Factores de clasificación relacionados a los backlinks

  • Los backlinks son una de las señales más importantes para los motores de búsqueda, y Yandex no parece ser una excepción. Al igual que Google, el algoritmo tiene filtros para combatir las manipulaciones relacionadas con el netlinking. Pero también tiene en cuenta varias señales positivas, como éstas:
  • Se tienen en cuenta la antigüedad de los enlaces y su relevancia para el tema de la página.
  • Los backlinks publicados en las páginas de inicio de los dominios de referencia tienen más peso que los enlaces de las páginas internas.
  • Los anclajes de enlaces que contienen todas las palabras clave de la búsqueda, idealmente en orden, tienen más peso.
  • El algoritmo tiene en cuenta la relación entre backlinks “buenos” y backlinks “malos”. No hay ninguna especificación sobre lo que sería un “buen” enlace entrante, pero la comunidad está más bien de acuerdo en designar con este término a un enlace entrante natural, es decir, un enlace que no ha sido comprado ni ha sido objeto de una contraprestación.
  • Los backlinks de sitios clasificados entre los 100 primeros del PageRank tienen más peso.

Factores de clasificación relacionados con el contenido de la página

  • Un contenido de calidad favorece la clasificación de todo el sitio web.
  • La antigüedad del contenido y la fecha de su última actualización se tienen en cuenta en la clasificación.
  • El número de anuncios en una página también es importante; cabe imaginar que, como en el caso de Google, se trata de no interrumpir la lectura del usuario y no entorpecer su consulta. Sin embargo, parece que este criterio ha quedado obsoleto.

Factores de clasificación relativos a las URL

  • La presencia de números en una URL afecta negativamente a la clasificación, al igual que la cantidad de slashes “/” finales.
  • Una alta disponibilidad de las URL envía una señal positiva, porque mejora la navegación (y la satisfacción del usuario).
  • Se hace hincapié en la presencia de palabras clave en la URL (hasta tres términos), pero, de nuevo, este criterio parece haber quedado obsoleto.

Factores de clasificación relacionados con el comportamiento de los usuarios

Muchos de los criterios utilizados en la clasificación de páginas están relacionados con el comportamiento de los usuarios. El más sorprendente es, sin duda, el porcentaje de clics (CTR), porque la importancia que se da a este factor suscita dudas sobre su lugar en los algoritmos de la competencia (sobre todo en Google, que afirma a gritos y claramente no tomarlo en cuenta). Cabe señalar que Yandex dispone de un filtro (“PF”) que penaliza a los sitios web que practican el “click-jacking”, es decir, el acto de “imitar” el clic de los internautas.

Otros factores son el último clic, el tiempo de permanencia en la página, la tasa de rebote, el número de veces que los usuarios marcan una página en favorito, el número de visitantes que vuelven a la página en el mismo mes… Pero muchos de ellos se consideran obsoletos.

  • La profundidad del rastreo, y sobre todo el hecho de colocar las páginas más importantes a menos de tres clics de la página de inicio (así tienen más peso a los ojos del algoritmo).
  • La ponderación (simbólica) de las páginas huérfanas en la estructura de enlaces del sitio.
  • La posición media de las páginas del dominio en todas las consultas trabajadas.
  • Un “bonus” de posicionamiento atribuido a las páginas de Wikipedia (al menos para la versión inglesa de la plataforma) y al tráfico generado en el sitio a partir de una página de la enciclopedia participativa.
  • Un factor de clasificación específico para los vídeos cortos (Reels, shorts, contenidos en TikTok).
  • La importancia de las URL de cuentas sociales verificadas, frente a las cuentas no verificadas.
  • La presencia de código JS de Google Analytics.
  • Y un factor de clasificación que privilegia el azar: un sitio puede situarse en la parte superior de los resultados por el simple juego de las circunstancias. Esto permite al algoritmo realizar pruebas de comportamiento.

¿Qué nos dicen estas revelaciones sobre el algoritmo de Google?

Esta es la pregunta que se hacen todos los especialistas SEO: ¿hasta qué punto la información de esta filtración nos permite comprender mejor cómo funciona el algoritmo de Google?

En primer lugar, debemos ser conscientes de la proximidad tecnológica entre Yandex y Google. El buscador ruso fue creado por antiguos empleados de Google y se diseñó desde el principio como una herramienta similar, o al menos comparable. De hecho, existen funcionalidades similares: Yandex utiliza PageRank, y su MatrixNet es el equivalente de RankBrain (o viceversa, ya que su versión rusa es más antigua). Además, los SEO rusos suelen utilizar las mismas técnicas White Hat para posicionarse en ambos motores.

En resumen, aunque hay diferencias entre Yandex y Google, el enfoque de la clasificación es relativamente similar. Podemos entonces deducir que algunos de los factores de clasificación son idénticos en ambos casos, sobre todo porque los resultados que muestran las dos plataformas para la misma consulta comparten muchas fuentes (¡haz la prueba en casa!).

Entonces, ¿podemos aplicar las lecciones aprendidas de Yandex a las estrategias SEO en Google? En realidad no, ya que los dos motores tienen sus diferencias y, además, los factores de clasificación cambian constantemente: parece que algunos de los que se filtraron ya se han retirado.

Por otra parte, esta información puede considerarse como pilares sobre los que construir una mejor comprensión de cómo funcionan los motores de búsqueda en general, incluido Google. La buena noticia es que estas revelaciones confirman en general las corazonadas que la mayoría de los especialistas SEO han tenido durante varios años. En cierto modo, el caso de la filtración de datos de Yandex lleva a la comunidad SEO a creer que, efectivamente, ha estado siguiendo el camino correcto todo este tiempo.

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *