La incoherencia actual de la indexación de Google

Muchos editores de sitios web, especialmente los más recientes, han tenido la amarga experiencia de que Google ya no puede indexar, o incluso sólo rastrear muchas páginas en este momento. ¿Es sólo un error temporal o es un problema más profundo, nacido del deseo de luchar contra el spam y los contenidos de baja calidad? Aquí hay algunas respuestas…
Como sabemos, Google lleva muchos meses experimentando grandes problemas con la indexación de páginas web, más concretamente en sitios recientes (pero no sólo).

Por lo tanto, en muchos sitios, las páginas se rastrean pero no se indexan, o simplemente no se rastrean. En Search Console, las URLs se muestran como “Excluidas”, en el informe de “Cobertura”, con los mensajes “Rastreada, actualmente sin indexar” cuando se rastrea y está a la espera de ser indexada o “Descubierta, actualmente sin indexar” cuando no se rastrea.
Este fenómeno se ha vuelto lo suficientemente importante como para darse cuenta de que no se trata de un bug aislado de un determinado sitio web. Esta es una tendencia realmente fuerte en el rastreo e indexación de Google en este momento.

La calidad de las páginas como primer criterio

Muchos SEO me han preguntado sobre esto en las últimas semanas, diciéndome la dirección de su sitio que no estaba siendo visitado o tomado en cuenta por los robots del motor. Hay que decir que muchas de estas fuentes de información eran de muy baja calidad:

El contenido era demasiado corto.
Artículos de un sitio con una visión 100% SEO en su diseño.
Artículos escritos únicamente para crear un enlace a una página de otro sitio (desde una plataforma de venta de enlaces u otra).
PBN.
Etc.

Para este tipo de páginas, es normal que Google haya implementado un algoritmo para separar el trigo de la paja. Hay que asumirlo. Pero para otras páginas (y sobre todo otros sitios), aunque sean completamente válidos y de buena calidad, el problema es igual.

Varias herramientas están tratando de corregir la situación, pero…

A raíz de esté problema, se crearon una serie de herramientas, la mayoría de las cuales utilizan la API de indexación de Google y estoy escribiendo un articulo sobre ¿Las herramientas para ayudar a la indexación de las páginas en Google son eficientes? haré varias pruebas y les diré lo que pienso.

Utilizándolas, y aunque la situación no sea ideal, podemos mejorar un poco la situación. Y el hecho de que estas herramientas de indexación forzada funcionen (al menos un poco) demuestra la total incoherencia de Google en este sentido. En fin:

O bien el motor considera que el contenido en cuestión es de baja calidad, en cuyo caso debe negarse a indexarlo, independientemente del método utilizado para presentarlo. Si una página es rechazada para su indexación a través de métodos naturales (crawling, XML Sitemap, etc.) pero es aceptada a través de la API, ¡es simplemente una gran estupidez!
O bien los indexa a través de la API, lo que significa que la calidad del contenido no está en cuestión, pero también demuestra su actual incapacidad para rastrear la web de forma natural y eficiente.

Por lo tanto, se trataría de un error en el motor y sus robots, o de un fallo en su sistema de rastreo, que le impide rastrear los sitios web de forma limpia y eficaz, especialmente los recientes. Un asunto muy grave, estarás de acuerdo, para un motor que pretende ser el líder mundial en este campo.

(Sin embargo, hay que tener en cuenta que algunas URLs son aceptadas a través de las herramientas de sumisión de la API, pero a veces son desindexadas después por el motor).

Actualmente podemos ver la degeneración de las capacidades de rastreo en los últimos años: en primer lugar los múltiples fallos que han marcado los últimos meses en términos de indexación y ahora esta imposibilidad de rastrear e indexar contenidos recientes. Incluso podemos decir que en este momento, Bing indexa la web mucho mejor que su competidor histórico. ¿Quién se habría atrevido a decir eso hace unos años? En este sentido, Bing es mucho más innovador, sobre todo con el protocolo IndexNow, que está disponible desde hace varios meses.

Mis conclusiones

¿Cuál es la situación actual? Después de analizar muchos sitios que luchan por aparecer en Google y de hacer mis propias pruebas internas, estas son mis conclusiones:

Los problemas actuales están tan generalizados y son tan increíbles que es imposible que Google no sea consciente de estos problemas. Así que debe haber una explicación lógica.
Es posible que Google esté implementando un sistema de filtros en este momento para indexar sólo los contenidos de buena calidad. Pero es un eufemismo decir que no está a la altura, sobre todo con los contenidos recientes, que todavía no han dado al motor señales positivas sobre la calidad del contenido de la página y especialmente del sitio que los muestra.
Si uno de los criterios para filtrar la calidad de los contenidos se basa, por supuesto, en el análisis de los textos propuestos en línea, parece esencial obtener rápidamente enlaces (backlinks) de un sitio que sea “de confianza” para Google (en el que el motor tenga cierta confianza: antiguo, que nunca haya sido objeto de spam, con una fuerte autoridad y legitimidad en su temática, etc.). Cada vez que hacíamos un enlace desde un sitio de confianza a una página web que previamente había luchado por ser indexada, dicha indexación se activaba como por milagro durante el día. Eso sí, sin afectar a la indexación de las demás páginas del sitio final. En otras palabras, la indexación de una página no provoca la indexación de las demás.
Sin duda, Google está tratando de crear cortafuegos para contrarrestar la posible invasión de contenido spam escrito automáticamente por algoritmos del tipo GTP-3. Si hoy el motor sabe distinguir los contenidos automatizados de los textos escritos por humanos, ¿qué pasará dentro de unos meses o años? Por lo tanto, es muy posible que Google establezca algoritmos que vayan en esta dirección, y se ocupe primero de las páginas web que tengan un historial que les permita analizar las señales. ¿La increíble situación actual de Google podría significar que los próximos contenidos a procesar serán los que se han puesto en línea recientemente, aún pendientes? Luego serán analizadas por el algoritmo, que podrá hacer su trabajo correctamente en este tipo de páginas… Uno puede imaginar esto, sin estar seguro, por supuesto.

De todos modos, es de esperar que la situación evolucione rápidamente, porque está claro que no da una imagen positiva de Google y de su capacidad para controlar su motor de búsqueda y el crecimiento actual de la web. Hay que reconocer que esto no era así hace unos años. Pero la Web era diferente, y el nivel de spam para hacer frente al motor muy diferente también (recuerda que Google descubre 40 mil millones de páginas de spam cada día!, y la evolución actual de los métodos SEO no tienen nada que ver).

¿Está el motor sobrepasado por la evolución exponencial de la web y el número de páginas e información disponible en línea, y por tanto el spam con el que es bombardeado? ¿O es sólo un contratiempo temporal y una situación que será rápidamente corregida por los equipos técnicos de Google?

El futuro próximo seguramente nos dirá más sobre esto… Una cosa es cierta en cualquier caso: la situación actual a fuerza debe cambiar si Google quiere mantener su actual hegemonía…

La calidad de las páginas como primer criterio

Varias herramientas están tratando de corregir la situación, pero…

Mis conclusiones

Quizá te gustaría leer también esto