Comprobar la indexación en bulk

Comprobar la indexación en bulk

Comprobar si están indexadas un montón de urls, de una sola vez, implicaba hace tiempo, tener que replicar comandos como site: o como info:, o bien, tratar de automatizar la tarea con otros métodos no del todo rústicos.
Desde que conocimos una gran herramienta, desde este humilde blog no nos cansamos de contar cosas útiles que se pueden hacer con URLProfiler.
En esta ocasión, queremos compartir una funcionalidad super útil, como es la que describe el título del post: la forma de chequear la indexación, en masa, o bulk, de un montonazo de urls, de una sola vez.

Lo que no se indexa, no tiene posibilidad de ser visible

Lo ideal en cualquier proyecto, es tener un control de la indexación, para fomentar que los contenidos más importantes o relevantes a nivel orgánico, estén indexados y sean encontrables.
En este sentido, es muy importante a efectos de hacer más eficiente el proyecto, que aquellos contenidos sin demanda orgánica, no figuren con las mismas opciones de rastreo e indexación que los que si tienen dicha demanda orgánica.
De formas de indexar nuevas urls o contenidos, habréis oido hablar millones de veces y no es el objeto de este post, sin embargo, desde la implantación de Caffeine, no suele haber demasiado problema en conseguir indexar contenidos, como normal general.
Si bien es cierto, existen muchas casuísticas que pueden hacer ineficiente este hecho, y que a pesar que Googlebot esté rastreando el contenido, no lo esté indexando, y aquí si mencionamos los métodos disponibles para que un contenido se indexe:

  • Enlaces: tanto internos como externos, de ese modo puede ser descubierto
  • Instrucciones: tanto en robots.txt como en meta robots y canonical, debe ser accesible por googlebot y abierto a que pueda ser indexado.
  • Enviar por Google Search Console: esta opción es bastante directa y suele estar indexada prácticamente al momento, en casi todos los casos.
  • Sitemap: este caso no garantiza que se indexe, pero si es una forma de ayudarle a descubrir nuevas urls y contenidos

Dicho todo esto, ahora nos podemos ver en muchas situaciones, yo os comento una que nos ha ocurrido y viene de un hackeo a una web y la consiguiente pérdida de «confianza» por parte de Google, que cada vez ha ido rastreando menos esta web y sigue con dificultades para «pasar más» por allí.
Después de haber estado rastreando urls «basura» durante meses, la generación de nuevos contenidos y la consecución de enlaces externos para ganar más autoridad, aún no está siendo suficiente para devolverle al sitio que estaba antes de ser hackeado.

Preparar urls antes de comprobar si están indexadas

Podemos usar Screaming Frog para tener la información que queremos recabar, de todas las urls de los post del blog antes de comprobar si están o no indexados:

  • URL
  • Etiqueta Meta Robots
  • Etiqueta Meta Canonical
  • Status Code

Podemos extraer usando la opción «Include» de Screaming Frog, con el siguiente aspecto:
http://www.dominio.es/blog/.*
Con esta sencilla expresión, estaremos analizando ese path en concreto.
include screaming frog - mjcachon
O bien, analizando en modo Lista, el sitemap de post de dicho blog.
Y una vez analizados los post, vamos a usar el «export» para obtener las páginas html en formato csv tal y como se muestra en la imagen
exportar internal html csv
 

Necesitamos configurar proxies en URLProfiler

Para hacer una tarea que va a hacer peticiones repetitivas directamente a Google, necesitamos usar Proxies y evitar que nos baneen la IP o que la información que recoja URLProfiler sea inconexa.
Por tanto, una vez en el interfaz de la herramienta, desde «Settings», la pestaña «Proxies» nos dejará configurar rápidamente este punto
 

proxies urlprofiler

El formato a usar es IP:PORT (por ejemplo 123.212.12.124:8008)
Como veis, hay otras opciones que la herramienta te sugiere, para usar con proxies, como son peticiones que pueden ser repetitivas y saturar a Google o a un servidor de una web que estés analizando.

Importar archivo de Screaming en URLProfiler

Ahora podemos coger nuestro archivo de Screaming, el csv que sacamos con urls del blog y sus etiquetas principales, para poder chequear, con un contexto apropiado, si están o no indexadas.
¿Se nos olvida algo hasta aquí? Quizás sería útil tener algún dato más:

  • Enlaces externos
  • Fecha del último caché de Google
  • Autoridad

metricas extra urlprofiler
Como veis, la herramienta nos va a recopilar información de Enlaces Entrantes, usando conexión a Majestic, URLProfiler nos ofrecerá 500 peticiones al día, al igual que el caso de Moz, por tanto, en este caso solo necesitaríamos estar pagando URLProfiler para acceder a las 3 fuentes de datos 🙂
Y dado que las urls a analizar están bajo el mismo dominio, todas las métricas que vamos a agregar desde Urlprofiler son a nivel de URL (URL Level Data), pero imaginad que hacéis el análisis de una lista de dominios diferentes, las métricas deberían ser a nivel de Dominio (Domain Level Data), que es la franja superior.
Después de todo esto, ya podemos importar el archivo de Screaming Frog, tan solo usando el botón derecho en el panel derecho, nos activará estas opciones
url list en urlsprofiler
Como veis ahora, no haría falta el formato de Screaming explícitamente, sino que podríamos subir otros archivos e incluso fusionarlos, pero elegiremos la opción de Screaming que ya lo tenemos hecho.
Relax, puesto que si hemos puesto bastantes urls (y otras tantas métricas), le llevará su tiempo reunir todos los datos, y ya sabes, cuantos más proxies mejor 😉

Interpretar datos de Indexación de Urlprofiler

Urlprofiler nos dará un archivo Excel con la pestaña de datos de indexación y con otra de datos combinados con la info que importamos de Screaming, a veces puede resultar «demasiado» pero Excel nos permitirá ocultar o eliminar las columnas no necesarias.
Los datos que ofrecerá Urlprofiler, referentes a indexación:

  1. Google indexed: valores posibles que arrojará Yes, No, o Alternative URL
  2. Google info: indexed: Si el punto anterior no es SI, se chequea este punto, que puede resultar en Yes, No, Not Checked, Alternative URL
  3. Google index: Base, Deep o None. Si tenemos contenidos en el Deep Index, puede deberser a resultados «omitidos», bloqueados por robots, de baja calidad, etc.
  4. Google indexed alternative url: se muestra si existe una url indexada, alternativa a la introducida
  5. Google caché date: fecha del último caché, si no hay fecha, se indica «Not Catched». Si no es posible comprobar la fecha, se indica «Check Failed»

Si has visto alguna vez esto, ponte a revisar ya mismo…
resultados omitidos google
Cerramos este post en el que hemos analizado todos los post de un blog, para chequear si están indexados o no, y teniendo la información de enlaces internos, externos, domain authority, etiquetas robots y canonical, ver posibles mejoras.
Podemos llevar a cabo alguna cosa más sabiendo usar esta funcionalidad de Urlprofiler, como por ejemplo, cruzar las páginas indexadas en la actualidad y cruzar con las urls contenidas en sitemap para ver GAPs.
En este sentido, podemos tirar de Google Search Console para ver el status de los sitemaps y su indexación, y comprobar de forma práctica si es real o no dicha info.
También podremos hacer ajustes: desindexar lo que no corresponda o añadir a sitemap lo apropiado.
Cualquier duda, comenta y te echamos un cable, si quieres probar la herramienta, te dejamos el link para Descargar URProfiler
 
 

Publicado en SEO

3 comentarios sobre “Comprobar la indexación en bulk

  1. Tenia noción de URL Profiler pero la verdad tiene tanta utilidades que me parece junto con Screaming Frog una de las herramientas más y más completas para los SEO.
    Muy buen post sin duda, muchas gracias!
    Saludos Joel

  2. Hola MJ, una duda sobre la herramienta. A la hora de revisar la indexación de URL, la petición la hace a google.com o se puede configurar para google.es?

Los comentarios están cerrados.