Tutoriales de Screaming Frog hay muchísimos a golpe de una simple búsqueda de Google, no voy a comentar qué es un crawler ni cómo instalarlo, sin embargo, quería escribir un post que hablase de usos concretos y de utilidades que nos brinda esta potente herramienta (en su versión ilimitada, de pago).
¡Vamos allá!
¿Cuántas URLs tiene mi web?
«He revisado la indexación de la web y tiene 23000 urls indexadas….»
¿Y eso es mucho? ¿Poco? ¿Está bien?
Pues tendríamos que hacernos 2 preguntas:
- Cuántas páginas (urls) tiene la web en total
- Cuántas de esas, son optimizables para SEO, o son «posicionables» en base a nuestro producto, servicio, contenido, propuesta de valor….
Con Screaming Frog, podemos hacer este análisis, omitiendo algunos aspectos en la configuración previa, vamos al menú y tuneamos la configuración:
En cualquier caso, aunque no hagamos uso de esta configuración, tenemos como alternativa filtrar las urls totales rastreadas, y seleccionar únicamente las que sean HTML.
Con la nueva versión, existe un panel derecho muy visual, en el que podemos revisar el reparto de tipologías de contenidos y filtrar desde ahí
Lo que vemos aquí, es un sitio con un alto componente de imágenes, por lo que podría ser un buen aspecto estratégico a tener en cuenta y pulir, asociado a las páginas (html) objetivas para posicionarse en Google.
Volviendo a la pregunta del principio, si contamos con algo más de 200 urls html y otras tantas de imágenes, si tuviéramos todas ellas indexadas, con la cifra de 23000 urls indexadas, ya estaríamos en disposición de pensar que tenemos un problema que debemos investigar.
¿He puesto bien el código de Analytics?
Hay muchas otras formas de saber si está bien instalado el código de Analytics o si existen grietas o errores en la implementación del código, no obstante, podemos usar screaming para chequear que el código está presente en todas las páginas que queremos seguir.
En caso de proyectos que arrancan o acaban de empezar, a veces no hay conciencia de la importancia de empezar marcando bien todas las páginas que componen el site. El precio que se paga por esto es muy alto: estadísticas y datos que no se corresponden con la realidad.
Y la consecuencia muy dramática: la toma de decisiones basada en datos inconsistentes es un suicidio potencial. O como mínimo, mucha confusión y situaciones de incomprensión:
«Últimamente recibo muchas más llamadas de clientes, pero no sé cómo, porque no tenemos apenas tráfico»
Podemos utilizar un filtro customizado en Screaming Frog para rastrear en qué páginas está colocado el código, desde «configuración», «custom»:
Y ahora podemos añadir el código de Analytics al filtro, con «contains», para que chequee las urls donde SI está el código. Obviamente, también se puede hacer a la inversa, analizando con el filtro «does not contain»…
Estos filtros, como podéis observar, nos dan pie para búsquedas de mucho tipo:
- Buscar en qué urls tenemos plugins sociales
- Buscar en qué urls tenemos marcado de Schema: «contains: itemtype=http://schema.org»
- Buscar si tenemos urls hackeadas: «contains: viagra»
- Buscar enlaces absolutos o relativos: «contains: <href=http://www» | «contains: <href=www»
- Buscar nuestras keywords «top» y ver qué urls existen de contenido, para ver posibles optimizaciones: linkado interno, canibalización, etc.
- Buscar si existen páginas usando iframes: «contains:<iframe»
Bonus: una herramienta web interesante para buscar en código fuente de otras páginas http://nerdydata.com/
¿Tengo taaantos errores 404 en GWT? ¿De verdad?
Como falla un pelín la parte de errores 404 de Google Webmaster Tools, podemos hacer uso de Screaming Frog, para descargar los errores que nos marca GWT, pulir duplicados, y subirlos a Screaming Frog en modo lista, para chequear sus status code.
Es importante resaltar que debemos guardar la colección de urls que vayamos a analizar, en un fichero TXT, después nos vamos a «Mode», y elegimos «List».
Seleccionamos el fichero desde nuestro equipo y Screaming Frog ya «lee» el contenido del documento de texto, antes de empezar a rastrear todas las urls contenidas.
A partir de aquí, comenzará a rastrear las 675 rutas que hemos añadido a través del fichero txt.
En este caso, ya estaríamos en disposición de saber qué respuesta ofrecen las urls que hemos obtenido de la sección de errores de GWT.
Otras situaciones en las que podemos aprovechar esta funcionalidad:
- Seguimiento de una migración: analizar las urls de partida para chequear redirecciones.
- Chequear listados de backinks, para saber si están vivos o muertos
- Chequear nuestra lista de sitios potentes que NO nos enlazan de vuelta, combinando el modo lista y el custom filter, «does not contains:mjcachon.es»
- Revisar que todas las urls de campañas PPC, responden 200 y no estamos mandando tráfico a urls rotas.
¿Cómo hago un primer diagnóstico SEO rápido?
Podemos hacer varias cosas, rastreamos el sitio web que queramos, y después, a revisar distintos aspectos antes de quejarnos porque nos cae el tráfico :
Status de principales etiquetas
Una vez rastreado el site, aquí tenemos 2 opciones:
- Report Crawl OverviewPosteriormente, lo que se obtiene es un fichero CSV, con información resumen del crawleo efectuado por Screaming, donde podremos observar códigos de status, tipología de contenidos, y el estado de las principales etiquetas (títulos, descripciones, h1,…)
- Overview del panel derecho
Es la misma información, pero se recoge en el panel derecho y ofrece gráficos dinámicos para ver la distribución de las distintas facetas analizadas
Desplegando la flecha, se muestran los porcentajes en los que se duplican títulos o los ALT text de imágenes que no existen, por ejemplo.
Ojo, disclaimer obligatorio: no te quedes con la cifra de «0,1% de títulos duplicados» como un aspecto positivo necesariamente, es decir, quizás no estén bien optimizados o bien creados los títulos, a pesar del hecho positivo de no estar duplicándolos
¿Hay contenido? ¿Mucho? ¿Poco? ¿Nada?
Tenemos la columna «Word Count», que nos indicará el número de palabras que tiene cada url.
De un vistazo rápido podemos hacernos una rápida idea de situación respecto a los contenidos, principalmente enfocado a que todas aquellas páginas en las que no existe contenido de texto, puede tener más dificultades para que Google la asocie a unas determinadas palabras clave.
Directivas: «noindex» y «canonical»
Otro aspecto que podemos revisar de manera bastante rápida, es chequear qué páginas están marcadas con la etiqueta «robots noindex», para confirmar que no está incluida en páginas incorrectas.
Del mismo modo, las etiquetas «canonical» nos darán pistas sobre posibles problemas de duplicado de contenidos o de indexación selectiva.
En ambos casos, si seleccionamos la etiqueta que queramos revisar, en el panel derecho, nos filtrará la información en el panel central. Toda la información es susceptible de exportar, por lo tanto, a la medida de nuestras necesidades.
Otras etiquetas de interés:
- Paginados: rel next rel prev, previenen de duplicidades en listados que van paginando.
- Nofollow: para indicarle a Googlebot que no siga determinadas navegaciones por el site.
Comprobar velocidad de carga
Una vez finalizado el rastreo del sitio, podemos irnos a la pestaña «Response Codes», y veremos una columna llamada «Response Time».
Esta información ya nos dará pistas, antes de analizar a fondo lo relativo a rendimiento, si tenemos problemas de carga o algo reseñable.
En principio, para empezar, con estos tips, nos podría valer 🙂
Recursos útiles para Screaming Frog
1) Descarga de Screaming Frog
Opciones para distintos entornos, todos contentos
http://www.screamingfrog.co.uk/seo-spider/#download
2) Guía Oficial de Screaming Frog
Guía disponible en la página de la herramienta y otras de FAQs
http://www.screamingfrog.co.uk/seo-spider/user-guide/
3) Completísima Guía de SeerInteractive
Muchas casuísticas, aunque faltan cosas de las últimas versiones de la herramienta, es altamente recomendable.
http://www.seerinteractive.com/blog/screaming-frog-guide
4) Usar Screaming en Google Cloud
Para los más pro
http://www.filiwiese.com/running-screaming-frog-on-google-cloud/
5) Gdocs para analizar «Páginas No Indexadas»
6) Template Excel para analizar datos de Screaming Frog
http://www.lunametrics.com/blog/2014/05/23/screaming-frog-data-analysis-excel-spreadsheet/
7) Incrementar la memoria de Screaming Frog
Para rastrear sitios grandes, lo vas a necesitar
http://www.screamingfrog.co.uk/seo-spider/user-guide/general/#6
http://www.craigaddyman.com/how-to-increase-memory-allocation-for-screaming-frog/
8) Combinar Advanced Web Ranking con Screaming Frog
http://builtvisible.com/combining-awr-and-screaming-frog-to-spot-quick-wins/
9) Cómo programar Screaming Frog
http://www.screamingfrog.co.uk/how-to-schedule-a-crawl/
Otras ideas de Screaming Frog en español:
Como omitir la GEO-IP con Screaming FrogCómo usar el modo lista en Screaming Frog
Cómo auditar HSTS con Screaming Frog
Auditar redirecciones en bulk con Screaming Frog
Guía de principiante de Screaming Frog
Muy interesante y útil. Gracias por la explicación paso a paso.
Gracias gracias y mil gracias!
Hechaba en falta un articulo asi… la verdad es que ahora no tengo tantas dudas de este pedazo de herramienta!
Por otro lado, hablaras en alguna entrada de como modificar los errores?? Que pasos debemos seguir si mejor desde la propia herramienta, si desde WBT o por el contrario si es mejor desde nuestro WP en casa de Blog o si es tienda online prestashop… o desarrollo propio como es mi caso en el que se complica mas el asunto de cambiar cosas…
saludos!
No entiendo bien a qué te refieres, si quieres escríbeme un email y lo comentamos!
Hola buenas!!
Muchas gracias por el post!!
Estoy usando la herramienta y me aparece un status forbiden 403. ¿Cömo puedo solucionarlo? se te ocurre algo?
Gracias!!!
Hola Judit, el 403 sale porque la ip no está autorizada para ver esa url.
Quizás estás intentando entrar en una web en pruebas, que solo permite acceso a ips concretas, o mediante user y contraseña, por ejemplo….
Aunque el post se que tiene un tiempo, no he querido dejar pasar la oportunidad de dejarte un comentario y agradecerte el haberme resuelto una duda en la parte de URL, muy simple ahora que lo veo pero, que no terminaba de quedarme claro.
Si me permites la consulta y habiendo encontrado la respuesta al principio del post, mi duda es con un prestashop que me está dando algunos dolores de cabeza al tener 400 páginas de Html según Screaming, 850 en el estado de indexación de WMT y algo más de 2000 según site: pero no estoy seguro de cual es el dato que me ha de valer, (entiendo que el de Screaming frog) para en caso de, ir desindexando todo lo un no tiene que estar y controlar que se añadan nuevas páginas.
Un a vez más muchas gracias por lo útil de este post, y del blog en general que estoy leyéndome de cabo a rato.
Hola José,
Debes tener cuenta 2 matices:
1. ¿Sabes cuáles de tus páginas tienen interés SEO?
2. Depende como esté la estructura y el enlazado interno, un crawler puede llegar a un contenido para rastrear y posteriormente indexar o no, en función de las instrucciones que encuentre para ello. Hay una configuración para centrar el rastreo en las «páginas indexables»:
Configuration >> Spider >> Advanced >> «Respect Noindex»
Configuration >> Spider >> Advanced >> «Respect Canonical»
De este modo, el crawleo efectuaría el rastreo de las páginas indexables para Google y te valdría como dato para comparar.
Lo que ocurre es que si la estrategia de noindex y canonical no es correcta, estarás comparando números de como está ahora, pero no de la situación óptima.
También afectan otros aspectos como urls con parámetros, por ejemplo, que te pueden inflar la indexación, o si tienes subdominios…
No es lo mismo:
site:dominio.com
site:www.dominio.com
Y en un crawleo que hagas con Screaming, tampoco 😉
Si necesitas algo más de detalle, escribe un formulario por la web y comentamos más ampliamente 🙂
Muchas gracias por la respueta Maria José,
Me has aclarado muchísimo más si cabe con tu respuesta. Ya te digo que no hay mucha información al respecto por la web, al menos no en castellano. Y sé que para ti será una obviedad, pero creo que una indexación limpia y controlada es parte fundamental.
En este caso, la web no tiene una buena estragia de noindex y canonicals ya que están indexadas páginas como el carrito de compra, aviso legal, etc… Pero no conseguía controlar y conocer del todo el número real de páginas con interés SEO para, progresivamente ir desindexando el resto hasta conseguir tenerlo todo optimizado y controlado.
Una vez más gracias por el articulo y por tu amabilidad con la respuesta.
He aqui a partir de ahora una visita recurrente. 😉
Me alegro que te haya servido, insisto que si tienes alguna duda más allá, comentamos por email sin problema 🙂
Gracias por pasarte por nuestro blog!!
Tengo una pregunta,
Como podría extraer la Url + etiqueta titulo + Alt de una imagen «»
Utilizo Screamingflog –> Custom
y me gustaría poder sacar esa información utilizando Xpath o Csspath …
Podéis ayudarme?
Hola,
Queria saber como puedo ver en screming frog el alt que tienen las imagenes. Veo que hay campos de H1, title, etc que estan vacios, pero no veo el ALT
Gracias
Tiene dos formas.
En el panel central, una vez has acabado el crawleo, sección «Images» y puedes usar el filtro para elegir la info que quieras del Alt y descargar.
La opción 2 es en Bulk Export > Images
Saludos
Buen artículo, muchas gracias