Por fin ha llegado el dia: Screaming Frog ha lanzado su versión de Log Analyser, ¡así, boom!
Requiere instalarse otro software y pagar otra licencia, independiente al crawler, pero, ya lo hemos podido probar, y a pesar de que tiene mucho recorrido aún para ir incorporando mejoras, la capacidad de procesamiento y los filtrados de inicio que hace, para mi ya valen las 99 libras anuales <3
Antes de contaros las bondades de este software SEO, vamos a dar un poco de contexto a este análisis SEO que tanta información útil puede dar, si sabemos entender el enfoque y la lectura, de estos datos.
Qué son los logs
Un fichero de logs contiene un registro de actividad fruto de todas las solicitudes que recibe nuestro servidor web. Esas solicitudes o «hits», se almacenan de forma anónima, con datos relativos a las solicitudes, como la fecha, la hora, la IP, la url y el user agent, entre otros.
Como comprenderéis, esta información, en la capa técnica de un proyecto, puede constituir un grueso de datos de gran valor, porque nos acerca de forma muy cercana, al comportamiento que tienen los bots, como Googlebot, en nuestro sitio web.
Una línea de un fichero log puede tener el siguiente aspecto:
66.249.65.87 – – [21/May/2015:06:36:00 +0200] «GET /equipo/mj/ HTTP/1.0» 200 1382 «-» «Mozilla/5.0 (compatible; Googlebot/2.1; +hcp://www.google.com/bot.html)»
Donde distinguimos los siguientes datos individuales:
- 66.249.65.87
- [21/May/2015:06:36:00 +0200]
- GET
- /equipo/mj/
- HTTP/1.0
- 200
- 1382
- –
- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Para qué sirven en SEO
Pues como estarás pensando, si tenemos el registro de actividad del accesos al server, y los datos que nos arroja nos permiten diferenciar los user agente de buscadores….Efectivamente, podemos analizar a fondo las páginas que rastrea Googlebot, filtrando por user agent y/o IP.
Con esta información podemos comprender cómo rastrea Google nuestros sitios, y tratar de optimizar todos los elementos a nuestra disposición para hacerle más fácil el rastreo, en las páginas de mayor valor.
Si no has oído el término crawling rate, digamos que esta información será útil para saber si la frecuencia de rastreo está siendo bien aprovechada, o si por el contrario, está siendo despilfarrada, por caer en páginas no óptimas para SEO, o carentes de contenidos de valor.
Detectar las zonas del sitio donde menos eficaz es el rastreo y que puede presentar deficiencias generales que afecten en global, son los puntos claves a mejorar con este tipo de análisis.
Por tanto, como punta del iceberg tendremos este análisis técnico, que nos llevará, una vez detectemos los indicios, a profundizar en los cimientos del proyecto: arquitectura, enlazado interno, rendimiento, calidad de contenidos, etc.
Screaming Log Analyser
Herramientas de análisis de Logs, hay muchas, por dejar aquí algunas:
- http://www.splunk.com/
- https://www.botify.com/
- http://www.oncrawl.com/
- https://www.loggly.com/
- http://logz.io/
- https://logentries.com/
Incluso si no quisieras invertir recursos económicos en licencias, podrías apañarte con tablas dinámicas de Excel, siempre que los volúmenes que manejes sean «asumibles».
Sin embargo, Screaming ha desarrollado una herramienta para analizar Logs, que es un estupendo punto de partida para analizar proyectos, en la capa técnica, y ahondar en los aspectos de rastreo e indexación, de forma más completa.
Para los costes que maneja esta licencia, 99 libras anuales, desde luego democratiza el uso de herramientas, para un sector de muchos y diversos tipos de proyectos, donde no siempre es factible comprar licencias de 500 euros mensuales.
Descarga prueba gratuita
La descarga de la licencia gratuita, se puede hacer desde su web, que nos dirigirá al sistema operativo apropiado. Lo que incluye esta versión sin coste es:
- 1 solo proyecto
- 1000 líneas de logs
- Sin soporte técnico
Esto básicamente es una forma de probar la herramienta antes de decidir si pagar por ella, porque francamente, o analizas periodos muy cortos de tiempo, o proyectos muy pequeños, que con tan solo mil líneas, vas a tener una información muy limitada.
Pero hemos venido aquí a contar qué se puede hacer con Log Analyser de Screaming, ¿no? Pues vamos allá 😉
Opciones Actuales de Screaming Log Analyser
La descarga del Log Analyser es independiente a la del Crawler Screaming Frog, son dos softwares a parte, y que se pagan por separado, así que para empezar, si quieres tener ambas funcionalidades, ya sabes, 2 licencias anuales.
La forma de diferenciarlos, el logo de escritorio, que a mi al menos me parece muy gracioso, que el de logs está más fit 🙂
Crear el proyecto
Lo primero es crear el proyecto, desde el botón New
Y podremos darle el nombre que queramos y elegir la zona horaria de los datos que posteriormente volcaremos con el import.
Recordad, con la licencia gratuita, este sería el único proyecto que podríamos crear y dejar almacenado en el software.
Importar urls
Un aspecto más que interesante de la herramienta, es que no solo permite subir ficheros de logs para su procesamiento, sino que puedes también subir urls fruto de un crawleo, por ejemplo, en Screaming Frog Spider.
¿Qué valor puede tener esa info subida en la herramienta?
Pues la opción de cruzar los datos de Logs con el status de las urls, a nivel on page: status code, tamaño, canonical, meta robots, enlaces internos, extensión del contenido,…
Se importa arrastrando al panel, o usando «import + url data»
El resultado de importar el fichero típico de Screaming, «Internal_all», sería el siguiente:
Pero ojo, que puedes combinar varios, por ejemplo, subir también las urls del sitemap crawleadas, o las que descargues de Majestic porque tienen enlaces…
Importar fichero de logs
Empieza la acción 🙂
Con el proyecto creado, podemos subir ya una muestra de logs, simplemente arrastrando el fichero al panel o a través del botón Import + Log file.
Y una vez procese todos los registros contenidos en el log, automáticamente llegaremos a la pantalla de Overview, con la información total de datos, agrupada por urls, días, status code, y sus correspondientes gráficos visuales, representando los datos del rango completo de fechas.
Overview
De la captura anterior, destacamos los datos que presenta:
- urls únicas
- urls únicas por día
- Total events/hits
- Eventos/Hits por día
- Media de bytes
- Errores y su % del total (suma 4xx y 5xx)
- Y la integración de logs y urls importadas:
- Matched with url data: urls que figuran en el crawleo y que reciben hits
- Not in url data: urls que reciben hits pero el crawleo no llega a ellas. Pueden ser malas migraciones, páginas huérfanas, o gente que nos enlaza incorrectamente…
- Not in log file: urls que figuran en el crawleo pero no reciben hits aún. Quizás páginas demasiado recientes…
Por otro lado, los gráficos dinámicos, son:
- Events: distribución de eventos o hits, por user agents. Interesante para detectar qué user agents nos visitan más. En este caso, solo nos añade la info relativa a user agents de bots de buscadores, por lo que aquellos hits de otros user agente que nos puedan consumir mucho ancho de banda no la veremos aquí, pero estos podrían ser candidatos a ser bloqueados por robots.txt
- Response Codes: distribución de eventos o hits por código de respuesta, interesante para detectar picos de errores, tanto por caídas de servidor como por urls que dejan de existir.
- Urls: distribución de urls que reciben hits a diario. Una buena métrica a seguir como termómetro de cuan recorridos son nuestras urls en conjunto, si las comparamos con las urls SEO efectivas del sitio, mejor dato aún.
Los gráficos que podremos filtrar de forma sencilla, desde la zona superior derecha del overview: por user agent o por fecha, para especificar el resultado del gráfico, bajo esos parámetros.
Urls
Desde esta tab, tenemos toda la información de los logs, separada en los siguientes datos customizables:
Si pulsamos en el «+» del final de la fila de datos, podremos elegir cuáles se muestran y cuáles no, de cara a visualizar simplemente lo imprescindible, no obstante, al exportar la información estará la tabla al completo.
Otra opción interesante, es poder filtrar por tipo de contenido y analizar el impacto de los logs por tipologías
La utilidad de esta pestaña a nivel SEO, es clara, nos va a dar el diagnóstico de las urls que reciben hits, por cada bot, y el rendimiento específico, lo cual es un dato interesante de cara a posibles optimizaciones.
También será muy útil tener la distribución de hits por bot, por ejemplo, para detectar cuántos hits vienen de la versión de Googlebot Mobile y Googlebot Smartphone, vs Googlebot Regular
Response Codes
Otra pestaña importante, ya que accederemos a todos los códigos de respuesta que reciben las urls, pudiendo filtrar por bot y fechas, y ya la tabla específicamente, por status code, para ver cuantos hits van a urls a cada status code.
Vamos, la distribución de hits por status code, pero al detalle de url, que será otro punto a seguir, si vamos almacenando el proyecto y comparando muestras de logs periódicas.
Es una gran forma de acceder a las urls que nos generan errores, saltándonos las restricciones de descargas de Search Console, por ejemplo.
Events
Las solicitudes recibidas, se muestran en «Events», con la información detallada por metodo, user agent, url, status code, bytes, ip y referer, prácticamente la información que explicábamos al inicio del post.
Filtros por User Agent y Fecha
Estos filtros es transversal a todas las pestañas principales, por tanto podremos filtrar la info desde las siguientes tabs de info:
- Overview
- Urls
- Response Codes
- Events
- Imported Url Data
Vista
Tenemos un filtro super útil que se ubica en Response Codes, pero solo se activa cuando hemos importado Logs y Urls.
De este modo, nos permite filtrar el panel central de datos, en función del match entre logs y urls.
Precisamente es la info que venía en Overview, y que nos posibilita detectar problemas de urls que son crawleadas y no reciben hits, y viceversa, para tomar medidas al respecto y hacer que mejore el rendimiento SEO de estas urls.
Os lo recuerdo, por si lo habéis léido en diagonal 😀
- Matched with url data: urls que figuran en el crawleo y que reciben hits
- Not in url data: urls que reciben hits pero el crawleo no llega a ellas. Pueden ser malas migraciones, páginas huérfanas, o gente que nos enlaza incorrectamente…
- Not in log file: urls que figuran en el crawleo pero no reciben hits aún. Quizás páginas demasiado recientes…
Paneles inferiores: url info, events
Hasta ahora hemos contado todas las tabs superiores y los filtros que existen, pero estando en cualqueira de las tabs principales (urls, response codes, events), podemos obtener más información si elegimos una url (una fila).
Los paneles inferiores activarán 3 pestañas extra: Url Info, Events, Referers
- Url info
Este panel inferior se activa desde todas las tabs principales: Urls, Response Codes, Events, Imported Url Data
Específica la info de la url seleccionada, similar a un transponer de Excel, trasladando la info de la fila del panel central, a una columna en el panel inferior.
- Events. Disponible en las tabs Urls y Response Codes
Aquí si que cruza la información de la url con los datos del hit en si mismo: metodo, bytes, user agent, status code, ip…
Buscador
A excepción de la pestaña Overview, todas las pestañas tienen activo un buscador, que filtra las urls del panel central, al igual que hace Screaming Frog Spider, y en el que puedes añadir patrones de urls, para hacer pequeños filtros de los datos.
Un posible uso del buscador, puede ser para buscar «paths» principales, del proyecto, y ahondar en ese directorio concreto.
Exportar
Salvo la pestaña de Overview, todas disponen del botón Export, que nos permite descargar la información de la tab en la que estemos, en distintos formatos
Botón derecho
Además, estando en cualquier pestaña y encima de una url, el botón derecho, nos dará las opciones habituales que da el crawler, como nos tiene acostumbrados, integraciones para dar más utilidades:
Mover filas de sitio y orde ascendente o descendente
Haciendo Drag and Drop, podemos coger una columna y moverla de sitio, para tunear mucho más el panel central, de la tab en la que estemos.
La tab Events, cambiando los elementos de lugar, Row, Method, User Agent, movidos hacia la izquierda:
También puedes ordenar los distintos paneles centrales, con el criterio de una columna de datos, en orden ascendente o descendente, funcionalidad que también tiene Screaming Frog Spider.
¿Opciones Futuras de Screaming Log Analyser?
Ojalá en un futuro próximo pueda albergar opciones como estas:
- Buk reports: con informacion cruzada de logs y url data
- View: que agrupe las urls por path
- Custom: que le puedas indicar directorios profundos, para que sean agrupados y filtrados.
- Informes personalizados: con gráficos que crucen los datos de logs y url data, y los %.
- Integrar Estadísticas de Rastreo de Search Console
- Integrar Vistas de tráfico orgánico de Analytics
- Informes comparativos: GA vs Logs
Pues ahí está mi carta a los reyes magos de Screaming Frog 😀
Métricas SEO que podríamos seguir con Logs
Como reflexion final, se nos ocurren algunas ideas de métricas o indicadores generales que podríamos seguir, si analizamos periódicamente los logs del servidor, quizás, buscando el dato de tráfico orgánico también, para tener en contexto la comparativa de hits y tráfico orgánico final.
Otros recursos para analizar Logs
Para cerrar este post, simplemente recomendar varias lecturas de post verdaderamente útiles para el análisis de Logs y un aprovechamiento óptimo de la información que obtengamos:
http://searchengineland.com/7-fundamental-technical-seo-questions-to-answer-with-a-log-analysis-and-how-to-easily-do-it-245903
Otros contenidos sobre Screaming
Generador de sitemaps con Screaming FrogAnalizar los ALT de las imágenes con Screaming Frog
Muy buen artículo, he leído bastantes cosas sobre el crawl budget. Me gustaría saber de dónde se consiguen los logs del servidor y qué tipo de archivos son, me podrías ayudar?
Un saludo y gracias!
Hola David, pues es una cuestión del sistema donde esté alojado el sitio.
Yo por ejemplo trabajo con CDMon, les solicité que me activaran el registro de logs, y luego es muy fácil desde el panel de control, acceder a la carpeta y bajar los ficheros.
Estos ficheros .log se pueden abrir con un editor de texto o con excel.
Te dejo aquí el formato que suelen tener http://httpd.apache.org/docs/current/mod/mod_log_config.html
En cualquier caso, tendrás que pedírselo a quién gestione la web en cuestión y que te los facilite.
Espero que te haya servido 😉