¿Qué es el muestreo de Google Analytics?

Posted by Lucía Marín on May 22, 2014

El muestreo de Google Analytics consiste en seleccionar un subconjunto de datos del tráfico de un sitio web y generar un informe de las tendencias, a partir de dicha muestra. Se utiliza por dos motivos:

  • ofrece resultados similares al análisis de todos los datos*
  • agiliza el procesamiento de informes cuando el volumen de datos es muy grande

Los resultados de informe son fiables sin sobrepasar los límites de visitas hits en su cuenta (¡ojo! en la documentación en castellano pone “visitas” pero en inglés pone “hits”). En una cuenta estándar el límite es 10 millones de hits al mes (por propiedad), en una premium es de 1.000 millones de hits al mes. Si se sobrepasa dicho volumen, hay que utilizar el método “_setSampleRate”.

No confundir hit y sesión/visita, se pueden producir sucesivos “hits” a lo largo de una “sesión”, como se observa aquí:

visit-analytics

Imagen: Ayuda de Google Analytics

Muestreo de sesión en informes estándar y ad hoc:

El muestreo de sesión se genera a nivel de propiedad web de Google Analytics; por cada UA- se almacena una copia de todos los datos sin filtrar; y por cada vista de informe se crea un conjunto de tablas de datos agregadas* sin muestrear, que se recopilan diariamente.

Los informes estándar se basan en dichas tablas para ofrecer informes sin muestrear de forma puntual.

Además, los usuarios pueden hacer consultas ad hoc sobre informes a Google Analytics, para exprimir mejor los datos, por ejemplo:  aplicar segmentos a informes estándar, añadir unadimensión secundaria o publicar un informe personalizado.

exprimir-google-analytics

 

 

 

 

 

 

CONSULTAS AD HOC GOOGLE ANALYTICS

Cuando se lanza una consulta, GA inspecciona tablas procesadas (agregadas previamente), para determinar si pueden satisfacerla. Si no es así, se retoman los datos sin procesar y calculan nuevos datos de forma inmediata.
Para reducir la espera, a veces, se muestrean los datos de sesión de dichas consultas (quedando una muestra predeterminada de 250.000 sesiones, aunque se puede variar entre 1.000 y 500.000).

¿Cómo decide Google Analytics si muestrea los datos o no?

Se muestrea en caso de que, para el periodo considerado, haya más de 250.000 sesiones en toda la propiedad web.

Si se muestrea el informe resultante, siempre verá un cuadro amarillo en la parte superior del informe en el que se dice: Este informe se basa en N visitas.

copia-de-muestreo

Aplicar filtros de vista o segmentos puede reducir aún más el tamaño de la muestra.

Es importante resaltar que el muestreo se realiza en el nivel de propiedad web, con lo que, si a posteriori filtramos o segmentamos, la muestra final va a ser menor. Es decir, los segmentos o filtros se aplicarán sobre una muestra total de 250.000 sesiones, no sobre los datos brutos. Por ello, el muestreo es menos preciso en casos muy concretos, como en análisis de una sola palabra clave o, en aquellos casos en los que se filtran dimensiones de forma muy minuciosa, por ejemplo, cuando tenemos vistas muy filtradas o se analizan conversiones que constituyen tan solo una pequeña parte de las visitas.

 

EL VALOR DE DIMENSIÓN SE AGREGA: ¿QUÉ SON TABLAS AGREGADAS?

*Las tablas agregadas o procesadas que, como ya se ha comentado, se generan diariamente, aportan datos de TODAS las sesiones, aunque existe un límite en el número de filas/valores distintos.

GA agrega datos cuando hay más de 50.000 filas (dimensiones) de datos en UNA sola TABLA en UN único DÍA (en Premium el límite es 75.000). Para ello, crea una entrada agregada en el último valor, con todas las filas restantes, etiquetadas como “(other)”.

Para tablas agregadas para periodos de MÁS DE UN DÍA,  se puede leer como máximo es 100.000 filas (150.000 en GA Premium).

Límites en Consultas ad hoc: para cualquier periodo, cuando la consulta inicial no satisfaga, se acudirá a tablas sin procesar con el tope máximo de 1.000.000 de valores únicos analizados por dimensión.

Puesto que los valores de dimensión (URL, palabras clave…) suelen repetirse, este límite solo influye en portales con gran volumen. Además, lo que un día está en “(other)”, podría no estarlo otro día o periodo.
Más info sobre (other) en Ayuda de Google Analytics: en esta documentación concreta que el límite de filas para Google Analytics estándar es 50.000 y para Premium 75.000.

other-google-analytics

Al crear gráficos circulares también podemos ver valores de dimensiones agregados en “Otras”.

 

Muestreo en otros tipos de informes

Informes de embudo multicanal

GA tiene en cuenta 1.000.000 de conversiones, para el resto muestrea. GA muestreará hasta 1 millón de conversiones en el nivel de vista. Tenga en cuenta que en los informes de embudos multicanal el muestreo tiene lugar en el nivel de vista, no en el de propiedad web.

Además, el número máximo de rutas de conversión únicas es de 200.000 al día. Todas las demás rutas de conversión se agregan en “(other)”.

Informes de flujo de visitantes y objetivos

Muestra: 100.000. Subconjunto de 100.000 sesiones durante un periodo dado. Por ello, los datos de estos informes pueden diferir respecto a los de informes estándar de contenido (muestra: 250.000).

Como última curiosidad: Las muestras de recopilación de datos tienen lugar de manera uniforme entre los usuarios únicos. Por lo tanto, una vez que se seleccione al usuario para la recopilación de datos, se enviarán datos de todas las visitas (incluidas las próximas visitas) de este usuario a Google Analytics.

Aquí os dejamos nuestra Infografía sobre el muestreo en Google Analytics, by María López , gracias por la ayuda 😉

google-analytics-muestreo-1

Fuentes:
Cómo funciona el muestreo de Google Analytics
Límites de recopilación de datos de Google Analytics

Sobre mí