Выборка данных в Google Analytics
При достижении лимита в 500 тыс. сеансов на уровне ресурса для выбранного диапазона дат Google Analytics начинает работать с данными несколько по-другому. Он их сэмплирует.
Сэмплирование (англ. Sampling) – метод выбора подмножества наблюдаемых величин из данного множества, с целью выделения неких свойств исходного множества. Иными словами, Google берет некоторую выборку данных, например, 10%, умножает ее на 10 и говорит нам, что так вели бы себя все 100%.
При работе с большими объемами данных все отчеты строятся быстро, нет никаких проблем с их загрузкой и отображением. А теперь представьте, что под такую выборку попала статистика по вашим рекламным кампаниям. В отчете на основе сэмплированных данных может быть показан доход 100 000 руб., а на самом деле за этот период он составил 150 000 руб. Или система взяла выборку на основании социально-демографических характеристик, что в дальнейшем привело к неправильному определению портрета целевой аудитории нашего сайта.
Желтый значок в Google Analytics рядом с названием отчета говорит нам о том, что к нему было применено сэмплирование:
Зеленый значок свидетельствует о том, что он построен на 100% выборке данных:
Google и Яндекс применяют сэмплирование для снижения нагрузки на свои сервера. Отчет строится гораздо быстрее, но может вводить веб-аналитика в заблуждение.
Преодолеть порог в 500 тыс. сеансов для посадочной страницы или небольшого интернет-магазина конечно сложно, но не невозможно. Чтобы на основе сэмплированных данных можно было делать выводы о всей совокупности значений, в выборке не должно быть никаких критических изменений, скачков и провалов.
Есть несколько способов борьбы с сэмплированием данных в Google Analytics:
- уменьшить временной диапазон;
Уменьшая диапазон дат, вы уменьшаете и количество данных, которое придется обработать системе. Можно разбить временной интервал на небольшие интервалы (например, по месяцам), а потом вручную собрать их в том же Excel.
- увеличить точность выборки;
Точность выборки задается в настройках GA при формировании отчета. Доступно два варианта:
- Быстрая обработка – небольшая выборка для оперативного получения результатов, большая погрешность;
- Более точные результаты - используется выборка максимального размера, обеспечивающая высокую репрезентативность данных.
Регулировка размера выборки будет использоваться для всех отчетов, пока вы не выйдете из Google Analytics.
- использовать Google Analytics 360 Suite;
Данный инструмент был разработан специально под корпоративных клиентов с целью предоставления самых актуальных данных в отчетах. Раньше он назывался Google Analytics Premium.
Входящий в него Google Analytics 360 (платная версия Google Analytics) может обрабатывать до 100 млн сеансов и 1 миллиарда обращений в месяц на уровне представления для выбранного диапазона дат.
Стоимость использования – от 4000$/мес.
- использовать Google Analytics Query Explorer;
Инструмент Query Explorer доступен по ссылке и позволяет выгружать большие объемы данных (10 000 строк за один запрос), создавать отчеты, содержащие более двух параметров (максимум 7), а также сохранять эти отчеты в формате TSV.
Например, можно выгрузить данные из нескольких профилей сразу. После выгрузки их можно объединить с данными из CRM-системы.
Инструмент работает с Core Reporting API.
- использовать Spreadsheet Add-on;
Дополнение (Add-on) для Google Analytics, которое позволяет выгружать данные в электронные таблицы Google через API с ограничением до 10000 строк.
- использовать язык программирования R.
Язык программирования R применяется для статистической обработки данных и работы с графикой. Благодаря программному обеспечению Rtools и RStudio, самому языку и готовым скриптам процесс выгрузки данных из Google Analytics через API значительно упрощается.
Инструмент является бесплатным.