Выборка данных в Google Analytics

27 декабря, 2017

При достижении лимита в 500 тыс. сеансов на уровне ресурса для выбранного диапазона дат Google Analytics начинает работать с данными несколько по-другому. Он их сэмплирует.

Сэмплирование (англ. Sampling) – метод выбора подмножества наблюдаемых величин из данного множества, с целью выделения неких свойств исходного множества. Иными словами, Google берет некоторую выборку данных, например, 10%, умножает ее на 10 и говорит нам, что так вели бы себя все 100%.

При работе с большими объемами данных все отчеты строятся быстро, нет никаких проблем с их загрузкой и отображением. А теперь представьте, что под такую выборку попала статистика по вашим рекламным кампаниям. В отчете на основе сэмплированных данных может быть показан доход 100 000 руб., а на самом деле за этот период он составил 150 000 руб. Или система взяла выборку на основании социально-демографических характеристик, что в дальнейшем привело к неправильному определению портрета целевой аудитории нашего сайта.

Желтый значок в Google Analytics рядом с названием отчета говорит нам о том, что к нему было применено сэмплирование:

Выборка данных Google Analytics

Неполная выборка в Google Analytics

Зеленый значок свидетельствует о том, что он построен на 100% выборке данных:

Выборка данных Google Analytics

Выборка данных на основе анализа 100% сеансов

Google и Яндекс применяют сэмплирование для снижения нагрузки на свои сервера. Отчет строится гораздо быстрее, но может вводить веб-аналитика в заблуждение.

Преодолеть порог в 500 тыс. сеансов для посадочной страницы или небольшого интернет-магазина конечно сложно, но не невозможно. Чтобы на основе сэмплированных данных можно было делать выводы о всей совокупности значений, в выборке не должно быть никаких критических изменений, скачков и провалов.

Выборка данных Google Analytics

Скачок в статистике

Есть несколько способов борьбы с сэмплированием данных в Google Analytics:

  • уменьшить временной диапазон;
Выборка данных Google Analytics

Сокращение временного интервала

Уменьшая диапазон дат, вы уменьшаете и количество данных, которое придется обработать системе. Можно разбить временной интервал на небольшие интервалы (например, по месяцам), а потом вручную собрать их в том же Excel.

  • увеличить точность выборки;

Точность выборки задается в настройках GA при формировании отчета. Доступно два варианта:

  1. Быстрая обработка – небольшая выборка для оперативного получения результатов, большая погрешность;
  2. Более точные результаты - используется выборка максимального размера, обеспечивающая высокую репрезентативность данных.
Выборка данных Google Analytics

Быстрая обработка или Более точные результаты

Регулировка размера выборки будет использоваться для всех отчетов, пока вы не выйдете из Google Analytics.

  • использовать Google Analytics 360 Suite;

Данный инструмент был разработан специально под корпоративных клиентов с целью предоставления самых актуальных данных в отчетах. Раньше он назывался Google Analytics Premium.

Входящий в него Google Analytics 360 (платная версия Google Analytics) может обрабатывать до 100 млн сеансов и 1 миллиарда обращений в месяц на уровне представления для выбранного диапазона дат.

Стоимость использования – от 4000$/мес.

  • использовать Google Analytics Query Explorer;

Инструмент Query Explorer доступен по ссылке и позволяет выгружать большие объемы данных (10 000 строк за один запрос), создавать отчеты, содержащие более двух параметров (максимум 7), а также сохранять эти отчеты в формате TSV.

Например, можно выгрузить данные из нескольких профилей сразу. После выгрузки их можно объединить с данными из CRM-системы.

Выборка данных Google Analytics

Google Analytics Query Explorer

Инструмент работает с Core Reporting API.

  • использовать Spreadsheet Add-on;

Дополнение (Add-on) для Google Analytics, которое позволяет выгружать данные в электронные таблицы Google через API с ограничением до 10000 строк.

Выборка данных Google Analytics

Spreadsheet Add-on

  • использовать язык программирования R.

Язык программирования R применяется для статистической обработки данных и работы с графикой. Благодаря программному обеспечению Rtools и RStudio, самому языку и готовым скриптам процесс выгрузки данных из Google Analytics через API значительно упрощается.

Инструмент является бесплатным.

Получайте бесплатные уроки и фишки

По контекстной, таргетированной рекламе и аналитике

    2 Comments

    Leave a Comment

    • Galandzovskyi Stanislav

      Спасибо. Прекрасно и полезно.

      • Yakov Osipenkov

        Не за что. С наступающими!