Прогнозируемые показатели в Google Analytics 4

20 января, 2022

Google Analytics помогает нам собирать и измерять действия пользователей на сайте или в мобильном приложении, предоставляя большое количество всевозможных параметров и показателей для анализа. Как правило, к ним относится стандартный набор заранее предопределенных метрик, которые мы используем в отчетах для решения конкретных задач. Но с появлением нового счетчика Google Analytics 4 ситуация кардинально изменилась - теперь Google обладает еще и прогнозными показателями.

Обновление (февраль 2022): я выпустил электронное руководство по Google Analytics 4. Бесплатно скачать его можно в формате .PDF по ссылке.

Что такое прогнозируемые показатели?

Прогнозируемые показатели (Predictive Metrics) - показатели, основанные на технологии машинного обучения (Machine Learning, ML). Google Analytics 4 может автоматически прогнозировать поведение пользователей с помощью ML, чтобы вы имели возможность получать более глубокое представление о собственных клиентах и ​​их потенциальных покупательских привычках.

Например, GA4 позволяет оценить вероятность совершения события-конверсии (покупки) пользователями в ближайшие 7 дней, или вероятность оттока, то есть выявить тех пользователей, которые были недавно активны, но которые вряд ли посетят ваш сайт или приложение в ближайшие 7 дней. Google может также спрогнозировать предполагаемый доход от покупки в ближайшее время на основе исторических данных пользователя за последние 28 дней. Это очень интересно, не правда ли? Особенно в эру икусственного интеллекта, машинного обучения и предиктивной аналитики!

Пример прогнозов в Universal Analytics

Похожий функционал Google когда-то пытался реализовать в Universal Analytics. Помните отчет Вероятность конверсии (БЕТА) в разделе Аудитория – Поведение? Он позволяет оценить вероятность, с которой пользователь совершит конверсию в течение следующих 30 дней.

Отчет "Вероятность конверсии" в Universal Analytics

Этот отчет так и не стал популярным среди владельцев счетчиков UA по причине не самых простых требований (должно быть настроено отслеживание электронной торговли и зафиксировано не менее 1000 транзакций), поэтому полностью раскрыть силу и потенциал машинного обучения разработчики Google решили в новом GA4.

Требования к прогнозной модели

Однако в Google Analytics 4 тоже существует ряд требований, необходимых для успешного обучения прогнозных моделей и доступности прогнозных показателей. Вам потребуется не менее 1000 пользователей, которые инициировали необходимое для вас событие, и минимум 1000 пользователей, которые этого не сделали. Кроме этого, важно поддерживать качество прогнозной модели. Это означает, что вы должны не просто найти по 1000 пользователей для каждого критерия (один раз нагнать и все), но и поддерживать активность пользователей (совершение событий) в течение определенного периода. Исходя из официальной документации Google и информации по пороговым значениям из отчета Вероятность конверсии в Universal Analytics, он составляет ~28-30 дней. В случае, если какое-либо из этих условий не будет выполнено или количество пользователей упадет ниже минимального порога, Google Analytics 4 перестанет обновлять прогнозируемые показатели и они будут недоступны в интерфейсе.

Прогнозируемые показатели

На момент написания данной статьи в GA4 доступно три прогнозируемых показателя, которые вы можете использовать для получения дополнительной информации о ваших клиентах:

  1. Вероятность покупки (Purchase probability) - вероятность того, что для пользователя, который был активен в последние 28 дней, в ближайшие 7 дней будет зарегистрировано событие покупки;
  2. Вероятность потери (Churn probability) - вероятность того, что пользователь, который был активен на сайте или в приложении в последние 7 дней, в ближайшие 7 дней не будет проявлять активность;
  3. Прогнозируемый доход (Revenue prediction) - доход, который ожидается по всем конверсиям-покупкам в ближайшие 28 дней от пользователя, который был активен в последние 28 дней.

Для того, чтобы прогнозы по всем этим метрикам стали доступны в интерфейсе Google Analytics 4, вы должны отслеживать событие purchase (для сайта) или in_app_purchase (для мобильного приложения). Для purchase также необходимо собирать параметры value и currency.

Примечание: сейчас события purchase/ecommerce_purchase и in_app_purchase поддерживаются только для показателей вероятности покупки и прогнозирования дохода.

Создание прогнозируемой аудитории

На основе прогнозируемых показателей можно создавать прогнозируемые аудитории (predictive audiences). А чтобы узнать, доступны ли они вам для использования в Google Analytics 4, перейдите в раздел Конфигурация - Аудитории и создайте новую аудиторию:

Создание аудитории в Google Analytics 4

Создать прогнозируемую аудиторию можно 3 способами:

  1. на основе шаблона;
  2. через рекомендуемые сегменты;
  3. с помощью редактора аудиторий с добавлением условия и прогнозируемого показателя;
Аудитории на основе шаблонов

Если в разделе Варианты аудиторий вы не видите вкладки Прогнозируемые (Predictive), значит ваш ресурс GA4 не удовлетворяет минимальным требованиям для прогнозных моделей, и вы не сможете воспользоваться прогнозируемыми показателями в своем проекте:

Прогнозируемые аудитории отсутствуют

Ресурс, в котором доступны прогнозируемые аудитории, будет выглядеть так:

Прогнозируемые аудитории

Но если вы просто хотите посмотреть, как выглядят прогнозируемые аудитории и какие условия с прогнозируемыми показателями для них подобраны, вы можете воспользоваться тестовым аккаунтом Google Analytics 4. Так же перейдите в раздел Конфигурация - Аудитории. Создать новую аудиторию в тестовом аккаунте Google вы не сможете (не хватит доступов), но выбрать доступную из списка получится. Аудитории, помеченные иконкой волшебного карандаша, являются прогнозируемыми:

Прогнозируемые аудитории в тестовом аккаунте Google Analytics 4

Например:

  • Predicted 28-day top spenders - пользователи с прогнозируемыми высокими расходами (для нас доходами) за 28 дней;
  • Likely 7-day purchasers - пользователи, которые могут совершить покупку в течение семи дней;
  • Likely 7-day churning users - пользователи, которые могут перестать быть активными в течение семи дней.

Таким образом, Google за нас определил наиболее интересные (перспективные) с точки зрения денег и активности аудитории и создал их, а также добавил отдельно пользователей, которые, согласно прогнозной модели, будут неактивны и невостребованны для нас в ближайшее время. На такие аудитории можно настраивать рекламные кампании (ремаркетинговые) в Google Ads или вовсе исключать их из показа. Прогнозируемые аудитории будут автоматически доступны для всех аккаунтов Google Рекламы, связанных с вашим ресурсом GA4. Просто превосходно!

Чтобы узнать, какое условие Google добавил для прогнозируемой аудитории, напротив ее названия нажмите на иконку с тремя точками и выберите Просмотр:

Просмотр прогнозируемой аудитории

Вам откроется редактор аудиторий со всеми условиями. Например, прогнозируемая аудитория Predicted 28-day top spenders была создана на основе прогнозируемого показателя Прогнозируемый доход с условием больше, чем 95-й процентиль:

Прогнозируемая аудитория на основе прогнозируемого показателя "Прогнозируемый доход"

Подробнее о других способах создания прогнозируемых аудиторий читайте в этой статье.

Примечание: прогнозируемые показатели для каждой доступной модели вычисляются для каждого активного пользователя один раз в день.

Что такое процентиль?

Данный термин очень часто встречается в зарубежной литературе и в разных статистических исследованиях психологов, социологов, биологов, медиков, математиков, аналитиков, так как удобен и прост в записи. Процентили используются для понимания и интерпретации данных. Они указывают значения, ниже которых находится определенный процент данных в исследуемой выборке.

Работая с Google Analytics 4, вы должны понимать, что такое процентиль, поскольку часть прогнозируемых показателей содержит в себе это название. Например, если вы создадите исследование Общая ценность пользователя, то в нем вам станет доступен ряд показателей, которые вы сможете добавить к отчету. Среди них присутствует целая категория прогнозируемых метрик (Прогнозируемые):

Прогнозируемые показатели

В некоторых показателях встречается слово Процентиль: Процентиль 10, Процентиль 50, 80-ый процентиль, Процентиль 90. Так что же это такое?

ПроцентИль (ударение на последний слог), по-английски Percentile - статистическая мера, указывающая значение, которое заданная случайная величина не превышает с указанной вероятностью. Например, 50-й процентиль означает, что 50% значений из исследуемой выборки располагается ниже этого уровня, а 50% значений находится выше. То есть 50-й процентиль является медианой. Или 20-ый процентиль - значение, ниже которого могут быть обнаружены 20% наблюдений, а 80% оставшихся наблюдений (данных) находится, соответственно, вышего 20-го процентиля. И так далее.

Процентили часто используют при анализе результатов тестов, экзаменов, социологических опросов и т.д., в сравнении показателей здоровья различных групп людей и в других измерениях. Например, 20-летний мужчина ростом 178 см находится в 80-ом процентиле своего роста. Это означает, что 80% всех 20-летних мужчин имеет рост не более 178 см. С другой стороны, 16-летняя женщина ростом 160 см находится в 10-ом процентиле для своего роста, то есть только 10% процентов всех женщин ее возраста имеют такой же рост или ниже.

Процентили можно вычислить по формуле:

, где:

  • P - процентиль;
  • N - количество значений в наборе данных (отсортированных от наименьшего к наибольшему);
  • n - порядковый ранг данного значения.

Для лучшего понимания давайте разберем несколько примеров.

Пример №1

Предположим, у нас есть данные по 20 студентам, которые сдавали экзамен. Они получили следующие баллы:

  • 5 баллов - 3 студента;
  • 4 балла - 10 студентов;
  • 3 балла - 5 студентов;
  • 2 балла - 2 студента.

Необходимо вычислить процентиль успеваемости каждого студента.

Для расчета процентиля необходимо расположить значения в наборе данных по порядку от меньшего к большему и каждому значению из набора данных присвоить порядковый номер (ранг). Получим оценки студентов по возрастанию: 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5.

Допустим, нам необходимо определить процентиль студента Белякова, который получил на экзамене оценку 5. Воспользовавшись формулой расчета, подставим значения:

, где:

  • n = 20 - порядковый ранг (число студентов, получивших балл не больше 5, то есть это все студенты, поскольку 5 - максимальный балл на экзамене);
  • N = 20 - количество студентов в наборе (всего экзамен сдавало 20 студентов).

Таким образом, процентиль студента Белякова P=100 (2000/20), 100-ый процентиль. 100-й процентиль определяется как самое большое значение в исходном наборе данных.

Аналогичным образом можно произвести расчет процентиля для студентки Тепляковой, которая получила за экзамен оценку 4. Воспользовавшись формулой расчета, подставим значения:

, где:

  • n = 17 - порядковый ранг (число студентов, получивших балл не больше 4, то есть это все студенты, кроме трех, которые получили за экзамен 5);
  • N = 20 - количество студентов в наборе (всего экзамен сдавало 20 студентов).

Таким образом, процентиль студентки Тепляковой P=85 (1700/20), 85-ый процентиль.

Произведем расчет процентиля для студента Романова, который получил на экзамене оценку 3. В очередной раз воспользуемся той же формулой, поставив в нее нужные значения:

, где:

  • n = 7 - порядковый ранг (число студентов, получивших балл не больше 3, то есть это все студенты, кроме трех, которые получили за экзамен 5, и 10 студентов, которые получили за экзамен 4);
  • N = 20 - количество студентов в наборе (всего экзамен сдавало 20 студентов).

Таким образом, процентиль студента Романова P=35 (700/20), 35-ый процентиль.

Последний расчет выполним для студентки Паршковой, которая на экзамене получила оценку 2. Итоговая формула:

, где:

  • n = 2 - порядковый ранг (число студентов, получивших балл не больше 2, то есть это оставшиеся два студента);
  • N = 20 - количество студентов в наборе (всего экзамен сдавало 20 студентов).

Таким образом, процентиль студентки Паршковой P=10 (200/20), 10-ый процентиль.

После расчета процентиля можно составить таблицу стандартизации. Для наших баллов она будет выглядеть следующим образом:

Итоговая таблица

Процентили делят всю выборку на определенные части. Например, 10-й процентиль охватывает 10% объема выборки, 35-ый процентиль - 35% и т.д. Чем выше процентиль, тем больше данных он включает. Диапазон, который может приниматься - от 1 до 100.

Пример №2

Предположим, те же 20 студентов сдают тест, состоящий из 90 вопросов. Проходной порог, когда тест считается сданным, составляет 2/3 правильных ответов, то есть не менее 60.

Допустим, студент Беляков правильно ответил на 80 вопросов и сдал тест. Аналогичным образом преподаватель может проверить все оставшиеся работы, сравнив количество правильных ответов каждого студента с пороговым значением. Если правильных ответов больше 60 - тест сдан; если меньше - нет. В результате будет сформирован список сдавших и не сдавших студентов.

Но провести исследование можно и по-другому: оценить не результаты студентов, а сложность самого теста, сравнив ответы не с проходным баллом (60), а между собой. Изменив таким образом условия, мы получим совсем другие результаты. Теперь нужно понять: 80 правильных ответов Белякова - это много или мало по сравнению с остальными? Вот это и покажет процентиль.

Предположим, показатель Белякова равен 5-ому процентилю. Это означает, что он написал тест лучше, чем всего 5% студентов (1 человек из 20 получил от 0 до 80 баллов). Получается, что остальные 19 студентов набрали больше, чем 80 баллов за тест.

Какой вывод можно сделать?

  • тест для данной выборки студентов был очень легким;
  • порог правильных ответов (60) в тесте можно повысить.

Предположим, показатель Белякова равен 90-ому процентилю. Это означает, что он написал тест лучше, чем 90% студентов. Полученные результаты можно интерпретировать иначе: только 10% (2 человека из 20) набрали более 80 правильных ответов. Значит задания в тесте были весьма трудными.

Пример №3

Теперь перейдем к практическому примеру из Google Analytics 4. Создав исследование Общая ценность пользователя и добавив к нему показатели из раздела Прогнозируемые, а также параметр Дата первого посещения для разбивки данных в таблице, получим следующую картину:

Пример отчета с прогнозируемыми показателями

  • Зеленым отмечена когорта пользователей, которая посетила сайт 3 августа 2021 года. Исходя из прогнозируемого показателя Вероятность покупки: Процентиль 90 вероятность того, что пользователи совершат как минимум одну покупку в течение следующих 7 дней, составляет 34,7%;
  • Красным отмечена когорта пользователей, которая посетила сайт 18 октября 2021 года. Исходя из прогнозируемого показателя Вероятность потери: Процентиль 90 вероятность того, что пользователи не будут проявлять активность на вашем сайте в течение следующих 7 дней, составляет 94,8%.

Список прогнозируемых показателей

На текущий момент, в Google Analytics 4 доступно три прогнозируемых показателя, а также целый набор различных процентилей и средних значений для каждого из них:

  • Вероятность покупки в приложении: 80-й процентиль (In-app purchase probability: 80th percentile)
  • Вероятность покупки в приложении: Процентиль 10 (In-app purchase probability: 10th percentile)
  • Вероятность покупки в приложении: Процентиль 50 (In-app purchase probability: 50th percentile)
  • Вероятность покупки в приложении: Процентиль 90 (In-app purchase probability: 90th percentile)
  • Вероятность покупки в приложении: Среднее значение (In-app purchase probability: Average)
  • Вероятность покупки: 80-й процентиль (Purchase probability: 80th percentile)
  • Вероятность покупки: Процентиль 10 (Purchase probability: 10th percentile)
  • Вероятность покупки: Процентиль 50 (Purchase probability: 50th percentile)
  • Вероятность покупки: Процентиль 90 (Purchase probability: 90th percentile)
  • Вероятность покупки: Среднее значение (Purchase probability: Average)
  • Вероятность потери: 80-й процентиль (Churn probability: 80th percentile)
  • Вероятность потери: Процентиль 10 (Churn probability: 10th percentile)
  • Вероятность потери: Процентиль 50 (Churn probability: 50th percentile)
  • Вероятность потери: Процентиль 90 (Churn probability: 90th percentile)
  • Вероятность потери: Среднее значение (Churn probability: Average)
  • Прогнозируемый доход: 80-й процентиль (Predicted revenue: 80th percentile)
  • Прогнозируемый доход: Процентиль 10 (Predicted revenue: 10th percentile)
  • Прогнозируемый доход: Процентиль 50 (Predicted revenue: 50th percentile)
  • Прогнозируемый доход: Процентиль 90 (Predicted revenue: 90th percentile)
  • Прогнозируемый доход: Среднее значение (Predicted revenue: Average)

Получайте бесплатные уроки и фишки

По контекстной, таргетированной рекламе и аналитике