Совмещение данных из разных источников в Google Data Studio
Ведете ежедневный учет продаж в Google Таблице? А статистику по расходам на рекламу смотрите в Google Analytics? А потом сводите данные из двух таблиц в одну вручную? Самое время разобраться с функцией «Совмещение данных» в Google Data Studio, которая позволяет объединять данные из разных источников / таблиц в одной диаграмме.
Что такое совмещение данных в GDS?
Давайте разберем очень простой, но наглядный пример. Предположим, вы являетесь владельцем интернет-магазина одежды, и каждый день пользователи совершают у вас покупки. В базе данных вашего сайта хранится вся информация по совершенным транзакциям:
- в таблице 1 - это дата, ID заказа и сумма покупки;
- в таблице 2 - данные покупателя (имя, фамилия, телефон, адрес доставки), данные о товарах, которые он купил, а также комментарий к заказу.
В какой-то момент вы хотите построить сводную таблицу по заказам и их статусам. Однако структура базы данных вашего интернет-магазина построена таким образом, что нет возможности сразу же выгрузить в одной таблице все необходимые метрики. И тогда приходится вручную брать таблицу 1 и «скрещивать» ее с таблицей 2, чтобы получить объединенную таблицу.
Google Data Studio позволяет нам за пару кликов решить эту задачу. Как? Все, что необходимо сделать – это указать ключ объединения (может быть несколько), по которому система будет определять взаимосвязь между источниками данных. В примере выше синим цветом как раз отмечен ключ объединения (ID заказа), который присутствует в обеих таблицах и по которому GDS сопоставляет данные.
Левое внешнее объединение (LEFT OUTER JOIN, часто OUTER опускается)
Google Data Studio соединяет таблицы по так называемому «левому внешнему объединению». Термин пришел к нам из баз данных и SQL-запросов. В этом объединении важен порядок следования таблиц (слева -> направо).
Результатом будет являться таблица, в которой совпадают данные по условию объединения (из обеих таблиц), а также оставшиеся данные из внешней (левой) таблицы, которые по условию не совпали с правой. Недостающие данные заполняются значением NULL (пустое поле).
Проще всего проиллюстрировать это на конкретном примере. Есть две таблицы:
- Таблица 1 содержит в себе информацию об авторах книг;
- Таблица 2 содержит в себе информацию о названиях книг (в этой таблице № книги является внешним ключом, который ссылается на таблицу 1 с авторами);
Если мы объединим две эти таблицы в Google Data Studio, то результатом будет Объединенная таблица. Как можно заметить, запись о книгах автора Билла Любановича отсутствует в базе и поля № книги и Название книги дополняются значениями NULL.
Примеров, когда необходимо совместить данные из разных таблиц и источников, великое множество. Например, когда вы используете несколько различных коннекторов. Чтобы сравнивать данные из разных источников, раньше необходимо было располагать их как можно ближе к друг другу:
А теперь если объединить данные из трех источников в один, получим такой график:
Еще несколько примеров использования data blending:
- при настройке «сквозной аналитики» для связки по Client ID;
- учет оффлайн и онлайн продаж;
- объединение данных из разных представлений Google Analytics, поскольку в нем есть ограничение на 20 целей;
- расход в разрезе каждой площадке РСЯ/КМС и выручке по ней;
- совмещение данных из разных рекламных сетей;
- совмещение данных по нескольким сайтам (с помощью вычисляемых показателей в Google Data Studio можно объединять данные из разных источников, например, для суммарного подсчета количества трафика или бизнес-показателей);
- наложение внешних данных на онлайн-метрики. Например, как высокая температура на улице влияет на продажи кондиционеров. Или как плохие погодные условия (дождь, слякоть) влияют на продажи сервисов по доставке еды на дом;
- для подсчета основных бизнес-показателей: ДРР, ROMI, ROI, ROAS и т.д.
- связь базы данных (например, MySQL или PostgreSQL) с инструментами веб-аналитики;
- любые данные, которые собираются в разных местах или отделах, но которые можно объединить.
В данный момент в Google Data Studio поддерживается объединение до 5 источников данных. Причем чтобы совместить данные, один и тот же ключ объединения должен присутствовать во всех таблицах. Не получится связать две таблицы по одному ключу, а потом третью таблицу с первыми двумя через другой ключ объединения.
Давайте перейдем к совмещению данных в GDS. В качестве примера будем использовать статистику по продажам за 1 день (14 мая 2019 г.) и:
- данные по электронной торговле с привязкой к Client ID (уникальному идентификатору пользователя);
- информацию по статусам заказов из Google Таблицы, которые проставляются вручную операторами;
Чтобы объединить из двух таблиц, сначала нам эти данные необходимо загрузить в Google Data Studio. Для этого создадим 2 источника данных, воспользовавшись бесплатными коннекторами Google. Один – это «Google Aналитика», а второй – «Google Таблицы».
Процесс добавления данных к отчету я специально опущу. Подробнее об этом вы можете почитать в моей статье для ppc.world.
Примечание: чтобы добавить еще один источник к отчету GDS, перейдите в Ресурс – Добавленные источники данных – Добавить источник данных.
После загрузки данных в GDS просто создайте 2 отдельных таблицы с необходимыми метриками. В моем примере они выглядят так:
Зеленая таблица – данные из Google Таблицы, оранжевая – данные из Google Analytics. Теперь мы можем сопоставить данные по заказам с привязкой к статусу (Выполнен или Отменен). Например, ID заказа 48121 – был совершен 14 мая 2019 года на сумму 10 900 руб., источник – yandex / organic, статус «Выполнен». Реальные деньги мы заработали. А вот заказ 48107, на сумму 3000 руб. был отменен. Его источник – e-mail рассылка.
Теперь объединим данные двух таблиц. Для этого выделим две таблицы с помощью клавиши Ctrl и нажмем правой кнопкой мыши по одной из таблиц и выберем «Совмещение данных».
Есть и другой вариант. Просто выделяете одну из нескольких таблиц, и справа в меню нажимаете +Совмещение данных.
В первом варианте Google сам автоматически сделает объединение по ключу и добавит новую таблицу на лист. Правда, делает это он не всегда корректно. Поэтому вариант с +Совмещение данных более предпочтительный.
Чтобы добавить вторую таблицу для объединения:
Далее выбираете источники данных:
Затем добавляем ключ(и) для объединения. Он определяет связь между различными источниками данных. В моем примере, это Client ID:
Теперь необходимо выбрать дополнительные параметры и показатели для отображения. В моем примере из таблицы Google – это все метрики, а из Google Analytics – только Источник или канал:
Если после всех проделанных настроек вы вдруг поняли, что для объединения нескольких таблиц с помощью левого внешнего объединения (LEFT OUTER JOIN) необходимо поменять местами две таблицы, в GDS используйте соответствующую настройку (Сдвинуть влево или Сдвинуть вправо). Также источник данных можно полностью удалить из настройки и добавить другой:
Сохраняем настройки:
В результате будет создан новый источник данных (по умолчанию с именем «Совмещенные данные (1)»), который можно будет применить к любому виду диаграмм.
Итоговая таблица:
Чтобы быстро отфильтровать заказы по статусам, можно добавить фильтр:
Для редактирования и удаления источников совмещенных данных используйте Ресурс – Управление совмещенными данными:
Не забывайте, что при объединении нескольких источников данных важен ключ объединения. При совмещении Google Data Studio автоматически выбирает ключ из другого источника при условии, что он найдет его с таким же типом. Всегда проверяйте это.
Вот реализация вышеописанного примера книг и авторов, когда названия столбцов, по которому было объединение, отличались (№ автора и № книги). Однако GDS корректно сделал это:
Таким образом, совмещение данных в Google Data Studio позволяет обнаружить закономерности между различными наборами данных без дополнительных временных и материальных затрат.
Про объединение данных в Google Data Studio также читайте в официальной справке Google (на английском языке).