Импорт данных Яндекс Директа из Yandex Object Storage, их обработка и экспорт в ClickHouse
Подробный гайд по получению данных из Яндекс Директа и их загрузке в ClickHouse, который показывает процесс выгрузки данных с использованием API, сохранения их в CSV-файлах, загрузки в Object Storage, последующей обработки и преобразования в формат Parquet с дальнейшей загрузкой в ClickHouse.
Материал основан на официальном руководстве Yandex Cloud под названием «Импорт данных из Yandex Object Storage, обработка и экспорт в Yandex Managed Service for ClickHouse®». Оно, в свою очередь, основано на сценарии компании Data Stories по построению аналитического стека на базе сервисов Yandex Cloud. В качестве примера используются две CSV-таблицы, которые нужно объединить в одну, импортировать в формат Parquet и передать в Managed Service for ClickHouse.
Описанное ниже решение стоит денег. Стоимость поддержки включает в себя:
- плата за кластер Managed Service for ClickHouse®: использование вычислительных ресурсов, выделенных хостам (в том числе хостам ZooKeeper), и дискового пространства (см. тарифы Managed Service for ClickHouse®);
- плата за кластер Yandex Data Processing: использование вычислительных ресурсов ВМ и сетевых дисков Compute Cloud, а также сервиса Cloud Logging для работы с логами (см. тарифы Yandex Data Processing);
- плата за использование публичных IP-адресов для хостов кластера (см. тарифы Virtual Private Cloud);
- плата за бакеты Object Storage: хранение данных и выполнение операций с ними (см. тарифы Object Storage);
- плата за NAT-шлюз (см. тарифы Virtual Private Cloud).
Пожалуйста, учитывайте эти расходы до этапа настройки.
Примечание: у меня есть подробный онлайн-курс (с видео), пройдя который вы научитесь выгружать данные из Яндекс Директа с помощью Python, чтобы не зависеть от других сервисов, переносить их в собственную базу данных (ClickHouse, MySQL, PostgreSQL), а также в Google Таблицы без помощи разработчиков и строить любые автоматические отчеты в инструментах визуализации данных Yandex DataLens для своих клиентов. Да, маркетолог тоже может писать код!
Давайте рассмотрим каждый шаг из официального руководства Yandex Cloud более подробно.
Внимание: материал доступен для премиум-пользователей с подпиской ТОЛЬКО на 365 дней! Если заказывать такую систему «под ключ» у разработчиков или дата-инженеров, стоимость разработки легко может составлять сотни тысяч рублей, а иногда и больше - в зависимости от требований, SLA и доработок.

