Giganmama

👋 Данила Бабенко | Data Engineer

🎯 Ищу позицию: Data Engineer / Data Analyst (Middle / Middle+)
📍 Локация: Москва, Россия (готов к удалёнке)
✉️ Связь: Telegram | Email

💼 Обо мне

Data Engineer с опытом разработки production-ready ETL/ELT пайплайнов и построения современных хранилищ данных (Data Warehouse / Data Lakehouse). Специализируюсь на масштабируемых решениях для обработки больших данных и создании надёжных витрин для аналитики и ML.

🎯 Ключевые компетенции:

🏗️ Data Architecture: проектирование DWH, Lakehouse (Bronze→Silver→Gold), Star Schema
⚙️ ETL/ELT: оркестрация (Airflow), инкрементальная загрузка (CDC), оптимизация Spark-джобов
🧪 Data Quality: автоматическое тестирование (dbt tests, Great Expectations), валидация схем
📊 Analytics Engineering: витрины для BI/DS, feature engineering, dbt-моделирование
🔄 Real-time: потоковая обработка (Kafka + Spark Streaming), обнаружение аномалий

🚀 Featured Projects

Проект	Описание	Стек	Ссылка
🏔️ Delta Lake Medallion	Production Lakehouse: Bronze→Silver→Gold, PII masking, MERGE/Upsert, OPTIMIZE	PySpark, Delta Lake, Airflow, MinIO	🔗
🏦 Spark Feature Pipeline	PySpark ETL с CDC, feature engineering для ML, загрузка в Greenplum	PySpark, PostgreSQL, JDBC, Pandas	🔗
🔄 dbt Greenplum Warehouse	Modern ELT: инкрементальные модели, автотесты, CI/CD, автодокументация	dbt, PostgreSQL, GitHub Actions, SQL	🔗
⚡ Real-Time Fraud Detection	Потоковая обработка транзакций, обнаружение аномалий в реальном времени	Kafka, Spark Structured Streaming, Docker	🔗
🛠️ ETL Pipeline Airflow	Оркестрация пайплайнов, автоматические DQ-проверки, мониторинг	Airflow, PostgreSQL, Python, Docker	🔗
🤖 CV Data Pipeline	Обработка видео/изображений, S3-хранилище, версионирование данных	OpenCV, ffmpeg, MinIO, DVC, Airflow	🔗

🛠 Технический стек

🗄️ Databases & Storage

⚙️ Processing & Orchestration

🐍 Languages & Libraries

🧪 Quality & DevOps

📊 Достижения в проектах

⚡ Производительность: Оптимизация Spark-джобов через bucketBy + ZORDER → ускорение на 10-50x
🛡️ Data Quality: 100% покрытие критических таблиц автотестами (not_null, unique, relationships)
🔄 CDC: Реализация инкрементальной загрузки (Merge/Upsert) без полной перезаписи витрин
📦 Масштабируемость: Архитектура, готовая к переходу с локального режима на кластер (TB+ данных)
🧪 CI/CD: Автоматический lint + test + build docs на каждый PR

🎓 Образование

НИТУ МИСИС Факультет прикладной математики
Дипломный проект: «ML-разработка для прогнозирования течения послеоперационного периода» — предобработка данных, визуализация, оценка моделей (RMSE, R²), деплой прототипа.

💬 Давайте свяжемся!

Открыт к предложениям о работе, коллаборациям и интересным задачам в области Data Engineering.

📩 Написать в Telegram
📧 Отправить email

💡 Каждый проект в моём портфолио — это production-ready решение с документацией, тестами и инфраструктурой. Готов подробно разобрать архитектуру, код и подходы на техническом интервью.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly