Skip to content
View Giganmama's full-sized avatar

Block or report Giganmama

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don’t include any personal information such as legal names or email addresses. Markdown is supported. This note will only be visible to you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
Giganmama/README.md

👋 Данила Бабенко | Data Engineer

🎯 Ищу позицию: Data Engineer / Data Analyst (Middle / Middle+)
📍 Локация: Москва, Россия (готов к удалёнке)
✉️ Связь: Telegram | Email


💼 Обо мне

Data Engineer с опытом разработки production-ready ETL/ELT пайплайнов и построения современных хранилищ данных (Data Warehouse / Data Lakehouse). Специализируюсь на масштабируемых решениях для обработки больших данных и создании надёжных витрин для аналитики и ML.

🎯 Ключевые компетенции:

  • 🏗️ Data Architecture: проектирование DWH, Lakehouse (Bronze→Silver→Gold), Star Schema
  • ⚙️ ETL/ELT: оркестрация (Airflow), инкрементальная загрузка (CDC), оптимизация Spark-джобов
  • 🧪 Data Quality: автоматическое тестирование (dbt tests, Great Expectations), валидация схем
  • 📊 Analytics Engineering: витрины для BI/DS, feature engineering, dbt-моделирование
  • 🔄 Real-time: потоковая обработка (Kafka + Spark Streaming), обнаружение аномалий

🚀 Featured Projects

Проект Описание Стек Ссылка
🏔️ Delta Lake Medallion Production Lakehouse: Bronze→Silver→Gold, PII masking, MERGE/Upsert, OPTIMIZE PySpark, Delta Lake, Airflow, MinIO 🔗
🏦 Spark Feature Pipeline PySpark ETL с CDC, feature engineering для ML, загрузка в Greenplum PySpark, PostgreSQL, JDBC, Pandas 🔗
🔄 dbt Greenplum Warehouse Modern ELT: инкрементальные модели, автотесты, CI/CD, автодокументация dbt, PostgreSQL, GitHub Actions, SQL 🔗
Real-Time Fraud Detection Потоковая обработка транзакций, обнаружение аномалий в реальном времени Kafka, Spark Structured Streaming, Docker 🔗
🛠️ ETL Pipeline Airflow Оркестрация пайплайнов, автоматические DQ-проверки, мониторинг Airflow, PostgreSQL, Python, Docker 🔗
🤖 CV Data Pipeline Обработка видео/изображений, S3-хранилище, версионирование данных OpenCV, ffmpeg, MinIO, DVC, Airflow 🔗

🛠 Технический стек

🗄️ Databases & Storage

PostgreSQL Greenplum ClickHouse Delta Lake MinIO/S3

⚙️ Processing & Orchestration

Apache Spark Apache Airflow dbt Kafka

🐍 Languages & Libraries

Python Pandas PySpark SQL

🧪 Quality & DevOps

Docker Git GitHub Actions Great Expectations


📊 Достижения в проектах

  • Производительность: Оптимизация Spark-джобов через bucketBy + ZORDER → ускорение на 10-50x
  • 🛡️ Data Quality: 100% покрытие критических таблиц автотестами (not_null, unique, relationships)
  • 🔄 CDC: Реализация инкрементальной загрузки (Merge/Upsert) без полной перезаписи витрин
  • 📦 Масштабируемость: Архитектура, готовая к переходу с локального режима на кластер (TB+ данных)
  • 🧪 CI/CD: Автоматический lint + test + build docs на каждый PR

🎓 Образование

  • НИТУ МИСИС Факультет прикладной математики
  • Дипломный проект: «ML-разработка для прогнозирования течения послеоперационного периода» — предобработка данных, визуализация, оценка моделей (RMSE, R²), деплой прототипа.

💬 Давайте свяжемся!

Открыт к предложениям о работе, коллаборациям и интересным задачам в области Data Engineering.

📩 Написать в Telegram
📧 Отправить email


💡 Каждый проект в моём портфолио — это production-ready решение с документацией, тестами и инфраструктурой. Готов подробно разобрать архитектуру, код и подходы на техническом интервью.

Pinned Loading

  1. delta_lake_medallion delta_lake_medallion Public

    Production Delta Lake Medallion architecture. Orchestrates Bronze→Silver→Gold pipeline with PII masking, deduplication, MERGE/Upsert, OPTIMIZE/VACUUM, and Airflow DAGs.

    Python

  2. dbt_greenplum_warehouse dbt_greenplum_warehouse Public

    Modern ELT pipeline using dbt-core for Greenplum/PostgreSQL. Features incremental models (CDC), automated testing, auto-generated docs, and CI/CD via GitHub Actions.

  3. real_time_fraud_detection real_time_fraud_detection Public

    Real-time fraud detection pipeline using Kafka and Spark Structured Streaming. Detects anomalies with windowed aggregations.

    Python

  4. spark_feature_pipeline spark_feature_pipeline Public

    Production PySpark pipeline for banking feature engineering. Translates DS pandas code to scalable Spark ETL with GreenPlum/PostgreSQL integration, automated DQ checks, and industrial data marts.

    Python

  5. etl_pipeline_airflow etl_pipeline_airflow Public

    Production-ready ETL pipeline: Airflow 2.x, PostgreSQL, Data Quality checks, idempotent loads

    Python

  6. cv_data_pipeline cv_data_pipeline Public

    Production ETL pipeline for robotics computer vision data. Automates video processing, frame extraction (OpenCV/FFmpeg), metadata collection, and quality control (DQ) using Apache Airflow and MinIO…

    Python