🎯 Ищу позицию: Data Engineer / Data Analyst (Middle / Middle+)
📍 Локация: Москва, Россия (готов к удалёнке)
✉️ Связь: Telegram | Email
Data Engineer с опытом разработки production-ready ETL/ELT пайплайнов и построения современных хранилищ данных (Data Warehouse / Data Lakehouse). Специализируюсь на масштабируемых решениях для обработки больших данных и создании надёжных витрин для аналитики и ML.
🎯 Ключевые компетенции:
- 🏗️ Data Architecture: проектирование DWH, Lakehouse (Bronze→Silver→Gold), Star Schema
- ⚙️ ETL/ELT: оркестрация (Airflow), инкрементальная загрузка (CDC), оптимизация Spark-джобов
- 🧪 Data Quality: автоматическое тестирование (dbt tests, Great Expectations), валидация схем
- 📊 Analytics Engineering: витрины для BI/DS, feature engineering, dbt-моделирование
- 🔄 Real-time: потоковая обработка (Kafka + Spark Streaming), обнаружение аномалий
| Проект | Описание | Стек | Ссылка |
|---|---|---|---|
| 🏔️ Delta Lake Medallion | Production Lakehouse: Bronze→Silver→Gold, PII masking, MERGE/Upsert, OPTIMIZE | PySpark, Delta Lake, Airflow, MinIO | 🔗 |
| 🏦 Spark Feature Pipeline | PySpark ETL с CDC, feature engineering для ML, загрузка в Greenplum | PySpark, PostgreSQL, JDBC, Pandas | 🔗 |
| 🔄 dbt Greenplum Warehouse | Modern ELT: инкрементальные модели, автотесты, CI/CD, автодокументация | dbt, PostgreSQL, GitHub Actions, SQL | 🔗 |
| ⚡ Real-Time Fraud Detection | Потоковая обработка транзакций, обнаружение аномалий в реальном времени | Kafka, Spark Structured Streaming, Docker | 🔗 |
| 🛠️ ETL Pipeline Airflow | Оркестрация пайплайнов, автоматические DQ-проверки, мониторинг | Airflow, PostgreSQL, Python, Docker | 🔗 |
| 🤖 CV Data Pipeline | Обработка видео/изображений, S3-хранилище, версионирование данных | OpenCV, ffmpeg, MinIO, DVC, Airflow | 🔗 |
- ⚡ Производительность: Оптимизация Spark-джобов через
bucketBy+ZORDER→ ускорение на 10-50x - 🛡️ Data Quality: 100% покрытие критических таблиц автотестами (not_null, unique, relationships)
- 🔄 CDC: Реализация инкрементальной загрузки (Merge/Upsert) без полной перезаписи витрин
- 📦 Масштабируемость: Архитектура, готовая к переходу с локального режима на кластер (TB+ данных)
- 🧪 CI/CD: Автоматический lint + test + build docs на каждый PR
- НИТУ МИСИС Факультет прикладной математики
- Дипломный проект: «ML-разработка для прогнозирования течения послеоперационного периода» — предобработка данных, визуализация, оценка моделей (RMSE, R²), деплой прототипа.
Открыт к предложениям о работе, коллаборациям и интересным задачам в области Data Engineering.
📩 Написать в Telegram
📧 Отправить email
💡 Каждый проект в моём портфолио — это production-ready решение с документацией, тестами и инфраструктурой. Готов подробно разобрать архитектуру, код и подходы на техническом интервью.