Projekt realizowany w ramach pracy magisterskiej. Celem jest opracowanie narzędzia bioinformatycznego do automatycznej klasyfikacji podtypów ostrej białaczki szpikowej (AML) na podstawie profilu ekspresji genów (RNA-seq).
Projekt realizuje pełne przetwarzanie danych:
- Pobieranie Danych: Automatyczna integracja z bazą NCI Genomic Data Commons (GDC) poprzez API, pobierająca dane projektu TCGA-LAML.
- Preprocessing: Zaawansowane czyszczenie danych klinicznych, parowanie próbek i normalizacja ekspresji genów (Log2 CPM).
- Selekcja Biomarkerów: Wykorzystanie algorytmu Boruta do redukcji wymiarowości z 26,000 genów do 150 kluczowych biomarkerów.
- Machine Learning: Trening i walidacja modeli klasyfikacyjnych (Random Forest vs k-NN vs SVM) z wykorzystaniem powtarzanej walidacji krzyżowej.
- Interaktywne GUI: Aplikacja webowa (R Shiny) umożliwiająca lekarzom i badaczom wizualizację wyników oraz symulację diagnostyczną.
Projekt jest w pełni reprodukowalny dzięki wykorzystaniu pakietu renv.
- Sklonuj repozytorium:
git clone https://github.com/kwiatkowskamarta/AML_Classification.git
- Otwórz projekt: Kliknij plik
AML_Classification.Rproj. - Zainstaluj biblioteki:
Uruchom komendę, która odtworzy środowisko z wymaganymi wersjami pakietów:
renv::restore()
- Uruchom analizę:
source("scripts/01_data_download.R") source("scripts/02_preprocessing.R") source("scripts/03_feature_selection.R") source("scripts/04_modeling.R")
- Uruchom Aplikację GUI:
Aby zobaczyć gotowy dashboard z wynikami:
shiny::runApp("scripts/05_GUI.R")
data/- Dane.scripts/01_data_download.R- Pobieranie danych z TCGA.02_preprocessing.R- Czyszczenie i normalizacja.03_feature_selection.R- Algorytm Boruta.04_modeling.R- Trening Random Forest/k-NN/SVM.05_GUI.R- Kod aplikacji Shiny Dashboard.
results/- Zapisane modele (.RData) i wykresy.renv.lock- Plik blokady wersji pakietów (dla reprodukowalności).
Marta Kwiatkowska
Praca Magisterska
Politechnika Warszawska