jupyter notebook titanic_disaster.ipynbTitanic disaster dataset’ini keşfedelim.
Keşfedebileceğin bazı ilginç noktalar:
- Dataset’e alışalım (import etme, head(), describe(), column açıklamalarını okuma…)
- Cabin bilgisini dataset’ten çıkaralım çünkü cabin number hakkında yeterli veri yok (dataset cleaning)
- Sınıf bir biletin hayatta kalma şansını artırıp artırmadığını bul. Burada yapılacak şey: ticket type’a göre survival rate karşılaştırması.
- Daha fazla kadın ve çocuğun kurtarılıp kurtarılmadığını bul. Burada [‘Men’, ‘Children’, ‘Women’] için survival rate karşılaştır.
Opsiyonel
- Büyük ailelerin hayatta kalmasının daha mı zor olduğunu bul.
Bunun için dataframe’e bir family size column’ı ekle. - Ünvanı (Mr, Mrs, Dr vb.) olan yolcular tahliyede daha mı çok tercih edildi? Bunu incelemek için string manipulation yaparak her yolcu için bir title column’ı oluştur.
| Variable | Definition | Key |
|---|---|---|
| survival | Survival | 0 = No, 1 = Yes |
| pclass | Ticket class | 1 = 1st, 2 = 2nd, 3 = 3rd |
| sex | Sex | |
| Age | Age in years | |
| sibsp | # of siblings / spouses aboard the Titanic | |
| parch | # of parents / children aboard the Titanic | |
| ticket | Ticket number | |
| fare | Passenger fare | |
| cabin | Cabin number | |
| embarked | Port of Embarkation | C = Cherbourg, Q = Queenstown, S = Southampton |