O Danych¶
Dane o pasażerach Titanica
Zbiór danych zawiera informacje o pasażerach RMS Titanic, który zatonął 15 kwietnia 1912 roku po zderzeniu z górą lodową. Dane obejmują takie atrybuty jak klasa podróży, wiek, płeć, liczba rodzeństwa/małżonków na pokładzie, liczba rodziców/dzieci na pokładzie, cena biletu oraz miejsce zaokrętowania.
Zbiór zawiera także informację o tym, czy pasażer przeżył katastrofę.
Titanic przewoził ponad 2,200 osób, z czego ponad 1,500 zginęło, co czyni tę katastrofę jedną z najbardziej tragicznych w historii morskiej.
O Danych¶
Kolumny:
- pclass - Klasa biletu
- survived - Czy pasażer przeżył katastrofę
- name - Imię i nazwisko pasażera
- sex - Płeć pasażera
- age - Wiek pasażera
- sibsp - Liczba rodzeństwa/małżonków na pokładzie
- parch - Liczba rodziców/dzieci na pokładzie
- ticket - Numer biletu
- fare - Cena biletu
- cabin - Numer kabiny
- embarked - Port, w którym pasażer wszedł na pokład (C = Cherbourg, Q = Queenstown, S = Southampton)
- boat - Numer łodzi ratunkowej
- body - Numer ciała (jeśli pasażer nie przeżył i ciało zostało odnalezione)
- home.dest - Miejsce docelowe
1. Przegląd i analiza danych dotyczących Titanica i jego pasażerów.¶
1.1 Wczytanie danych i przegląd losowych wartości.¶
pclass | survived | name | sex | age | sibsp | parch | ticket | fare | cabin | embarked | boat | body | home.dest | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1.0 | 1.0 | Allen, Miss. Elisabeth Walton | female | 29.0000 | 0.0 | 0.0 | 24160 | 211.3375 | B5 | S | 2 | NaN | St Louis, MO |
1 | 1.0 | 1.0 | Allison, Master. Hudson Trevor | male | 0.9167 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | 11 | NaN | Montreal, PQ / Chesterville, ON |
2 | 1.0 | 0.0 | Allison, Miss. Helen Loraine | female | 2.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | NaN | Montreal, PQ / Chesterville, ON |
3 | 1.0 | 0.0 | Allison, Mr. Hudson Joshua Creighton | male | 30.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | 135.0 | Montreal, PQ / Chesterville, ON |
4 | 1.0 | 0.0 | Allison, Mrs. Hudson J C (Bessie Waldo Daniels) | female | 25.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | NaN | Montreal, PQ / Chesterville, ON |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
1305 | 3.0 | 0.0 | Zabour, Miss. Thamine | female | NaN | 1.0 | 0.0 | 2665 | 14.4542 | NaN | C | NaN | NaN | NaN |
1306 | 3.0 | 0.0 | Zakarian, Mr. Mapriededer | male | 26.5000 | 0.0 | 0.0 | 2656 | 7.2250 | NaN | C | NaN | 304.0 | NaN |
1307 | 3.0 | 0.0 | Zakarian, Mr. Ortin | male | 27.0000 | 0.0 | 0.0 | 2670 | 7.2250 | NaN | C | NaN | NaN | NaN |
1308 | 3.0 | 0.0 | Zimmerman, Mr. Leo | male | 29.0000 | 0.0 | 0.0 | 315082 | 7.8750 | NaN | S | NaN | NaN | NaN |
1309 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
1310 rows × 14 columns
<class 'pandas.core.frame.DataFrame'> RangeIndex: 1310 entries, 0 to 1309 Data columns (total 14 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 pclass 1309 non-null float64 1 survived 1309 non-null float64 2 name 1309 non-null object 3 sex 1309 non-null object 4 age 1046 non-null float64 5 sibsp 1309 non-null float64 6 parch 1309 non-null float64 7 ticket 1309 non-null object 8 fare 1308 non-null float64 9 cabin 295 non-null object 10 embarked 1307 non-null object 11 boat 486 non-null object 12 body 121 non-null float64 13 home.dest 745 non-null object dtypes: float64(7), object(7) memory usage: 143.4+ KB
pclass | survived | name | sex | age | sibsp | parch | |
---|---|---|---|---|---|---|---|
701 | 3.0 | 0.0 | Calic, Mr. Petar | male | 17.0 | 0.0 | 0.0 |
994 | 3.0 | 0.0 | Mardirosian, Mr. Sarkis | male | NaN | 0.0 | 0.0 |
350 | 2.0 | 1.0 | Brown, Miss. Edith Eileen | female | 15.0 | 0.0 | 2.0 |
986 | 3.0 | 0.0 | Maenpaa, Mr. Matti Alexanteri | male | 22.0 | 0.0 | 0.0 |
409 | 2.0 | 0.0 | Fox, Mr. Stanley Hubert | male | 36.0 | 0.0 | 0.0 |
917 | 3.0 | 1.0 | Karun, Mr. Franz | male | 39.0 | 0.0 | 1.0 |
ticket | fare | cabin | embarked | boat | body | home.dest | |
---|---|---|---|---|---|---|---|
701 | 315086 | 8.6625 | NaN | S | NaN | NaN | NaN |
994 | 2655 | 7.2292 | F E46 | C | NaN | NaN | NaN |
350 | 29750 | 39.0000 | NaN | S | 14 | NaN | Cape Town, South Africa / Seattle, WA |
986 | STON/O 2. 3101275 | 7.1250 | NaN | S | NaN | NaN | NaN |
409 | 229236 | 13.0000 | NaN | S | NaN | 236.0 | Rochester, NY |
917 | 349256 | 13.4167 | NaN | C | 15 | NaN | NaN |
Po wczytaniu danych mamy informację o 1310 wierszach i 14 kolumnach.¶
Zauważyć można, że w wierszu 1309, we wszystkich kolumnach są puste wartości, należy zatem usunąć ten wiersz przed przystąpieniem, do dalszej analizy.¶
Po przeglądzie losowych wartości widać, że istnieje wiele pustych wartości w niektórych kolumnach. W dalszej analizie, należy zastanowić się, czy brakujące wartości będą miały istotny wpływ na wyniki analizy i czy będzie potrzeba wypełnienia tych wartości.¶
Jeden z wierszy ma puste wartości we wszystkich kolumnach¶
pclass | survived | name | sex | age | sibsp | parch | ticket | fare | cabin | embarked | boat | body | home.dest | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1309 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Usuwam wiersz z pustymi wartościami.¶
1.2 Sprawdzenie wartości unikatowych.¶
0 | |
---|---|
pclass | 3 |
survived | 2 |
name | 1307 |
sex | 2 |
age | 98 |
sibsp | 7 |
parch | 8 |
ticket | 929 |
fare | 281 |
cabin | 186 |
embarked | 3 |
boat | 27 |
body | 121 |
home.dest | 369 |
Krótkie spostrzeżenia o wartościach unikatowych:¶
- pclass - 3 klasy biletów (ilu pasażerów w każdej klasie)
- survived - 2 wartości oznaczające czy pasażer ocalał, czy nie(sprawdzić ilu ocalonych)
- name - 1307 nazwisk na 1309 rekordów (sprawdzić duplikaty)
- sex - 2 wartości oznaczające płeć (sprawdzić ile kobiet/mężczyzn)
- age - 98 wartości określających wiek (w losowych danych widać wiek podany jako ułamek, zamienić na liczby całkowite, ponownie sprawdzić wartości unikatowe)
- sibsp - 7 wartości dla liczby rodzeństwa/małżonków na pokładzie
- parch - 8 wartości dla rodziców/dzieci na pokładzie
- ticket - 929 wartości z numerem biletu (sprawdzić duplikaty, dlaczego występują)
- fare - 281 wartości z różną ceną biletu(sprawdzić od czego uzależniona cena)
- cabin - 186 numerów kabin
- embarked - 3 rożne porty wejścia pasażerów na pokład
- boat - 27 numerów łodzi ratunkowych(jakieś zależności?)
- body - 121 wartości dla odnalezionych ciał ofiar katastrofy
- home.dest - 369 wartości dla celu podróży pasażerów(sprawdzić korelację ocalony cel podrózy)
1.3 Przegląd danych statystycznych.¶
pclass | survived | age | sibsp | parch | fare | body | |
---|---|---|---|---|---|---|---|
count | 1309.000000 | 1309.000000 | 1046.000000 | 1309.000000 | 1309.000000 | 1308.000000 | 121.000000 |
mean | 2.294882 | 0.381971 | 29.881135 | 0.498854 | 0.385027 | 33.295479 | 160.809917 |
std | 0.837836 | 0.486055 | 14.413500 | 1.041658 | 0.865560 | 51.758668 | 97.696922 |
min | 1.000000 | 0.000000 | 0.166700 | 0.000000 | 0.000000 | 0.000000 | 1.000000 |
25% | 2.000000 | 0.000000 | 21.000000 | 0.000000 | 0.000000 | 7.895800 | 72.000000 |
50% | 3.000000 | 0.000000 | 28.000000 | 0.000000 | 0.000000 | 14.454200 | 155.000000 |
75% | 3.000000 | 1.000000 | 39.000000 | 1.000000 | 0.000000 | 31.275000 | 256.000000 |
max | 3.000000 | 1.000000 | 80.000000 | 8.000000 | 9.000000 | 512.329200 | 328.000000 |
Mamy 7 kolumn numerycznych, przechowujących dane o klasie bilety, ocalałych, wieku, rodzeństwa/małżonków, rodziców/dzeici, cenie biletu, odnalezionym ciele ofiary.¶
Katastrofę przeżyło 38% pasażerów.¶
Najmłodszy z pasażerów miał mniej niż rok, najstarszy 80 lat, średni wiek to ok 30 lat.¶
49% pasażerów podróżowało z małżonkiem lub rodzeństwem.¶
38% pasażerów było rodzicami/dziećmi¶
Średnia cena biletu to 33. najtańszy bilet kosztował 0, najdroższy 512.¶
Odnaleziono 121 ciał.¶
2 Analiza brakujących wartości.¶
0 | |
---|---|
pclass | 0 |
survived | 0 |
name | 0 |
sex | 0 |
age | 263 |
sibsp | 0 |
parch | 0 |
ticket | 0 |
fare | 1 |
cabin | 1014 |
embarked | 2 |
boat | 823 |
body | 1188 |
home.dest | 564 |
Brakujące dane:¶
- age 263 dane o wieku (naprawić średnią dla mężczyzn i kobiet?)
- fare 1 cena biletu (naprawić średnią ceną)
- cabin 1014 danych o numerze kabiny
- embarked 2 informacje o porcie wejścia pasażerów na pokład
- boat 823 numer łodzi ratunkowej, w której przebywał pasażer (sprawdzic brakujące wartośći dla ocalałych pasażerów)
- body 1188 numer ciała
- home.dst 564 celu podróży.
3 Analiza poszczególnych danych.¶
PCLASS - ilość pasażerów w każdej klasie¶
count | |
---|---|
pclass | |
1.0 | 323 |
2.0 | 277 |
3.0 | 709 |
SURVIVED - ilość ocalałych i ofiar¶
Ilość | |
---|---|
Zginęło | 809 |
Przeżyło | 500 |
Katasrtofę przeżyło 500 pasażerów, zginęło 809 pasażerów.¶
SEX - ilość kobiet i mężczyzn wśród pasażerów, dane o ofiarach¶
Ilość | |
---|---|
Kobiet | 466 |
Mężczyzn | 843 |
Wśród pasażerów było 466 i 843 mężczyzn¶
Kobiet | Mężczyzn | |
---|---|---|
Zginęło | 127 | 682 |
Przeżyło | 339 | 161 |
Spośród 500 ocalonych, przeżyło 339 kobiet i 161 meżczyzn.¶
Ilość ocalonych pasażerów w każdej z klas¶
survived | |
---|---|
pclass | |
1.0 | 200.0 |
2.0 | 119.0 |
3.0 | 181.0 |
Podróżujących w klasie 1 ocalało 200 z 323 osób, w klasie 2 ocalało 119 z 277 osób, w klasie 3 ocalało 181 z 709 osób¶
AGE - wiek pasażerów¶
0 | |
---|---|
0 | 29.0000 |
1 | 0.9167 |
2 | 2.0000 |
3 | 30.0000 |
4 | 25.0000 |
... | ... |
94 | 60.5000 |
95 | 74.0000 |
96 | 0.4167 |
97 | 11.5000 |
98 | 26.5000 |
99 rows × 1 columns
Ponieważ wiek nie jest podany w liczbach całkowitych, zaokraglę go i zapiszę w nowej kolumnie¶
0 | |
---|---|
0 | 29.0 |
1 | 1.0 |
2 | 2.0 |
3 | 30.0 |
4 | 25.0 |
... | ... |
69 | 66.0 |
70 | 9.0 |
71 | 0.0 |
72 | 10.0 |
73 | 74.0 |
74 rows × 1 columns
Po zaokragleniu wieku pasażerów do liczb całkowitych, otrzymałem 74 wartośći unikatowe. Dane zapisałem w nowej kolumnie - age_round.¶
Średni wiek pasażerów to blisko 30 lat, najmłodszy pasażer jest noworodkiem poniżej pół roku życia, najstrszy pasażer ma 80 lat.¶
age_round | |
---|---|
count | 1046.000000 |
mean | 29.870937 |
std | 14.411571 |
min | 0.000000 |
25% | 21.000000 |
50% | 28.000000 |
75% | 39.000000 |
max | 80.000000 |
SIBSP - liczba rodzeństwa, małżonków na pokładzie¶
418 pasażerów było na pokładzie z rodzeństwem lub małżonkiem.
PARCH - liczba rodziców, dzieci na pokładzie¶
307 pasażerów było na pokładzie z rodzicem lub dzieckiem.
TICKET - numer biletu¶
ticket | |
---|---|
count | 1309 |
unique | 929 |
top | CA. 2343 |
freq | 11 |
Numery biletu mają 929 wartości unikatowych, na 1309 pozycji, należy sprawdzić duplikaty.¶
FARE - cena biletu¶
count | mean | std | min | 25% | 50% | 75% | max | |
---|---|---|---|---|---|---|---|---|
pclass | ||||||||
1.0 | 323.0 | 87.508992 | 80.447178 | 0.0 | 30.6958 | 60.0000 | 107.6625 | 512.3292 |
2.0 | 277.0 | 21.179196 | 13.607122 | 0.0 | 13.0000 | 15.0458 | 26.0000 | 73.5000 |
3.0 | 708.0 | 13.302889 | 11.494358 | 0.0 | 7.7500 | 8.0500 | 15.2458 | 69.5500 |
Bardzo duża rozpiętość cen biletów, zwlaszcza w klasie 1. Najwięcej wartośći zarejestrowanych w okolicy 10 dla klasy 3.¶
Dla lepszego zobrazowania dla klas 1 i 2, wykres z ograniczonym zakresem¶
CABIN - numer kabiny¶
cabin | |
---|---|
count | 295 |
unique | 186 |
top | C23 C25 C27 |
freq | 6 |
Mamy informacje o 295 kabinach, które posiadają 186 wartości unikatowych.¶
EMBARKED - port wejścia na pokład¶
count | |
---|---|
embarked | |
S | 914 |
C | 270 |
Q | 123 |
BOAT - numer łodzi ratunkowej¶
boat | |
---|---|
count | 486 |
unique | 27 |
top | 13 |
freq | 39 |
Mamy informacje o 27 unikatowych numerach łodzi ratunkowcyh.¶
BODY - numer ciała jeśli pasażer nie przeżył i ciało zostało odnalezione¶
0 | |
---|---|
0 | NaN |
1 | 135.0 |
2 | 22.0 |
3 | 124.0 |
4 | 148.0 |
... | ... |
117 | 14.0 |
118 | 131.0 |
119 | 312.0 |
120 | 328.0 |
121 | 304.0 |
122 rows × 1 columns
Mamy informacje o 121 unikatowych numerach odnalezionych ciał.¶
HOME.DEST - miejsce docelowe podróżujących¶
Loading ITables v2.4.2 from the internet... (need help?) |
Mamy informacje o 370 unikatowych miejsach docelowych. Jednak po przeglądzie częśći rekordów, widać, że niektóre częściowo powtarzają się, poprzez podanie np. 2 miejsc docelowych (London/NY, itd.)¶
4. Transformacja danych.¶
Duplikaty¶
pclass | survived | name | sex | age_raw | sibsp | parch | ticket | fare | cabin | embarked | boat | body | home.dest | age | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1.0 | 1.0 | Allen, Miss. Elisabeth Walton | female | 29.0000 | 0.0 | 0.0 | 24160 | 211.3375 | B5 | S | 2 | NaN | St Louis, MO | 29.0 |
1 | 1.0 | 1.0 | Allison, Master. Hudson Trevor | male | 0.9167 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | 11 | NaN | Montreal, PQ / Chesterville, ON | 1.0 |
2 | 1.0 | 0.0 | Allison, Miss. Helen Loraine | female | 2.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | NaN | Montreal, PQ / Chesterville, ON | 2.0 |
3 | 1.0 | 0.0 | Allison, Mr. Hudson Joshua Creighton | male | 30.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | 135.0 | Montreal, PQ / Chesterville, ON | 30.0 |
4 | 1.0 | 0.0 | Allison, Mrs. Hudson J C (Bessie Waldo Daniels) | female | 25.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | NaN | Montreal, PQ / Chesterville, ON | 25.0 |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
1299 | 3.0 | 0.0 | Yasbeck, Mr. Antoni | male | 27.0000 | 1.0 | 0.0 | 2659 | 14.4542 | NaN | C | C | NaN | NaN | 27.0 |
1300 | 3.0 | 1.0 | Yasbeck, Mrs. Antoni (Selini Alexander) | female | 15.0000 | 1.0 | 0.0 | 2659 | 14.4542 | NaN | C | NaN | NaN | NaN | 15.0 |
1303 | 3.0 | 0.0 | Yousseff, Mr. Gerious | male | NaN | 0.0 | 0.0 | 2627 | 14.4583 | NaN | C | NaN | NaN | NaN | NaN |
1304 | 3.0 | 0.0 | Zabour, Miss. Hileni | female | 14.5000 | 1.0 | 0.0 | 2665 | 14.4542 | NaN | C | NaN | 328.0 | NaN | 14.0 |
1305 | 3.0 | 0.0 | Zabour, Miss. Thamine | female | NaN | 1.0 | 0.0 | 2665 | 14.4542 | NaN | C | NaN | NaN | NaN | NaN |
596 rows × 15 columns
W numeracji biletów występują identyczne numery, jednak są przypisane do różnych osób o podobnych nazwiskach, co pozwala sądzić, że na jeden bilet przypisany był do kilku osób, np. rodziny.¶
pclass | survived | name | sex | age_raw | sibsp | parch | ticket | fare | cabin | embarked | boat | body | home.dest | age | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
725 | 3.0 | 1.0 | Connolly, Miss. Kate | female | 22.0 | 0.0 | 0.0 | 370373 | 7.7500 | NaN | Q | 13 | NaN | Ireland | 22.0 |
726 | 3.0 | 0.0 | Connolly, Miss. Kate | female | 30.0 | 0.0 | 0.0 | 330972 | 7.6292 | NaN | Q | NaN | NaN | Ireland | 30.0 |
924 | 3.0 | 0.0 | Kelly, Mr. James | male | 34.5 | 0.0 | 0.0 | 330911 | 7.8292 | NaN | Q | NaN | 70.0 | NaN | 34.0 |
925 | 3.0 | 0.0 | Kelly, Mr. James | male | 44.0 | 0.0 | 0.0 | 363592 | 8.0500 | NaN | S | NaN | NaN | NaN | 44.0 |
Występują dwa identyczne nazwiska, jednak posiadają różne dane odnośnie wieku i numeru biletu. Można zatem stwierdzić, że nie są duplikatami.¶
Naprawa brakujących wartości¶
AGE - Wypełnienie brakujących wartości wieku, średnią arytmetyczną dla kobiet i mężczyzn¶
count | |
---|---|
sex |
FARE - Wypełnienie brakujących wartości ceny biletu, średnią arytmetyczną.¶
pclass | survived | name | sex | age_raw | sibsp | parch | ticket | fare | cabin | embarked | boat | body | home.dest | age | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1225 | 3.0 | 0.0 | Storey, Mr. Thomas | male | 60.5 | 0.0 | 0.0 | 3701 | NaN | NaN | S | NaN | 261.0 | NaN | 60.0 |
13.3
pclass | survived | name | sex | age_raw | sibsp | parch | ticket | fare | cabin | embarked | boat | body | home.dest | age |
---|
BOAT - sprawdzenie pustych wartości o łodzi ratunkowej dla ocalałych pasażerów¶
Empty Boat Count | |
---|---|
0 | 23 |
Występują puste wartości o nemarach łodzi ratunkowych, w których byli ocaleni pasażerowie. Może to być wynikiem nieścisłości w zbieraniu danych lub mogło być wynikiem uratowania pasażerów w inny sposób.¶
5. Analiza relacji między zmiennymi¶
Klasa biletu, odsetek ocalałych.¶
Wykres pokazuje, że pasażerowie podróżujący w wyższej klasie, mieli większe szanse na przeżycie (1 - klasa najwyższa, 3 - klasa najniższa).¶
Cena biletu, klasa pasażerska.¶
Z wykresu wynika, że 75% wawrtośći dla ceny biletu w klasie 3, jest poniżej 50% wartości cen biletu w klasie 2. Natomiast większość wartości cen biletów z klasy 3 i ponad 75% wartośći cen biletów z klasy 2 jest poniżej 25% wartości cen biletów w klasie 1.¶
Cena biletu, ocalenie.¶
Ocaleni, płeć, klasa.¶
<Figure size 1000x600 with 0 Axes>
Kobiety przeważają pod względem ocalenia. Im wyższa klasa pasażerska, tym większy odsetek kobier ocalał. Wśród mężczyzn największy odsetek ocalałych jest w klasie 1.¶
Łodzie ratunkowe, klasa pasażerska.¶
boat | |
---|---|
pclass | |
1.0 | 201 |
2.0 | 112 |
3.0 | 173 |
Na łodziach ratunkowych zarejestrowano 201 osób z klasy 1, 112osób z klasy 2 oraz 173 osoby z klasy 3.¶
Ciała ofiar z podziałem na klase.¶
body | |
---|---|
pclass | |
1.0 | 35 |
2.0 | 31 |
3.0 | 55 |
Odnaleziono 35 ciał spośród ofiar z 1 klasy, 31 ciał spośród ofiar z 2 klasy, 55 ciał spośród ofiar z 3 klasy.¶
Macierz korelacji dla kolumn numerycznych.¶
Widzimy korelację pomiędzy rodzinami(sibsp i parch). A także odwróconą korelacje pomiedzy klasą pasażerską(pclass), a wiekiem(age), ceną biletu(fare) i ocalonymi(survived).¶
6. Wartości odstające.¶
Cena biletu.¶
count | mean | std | min | 25% | 50% | 75% | max | |
---|---|---|---|---|---|---|---|---|
pclass | ||||||||
1.0 | 323.0 | 87.508992 | 80.447178 | 0.0 | 30.6958 | 60.0000 | 107.6625 | 512.3292 |
2.0 | 277.0 | 21.179196 | 13.607122 | 0.0 | 13.0000 | 15.0458 | 26.0000 | 73.5000 |
3.0 | 709.0 | 13.302885 | 11.486238 | 0.0 | 7.7500 | 8.0500 | 15.2458 | 69.5500 |
Wartości odstające dla cen biletów największą rozpiętość mają w klasie 1: w przybliżeniu od 220 do 520, w klasie 2 od 40 do 75, w klasie 3 od 25 do 70¶
Wiek.¶
age | |
---|---|
count | 1309.000000 |
mean | 29.978610 |
std | 12.889776 |
min | 0.000000 |
25% | 22.000000 |
50% | 30.000000 |
75% | 35.000000 |
max | 80.000000 |
Dane o wieku posiadają wartości odstające zarówno przy wartościach minimalnych - poniżej 2 lat, jak i maksymalnych - powyżej 53 lata.¶
Liczba rodzeństwa, małżonków na pokładzie¶
sibsp | |
---|---|
count | 1309.000000 |
mean | 0.498854 |
std | 1.041658 |
min | 0.000000 |
25% | 0.000000 |
50% | 0.000000 |
75% | 1.000000 |
max | 8.000000 |
75% onserwacji miało 1 członka rodziny na pokładzie, wartości odstające było sięgały 8 członków rodziny.¶
Liczba rodziców, dzieci na pokładzie.¶
parch | |
---|---|
count | 1309.000000 |
mean | 0.385027 |
std | 0.865560 |
min | 0.000000 |
25% | 0.000000 |
50% | 0.000000 |
75% | 0.000000 |
max | 9.000000 |
75% obserwacji nie miało żadnego członka rodziny na pokładzie. Wartości odstające sięgały 9 członków rodziny.¶
Podsumowanie¶
Liczebność i zakres danych:¶
Analizowany zbiór obejmuje 1310 pasażerów i 14 atrybutów, takich jak klasa podróży, wiek, płeć, liczba członków rodziny na pokładzie, cena biletu, miejsce zaokrętowania, numer kabiny, łodzi ratunkowej, ciała oraz cel podróży.
Przeżywalność:¶
Katastrofę przeżyło 38% pasażerów (500 osób), z czego zdecydowaną większość stanowiły kobiety (339 kobiet vs. 161 mężczyzn).
Klasa podróży:¶
Pasażerowie 1 klasy mieli najwyższy odsetek przeżycia (200 z 323 osób), w 2 klasie przeżyło 119 z 277 osób, w 3 klasie – 181 z 709 osób. Im wyższa klasa, tym większa szansa na przeżycie.
Płeć:¶
Na pokładzie było 466 kobiet i 843 mężczyzn. Kobiety miały zdecydowanie większą szansę na przeżycie niż mężczyźni.
Wiek:¶
Średni wiek pasażerów wynosił ok. 30 lat, najmłodszy pasażer miał mniej niż rok, najstarszy 80 lat. Wiek nie miał jednoznacznego wpływu na przeżycie, ale dzieci i kobiety były częściej ratowane.
Rodzina na pokładzie:¶
49% pasażerów podróżowało z rodzeństwem lub małżonkiem, 38% z rodzicem lub dzieckiem. Większe rodziny były rzadkością – wartości odstające sięgały 8-9 członków rodziny.
Cena biletu:¶
Średnia cena biletu to 33 jednostki walutowe, przy czym w 1 klasie średnio 87, w 2 klasie 21, w 3 klasie 13. Cena biletu silnie zależała od klasy i była powiązana z szansą przeżycia.
Port zaokrętowania:¶
Najwięcej pasażerów wsiadło w Southampton (914), następnie Cherbourg (270) i Queenstown (123).
Braki danych:¶
Najwięcej brakujących wartości dotyczyło numerów kabin (1014), wieku (263), celu podróży (564), numerów łodzi ratunkowych (823) i ciał (1188). Braki w wieku i cenie biletu można uzupełnić średnimi wartościami dla płci/klasy.
Duplikaty:¶
Występowały powtarzające się numery biletów, ale były przypisane do różnych osób (np. rodziny).
Wartości odstające:¶
Dotyczyły głównie cen biletów (zwłaszcza w 1 klasie) oraz liczby członków rodziny na pokładzie.
Korelacje:¶
Silna zależność między klasą podróży, ceną biletu a przeżyciem. Wysoka korelacja między liczbą rodzeństwa a liczbą rodziców/dzieci na pokładzie. Odwrócona korelacja między klasą a wiekiem, ceną biletu i przeżyciem.