I. Opisna statistika
Sadržaj
I.1.Tipovi varijabli 1
I.2.Metode opisivanja kvalitativnih varijabli 3
I.3.Metode opisivanja numeričkih varijabli 4
I.3.1. Mjere sredine niza podataka . . . . . . . . . . . . . . . . . . . . . . . . . . 4
I.3.2. Mjere raspršenosti niza podataka . . . . . . . . . . . . . . . . . . . . . . . 6
I.3.3. Histogram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
I.3.4. Kutijasti dijagram . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
I.4.Opisivanje dviju ili više varijabli 9
I.4.1. Parovi kvalitativnih varijabli . . . . . . . . . . . . . . . . . . . . . . . . . . 9
I.4.2. Opis numeričkih varijabli po kategorijama kvalitativne varijable . . . . . . 11
I.4.3. Parovi numeričkih varijabli . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Metode opisne (deskriptivne) statistike namijenjene su opisivanju i prikazivanju skupa
podataka. Skup podataka tipično je predstavljen tablicom u kojoj retci označavaju je-
dinke a stupci obilježja zabilježena za te jedinke. Takvu tablicu nazivamo tablica (baza)
podataka dok stupce nazivamo varijablama. Metode opisne statistike razlikuju se s obzi-
rom na tip varijable tablice podataka na koju se primjenjuju. Cilj metoda opisne statistike
je sumarno prikazati dostupne podatke.
I.1. Tipovi varijabli
Varijable tablice podataka možemo podijeliti na:
• kvalitativne
– nominalne
– ordinalne
• numeričke
– diskretne
– neprekidne.
Nakon učitavanja podataka u R, funkcijom str() dobit ćemo pregled tipova svih varija-
bli. Ukoliko neka varijabla ima znakovne vrijednosti, ona će pri učitavanju u R odmah biti
karakterizirana kao faktor, poseban tip podataka za kvalitativne varijable. Ako je učita-
vanje ispravno provedeno, numeričke varijable trebale bi biti tipa int ili num. Kvalitativne
1
varijable mogu biti učitane i kao int ako su njihove vrijednosti cijeli brojevi (npr. varijabla
spol s kategorijama označenim brojevima 0 i 1).
Zadatak 1. Tablica podataka hormon sadrži podatke o 82 slučajno odabrane osobe u nekoj
populaciji u sljedećim varijablama:
• varijabla spol sadrži informaciju o spolu ispitanika (m - ispitanik je muškog spola,
z - ispitanik je ženskog spola)
• varijable gastrS, somatS i somatZ sadrže izmjerene koncentracije određenih enzima
utvrđene pretragama
• varijable pusenje, alkohol i kava sadrže informaciju o tome konzumira li ispitanik
cigarete, alkohol i kavu (0 - ne konzumira, 1 - konzumira)
• varijabla CLOtest sadrži rezultate testa na zarazu bakterijom helicobacter pilory (0
- test je negativan, 1 - test je pozitivan)
• varijabla dijagnoza sadrži oznake dijagnoze ispitanika.
Odredite tip svake od varijabli.
§ ¥
hormon <− r e a d . c s v 2 ( ’ hormon . c s v ’ )
s t r ( hormon )
#K v a l i t a t i v n e nominalne v a r i j a b l e : spol , pusenje , a l ko h o l , kava , CLOtest ,
dijagnoza
#Numeričke n e p r e k i d n e v a r i j a b l e : g a s t r S , somatS , somatZ
¦
Zadatak 2. Tablica podataka djelatnici sadrži podatke o uzorku djelatnika neke tvor-
nice:
• varijabla spol sadrži informaciju o spolu (M - muški spol, Z - ženski spol)
• varijabla odjel sadrži naziv odjela u kojem je djelatnik zaposlen (TR - transport, P
- pakiranje, IS - isporuka)
• varijabla obrazovanje sadrži stručnu spremu djelatnika (SSS - srednja stručna sprema,
VŠSS - viša stručna sprema, VSS - visoka stručna sprema)
• varijabla dob sadrži starost djelatnika u godinama
• varijabla visina sadrži visinu djelatnika u centimetrima
• varijabla rukovostvo sadrži broj godina rada koje je djelatnik proveo na nekoj od
rukovodećih pozicija u toj tvornici
• varijabla placa_prije sadrži iznos godišnje plaće djelatnika prije reorganizacije pos-
lovnog sustava
2
• varijabla placa_poslije sadrži iznos godišnje plaće djelatnika nakon reorganizacije
poslovnog sustava
• varijabla placa_konkurencija sadrži iznos godišnje plaće djelatnika na istom radnom
mjestu u konkurentskoj tvornici.
Odredite tip svake od varijabli.
§ placa_p o s l i j e ,
d j e l a t n i c i <− r e a d . c s v 2 ( ’ d j e l a t n i c i . c s v ’ )
str ( djelatnici ) ¥
#K v a l i t a t i v n e nominalne v a r i j a b l e : spol , o d j e l
#K v a l i t a t i v n e o r d i n a l n e v a r i j a b l e : obrazovanje
#Numeričke d i s k r e t n e : r u k o v o d s t v o
#Numeričke n e p r e k i d n e v a r i j a b l e : dob , v i s i n a , p l a c a_p r i j e ,
p l a c a_k o n k u r e n c i j a
¦
I.2. Metode opisivanja kvalitativnih varijabli
Frekvencija jedne kategorije je broj zabilježenih vrijednosti varijable koje pripadaju toj
kategoriji. Relativna frekvencija jedne kategorije je frekvencija podijeljena ukupnim
brojem podataka za tu varijablu, odnosno relativna frekvencija je f /n gdje je f frekven-
cija, a n veličina uzorka.
Frekvencije i relativne frekvencije kategorija obično prikazujemo tablicom. Relativne
frekvencije često izražavamo u postotcima.
§
#t a b l i c a f r e k v e n c i j a
hormon <− r e a d . c s v 2 ( ’ hormon . c s v ’ )
attach ( hormon )
( f . kava <− t a b l e ( kava ) )
s t r ( hormon )
dijagnoza
( f . d i j a g n o z a <− t a b l e ( d i j a g n o z a ) )
#t a b l i c a r e l a t i v n i h f r e k v e n c i j a : ¥
prop . table ( f . kava )
prop . table ( f . dijagnoza )
¦
Frekvencije i relativne frekvencije možemo grafički prikazati stupčastim dijagra-
mom. Stupčasti dijagram sastoji se od stupaca pridruženih kategoriji čija visina odgovara
frekvenciji ili relativnoj frekvenciji kategorije.
§
#s t u p č a s t i dijagram f r e k v e n c i j a
barplot ( f . kava )
barplot ( f . dijagnoza )
#s t u p č a s t i dijagram r e l a t i v n i h f r e k v e n c i j a
3
barplot ( prop . table ( f . kava ) ) ¥
barplot ( prop . table ( f . dijagnoza ) )
#k r u ž n i di j a g r a m ( p i t a ) − b o l j e i z b j e g a v a t i
pie ( f . kava )
pie ( f . dijagnoza )
¦
I.3. Metode opisivanja numeričkih varijabli
Ukoliko je numerička varijabla diskretna i nema puno različitih vrijednosti, tada se su-
marna informacija o takvoj varijabli može dobiti tablicom frekvencija i relativnih frek-
vencija te stupčastim dijagramom.
§ ¥
d j e l a t n i c i <− r e a d . c s v 2 ( ’ d j e l a t n i c i . c s v ’ )
str ( djelatnici )
attach ( djelatnici )
table ( rukovodstvo )
barplot ( table ( rukovodstvo ) )
¦
Za numeričke neprekidne varijable koje imaju puno različitih vrijednosti takve metode
nisu informativne. U tom slučaju vrijednosti se mogu grupirati u razrede. Uobičajeno se
primjenjuje grupiranje vrijednosti po intervalima. Različiti razredi ne smiju sadržavati iste
vrijednosti. Razredi za grupiranje biraju se pažljivo da bi se istaknule bitne karakteristike
podataka.
§
#N e i f o r m a t i v n i p r i k a z i
table ( placa_p r i j e )
barplot ( table ( placa_p r i j e ) )
#G r u p i r a n j e u r a z r e d e moguće definiarti i
#Drugi argument o d r e đ u j e b r o j r a z r e d a ( r a z r e d e j e
¥
proizvoljno )
cut ( placa_p r i j e , 5 , dig . lab =10)
table ( cut ( placa_p r i j e , 5 , dig . lab =10) )
barplot ( table ( cut ( placa_p r i j e , 5 , dig . lab =10) ) )
¦
Za numeričke varijable imamo i cijeli niz mogućih opisa pomoću numeričkih karakte-
ristika skupa podataka.
U nastavku ćemo podatke iz varijable (uzorka) označavati s
x1, . . . , xn.
I.3.1. Mjere sredine niza podataka
Mjerama sredine (centra) želimo niz podataka kojima raspolažemo opisati jednom vri-
jednošću koja u nekom smislu najbolje reprezentira taj niz. Standardne mjere sredine
su:
4
• aritmetička sredina (prosjek) podataka
1n
x¯n = n i=1 xi
• medijan podataka je definiran s
n neparan,
n paran,
x((n+1)/2),
med(x1, . . . , xn) = x(n/2) + x(n/2+1) ,
2
gdje x(1) ≤ x(2) ≤ · · · ≤ x(n) označava uređeni niz podataka.
Primjer: sortiranjem niza 3, 4, 1, 5, 9 dobijemo 1, 3, 4, 5, 9, broj podataka je neparan
pa je medijan 4.
Primjer: sortiranjem niza 5, 8, 2, 3 dobijemo 2, 3, 5, 8 pa je medijan (3 + 5)/2 = 4.
Medijan ima svojstvo da je barem pola podataka manje ili jednako medijanu, a
istovremeno je barem pola podataka veće ili jednako medijanu.
• mod podataka je podatak s najvećom frekvencijom. Uglavnom se koristi za dis-
kretne varijable i ne mora biti jedinstven.
§ ¥
mean ( p l a c a_p r i j e )
median ( placa_p r i j e )
sort ( table ( placa_p r i j e ) )
¦
Vezano uz odabir prikladne mjere centra promotrit ćemo nekoliko primjera.
Zadatak 3. U jednoj tvrtki s devet zaposlenika zabilježeni su sljedeći iznosi plaća zapos-
lenika u kunama:
4200, 3100, 3200, 3150, 3850, 14000, 15000, 3700, 3800.
Izračunajte aritmetičku sredinu i medijan.
§ 3100 , 3200 , 3150 , 3850 , 14000 , 15000 , 3700 , 3800)
x <− c ( 4 2 0 0 ,
mean ( x ) ¥
median (x)
¦
Očito je medijan u prethodnom primjeru puno bolji pokazatelj sredine podataka. Kao
stvarni primjer, prema izvješću Državnog zavoda za statistiku prosječna neto plaća po
zaposlenom u Hrvatskoj za listopad 2018. iznosila je 6281kn. Medijan svih isplaćenih
neto plaća iznosi 5172kn prema istom izvješću (informativniji pokazatelj i bolje odražava
tipičnu plaću).
U izboru prikladne mjere centra možemo se voditi sljedećim:
• mod treba koristiti kada se želi naglasiti najčešći podatak, a to je obično slučaj kod
kvalitativnih obilježja
5
• ako se radi o ordinalnim varijablama obično je medijan najpogodniji izbor
• ako niz podataka sadrži stršeće vrijednosti, medijan će u pravilu biti bolji poka-
zatelj tipične vrijednosti od aritmetičke sredine
• kada je obilježje simetrično raspodijeljeno, tada je opravdano koristiti i aritmetičku
sredinu i medijan kao mjere centra i vrijednosti će biti vrlo bliske
• kada je raspodjela asimetrična, medijan je bolji reprezentant centra.
I.3.2. Mjere raspršenosti niza podataka
Pokazatelji sredine ne daju potpunu sliku o podacima bez mjera raspršenosti. Primjerice,
možemo promotriti tri uzroka
• 0, 0, −1, 1
• −200, 100, 200, −100
• 0, 0, −1, 1, 0, 0.
Izračunajte aritmetičku sredinu i medijan za svaki uzorak. Je li mjera sredine jednako
kvalitetna u sva tri uzorka?
Raspršenost možemo opisati:
• (korigiranom) varijancom podataka (varijanca uzorka)
s2n = n 1 1 n − x¯n)2.
−
(xi
i=1
Varijanca podataka odgovara prosječnom kvadratnom odstupanju niza podataka od
njihovog prosjeka.
• standardnom devijacijom podataka
sn = sn2 .
§ ¥
#Za v a r i j a b l u p l a c a_p r i j e :
var ( placa_p r i j e )
sd ( placa_p r i j e )
#Za p r i m j e r :
var ( c (0 , 0 , −1, 1) )
var ( c (−200, 100 , 200 , −100) )
var ( c (0 , 0 , −1, 1 , 0 , 0) )
sd ( c (0 , 0 , −1, 1) )
sd ( c (−200, 100 , 200 , −100) )
sd ( c (0 , 0 , −1, 1 , 0 , 0) )
¦
6
Osim varijancom i standardnom devijacijom, raspšenost se može opisati i kvantilima.
Za p ∈ (0, 1), p-kvantil niza podataka je broj xp za koji vrijedi da je barem p100% izmje-
renih vrijednosti manje ili jednako xp, te je istovremeno barem (1 − p)100% vrijednosti
veće ili jednako xp. Medijan podataka je 0.5-kvantil podataka, dok 0.25-kvantil nazivamo
donji kvartil, a 0.75-kvantil nazivamo gornji kvartil. Tako, primjerice, donji kvartil
ima svojstvo da je barem 25% podataka manje od njega i barem 75% podataka veće od
njega. Postoje različiti načini računanja kvantila, npr. funkcija quantile() u R-u nudi čak
9 algoritama.
Razlika gornjeg i donjeg kvartila naziva se interkvartilni raspon i predstavlja jednu
mjeru raspršenosti. O raspršenosti podataka govori nam i raspon podataka definiran kao
razlika maksimuma i minimuma niza podataka. Minimim, donji kvartil, medijan, gornji
kvartil i maksimum poznati su i kao karakteristična petorka.
§ donji kvartil , medijan , gornji kvartil ,
#K a r a k t e r i s t i č n a petorka ( minimim ,
¥
maksimum )
quantile ( placa_p r i j e , 0.25)
quantile ( placa_p r i j e , 0.75)
quantile ( placa_p r i j e , 0 . 5 )
median ( placa_p r i j e )
min ( placa_p r i j e )
max( p l a c a_p r i j e )
IQR( p l a c a_p r i j e )
fivenum ( placa_p r i j e )
¦
Zadatak 4. Analizirajte numeričke karakteristike varijable placa_poslije i usporedite s
karakteristikama varijable placa_prije.
§ ¥
mean ( p l a c a_p o s l i j e )
mean ( p l a c a_p r i j e )
sd ( placa_p o s l i j e )
sd ( placa_p r i j e )
fivenum ( placa_p o s l i j e )
fivenum ( placa_p r i j e )
¦
Sumarni prikaz osnovnih mjera deskriptivne statistike za sve varijable tablice podataka
možemo dobiti s nekoliko funkcija. Više mogućnosti za sumarne prikaze nekoliko varijabli
nudi grupirajuća funkcija sapply.
§ baze
#Sumarni p r i k a z mjera d e s k r i p t i v n e s t a t i s t i k e za s v e v a r i j a b l e
podataka
summary ( d j e l a t n i c i )
#u o č i t e r a z l i k u u prikazu za numeričke i f a c t o r v a r i j a b l e
#s a a p l y − p r i m j e n j u j e f u n k c i j u po stupcima na data framea
sapply ( d j e l a t n i c i , mean )
sapply ( d j e l a t n i c i [ , 7 : 9 ] , mean )
sapply ( djelatnici [ , 7:9] , function (x) 5∗x)
7
¦¥
Kod izračunavanja numeričkih karakteristika podataka treba pripaziti na postojanje
nedostajućih vrijednosti (NA). Funkcije mogu različito postupati s takvim vrijednostima,
pa je najbolje to provjeriti u helpu.
§ ¥
#NA v r i j e d n o s t i :
hormon <− r e a d . c s v 2 ( ’ hormon . c s v ’ )
s t r ( hormon )
attach ( hormon )
mean ( somatZ )
mean ( somatZ , na . rm = TRUE)
#na . omit ( ) i z b a c u j e s v e r e d o v e kod k o j i h s e p o j a v l j u j e NA v r i j e d n o s t ( u
bilo kojoj varijabli )
dim ( hormon )
dim ( na . omit ( hormon ) )
¦
I.3.3. Histogram
Histogram se koristi za prikaz numeričkih podataka. Prije izrade histograma potrebno
je grupirati podatke u intervale te izraditi tablicu frekvencija grupiranih podataka. Histo-
gram se crta u koordinatnom sustavu na način da se stupci postavljaju nad odgovarajućim
intervalima. Visina stupca jednaka je (ili proporcionalna) frekvenciji intervala.
Odgovarajuća R naredba je hist(). Broj razreda (stupaca) bit će automatski određen
(po tzv. Sturgesovom pravilu), a može se mijenjati argumentom breaks.
§ ¥
#H i s t o g r a m
h i s t ( placa_p r i j e )
h i s t ( p l a c a_p r i j e , 1 0 ) #s 10 r a z r e d a − f u n k c i j a ne mora i s p o š t o v a t i z a h t j e v
#Dva h i s t o g r a m a j e d a n pored drugoga možemo p r i k a z a t i s :
par ( mfrow=c ( 1 , 2 ) )
h i s t ( placa_p r i j e , c o l=" blue " )
h i s t ( placa_p o s l i j e , c o l=" red " )
dev . o f f ()
¦
I.3.4. Kutijasti dijagram
Kutijasti dijagram (box-plot, box and whisker plot) je jednostavan graf koji prikazuje
karakterističnu petorku – minimum, donji kvartil, medijan, gornji kvartil, maksimum.
Sastoji se od pravokutnika koji prikazuje podatke od donjeg do gornjeg kvartila. Crta
na pravokutniku označava medijan. Donje i gornje horizontalne linije se nazivaju whisker
(„brkovi“). Mogu se različito definirati, ali najčešće predstavljaju najmanji i najveći po-
datak koji se nalazi unutar 1.5 puta interkvartilni raspon gledajući od donjeg, odnosno
gornjeg kvartila (default u R-u). Sve točke izvan te granice se crtaju posebno i smatraju
stršećim vrijednostima (outlierima). Izgled kutijastog dijagrama ukazuje na stupanj ras-
pršenosti i asimetričnosti (skewness), te može pokazati stršeće vrijednosti među podacima.
8
§ ¥
#K u t i j a s t i dijagram
boxplot ( placa_p r i j e )
boxplot ( placa_p r i j e , c o l=" pink " )
#K u t i j a s t i dijagram posebno j e k o r i s t a n za usporedbu v i š e v a r i j a b l i
boxplot ( placa_p r i j e , placa_p o s l i j e , names = c ( " p r i j e " , " p o s l i j e " ) )
boxplot ( placa_p r i j e , placa_p o s l i j e , names = c ( " p r i j e " , " p o s l i j e " ) , c ol = c (
" blue " , " red " ) )
boxplot ( placa_p r i j e , placa_p o s l i j e , placa_konkurencija , names = c ( " p r i j e " ,
" poslije " , " konkurencija "))
¦
I.4. Opisivanje dviju ili više varijabli
Kada imamo dvije ili više varijabli često nas zanimaju odnosi među njima. U tom slučaju
podatke možemo promatrati kao parove, ili općenitije k-torke.
I.4.1. Parovi kvalitativnih varijabli
Za parove kvalitativnih varijabli (ili diskretnih s malim brojem različitih vrijednosti) mo-
žemo promatrati zajedničke tablice frekvencija i relativnih frekvencija. U njima su
navedene frekvencije (odnosno relativne frekvencije) parova mogućih realizacija.
§ kvalitativnih varijabli
hormon <− r e a d . c s v 2 ( ’ hormon . c s v ’ )
s t r ( hormon )
attach ( hormon )
#z a j e d n i č k a t a b l i c a f r e k v e n c i j a d v i j u
( f . kava . s p o l <− t a b l e ( kava , s p o l ) )
addmargins ( f . kava . spol )
#z a j e d n i č k a t a b l i c a r e l a t i v n i h f r e k v e n c i j a d v i j u kvalitativnih varijabli
prop . table ( f . kava . spol )
addmargins ( prop . table ( f . kava . spol ) )
#P r i m j e r i c e ,
# − udio muškaraca k o j i piju kavu je 0 ,3902
# − udio žena je 0.5122
#u v j e t n e r e l a t i v n e f r e k v e n c i j e retka ( argument 1) ,
#u d i o k a t e g o r i j e v a r i j a b l e s p o l za f i k s i r a n u v r i j e d n o s t stupca ( argument 2)
tj . fiksiranu kategoriju varijable kava
prop . table ( f . kava . spol , 1)
#u d i o k a t e g o r i j a v a r i j a b l e kava za f i k s i r a n u v r i j e d n o s t
, tj . fiksiranu kategoriju varijable spol )
prop . table ( f . kava . spol , 2)
#P r i m j e r i c e :
# − u d i o žena među onima k o j i p i j u kavu j e 0 . 5 3 6 2 .
# − u d i o o n i h k o j i p i j u kavu među muškarcima j e 0 . 8
#P r i m j e r : k o l i k i j e u d i o o n i h k o j i p i j u a l k o h o l među muškarcima ?
9
tab <− t a b l e ( s p o l , a l k o h o l )
prop . table ( tab )
prop . table ( tab , 1)
#u d i o o n i h k o j i p i j u a l k o h o l među muškarcima j e 0 . 7
#P r i m j e r : k o l i k i j e u d i o žena među onima k o j i p i j u a l k o h o l ?
prop . table ( tab , 2)
#p r o p o r c i j a žena među onima k o j i p i j u a l k o h o l j e 0 . 0 9 6 8
#P r i m j e r : k o l i k i j e u d i o žena k o j e p i j u a l k o h o l u uzorku ? ¥
prop . table ( tab )
#u d i o j e 0 . 0 3 6 6
¦
I u slučaju parova varijabli možemo koristiti odgovarajuće stupčaste dijagrame.
§
#s t u p č a s t i dijagram f r e k v e n c i j a za parove k v a l i t a t i v n i h v a r i j a b l i
f . kava . spol
barplot ( f . kava . spol )
b a r p l o t ( f . kava . s p o l , b e s i d e = TRUE, l e g e n d = rownames ( f . kava . s p o l ) )
b a r p l o t ( f . kava . s p o l , b e s i d e = TRUE, l e g e n d = rownames ( f . kava . s p o l ) , a r g s .
legend = l i s t (x = " top " ) )
#s t u p č a s t i dijagram r e l a t i v n i h f r e k v e n c i j a
b a r p l o t ( prop . t a b l e ( f . kava . s p o l ) , b e s i d e = TRUE, l e g e n d = rownames ( f . kava .
spol ) , args . legend = l i s t (x = " top " ) )
#v i s i n e stupaca nisu usporedive
#s t u p č a s t i dijagram s uvjetnim r e l a t i v n i m frekvencijama
b a r p l o t ( prop . t a b l e ( f . kava . s p o l , 2 ) , b e s i d e = TRUE, l e g e n d = rownames ( f . kava .
spol ) , args . legend = l i s t (x = " top " ) )
#P r i m j e r : g r a f i č k i p r i k a z i za s p o l i a l k o h o l ¥
tab <− t a b l e ( s p o l , a l k o h o l )
b a r p l o t ( tab , b e s i d e = TRUE, l e g e n d = rownames ( tab ) , a r g s . l e g e n d = l i s t ( x =
" top " ) )
b a r p l o t ( prop . t a b l e ( tab ) , b e s i d e = TRUE, l e g e n d = rownames ( tab ) , a r g s . l e g e n d
= l i s t (x = " top " ) )
b a r p l o t ( prop . t a b l e ( tab , 2 ) , b e s i d e = TRUE, l e g e n d = rownames ( tab ) , a r g s .
legend = l i s t (x = " top " ) )
¦
Zadatak 5. Za tablicu podataka djelatnici odgovorite na sljedeća pitanja.
(a) Koji odjel ima najviše djelatnika?
(b) Koliki je udio djelatnika srednje stručne spreme? Prikažite grafički.
(c) Koliki je udio žena koje imaju srednju stručnu spremu?
(d) U kojem odjelu je najveći udio muškaraca? Prikažite grafički.
(e) Koliki je udio visokoobrazovanih (VSS) u odjelu transporta?
10
(f) Prevladavaju li u odjelu transporta muškarci ili žene? Prikažite grafički.
(g) Koliki ima visokoobrazovanih muškaraca u odjelu transporta?
§ legend = rownames
d j e l a t n i c i <− r e a d . c s v 2 ( ’ d j e l a t n i c i . c s v ’ ) legend = rownames
str ( djelatnici )
attach ( djelatnici ) ¥
#( a )
table ( odjel )
#o d j e l P − pakiranje , 40 d j e l a t n i k a
#( b )
prop . table ( table ( obrazovanje ) )
barplot ( prop . table ( table ( obrazovanje ) ) )
#Udio SSS j e 0 . 5 1 .
#( c )
prop . table ( table ( spol , obrazovanje ) )
#Udio žena s a SSS j e 0 . 2 1
#( d )
prop . table ( table ( odjel , spol ) )
prop . table ( table ( odjel , spol ) , 1)
b a r p l o t ( prop . t a b l e ( t a b l e ( o d j e l , s p o l ) , 1 ) , b e s i d e = TRUE,
( table ( odjel , spol )))
#n a j v e ć i udio j e u o d j e l u P
#( e )
table ( odjel , obrazovanje )
prop . table ( table ( odjel , obrazovanje ) , 1)
#u d i o j e 0 . 0 9 5 2
#( f )
table ( spol , odjel )
prop . table ( table ( spol , odjel ) , 2)
b a r p l o t ( prop . t a b l e ( t a b l e ( s p o l , o d j e l ) , 2 ) , b e s i d e = TRUE,
( table ( spol , odjel )) )
#( g )
table ( spol , odjel , obrazovanje )
#ima i h 2 .
#Možemo i ovako p r i m j e r i c e :
sum ( s p o l == "M" & o d j e l == "TR" & o b r a z o v a n j e == "VSS" )
¦
I.4.2. Opis numeričkih varijabli po kategorijama kvalitativne va-
rijable
Kada želimo analizirati neko numeričko obilježje po kategorijama kvalitativne varijable,
možemo računati numeričke karakteristike po kategorijama ili koristiti kategorizirane
grafičke prikaze.
§
#Usporedba p l a c a_p r i j e po s p o l u :
mean ( p l a c a_p r i j e [ s p o l == "M" ] )
mean ( p l a c a_p r i j e [ s p o l == " Z " ] )
sd ( p l a c a_p r i j e [ s p o l == "M" ] )
11
sd ( p l a c a_p r i j e [ s p o l == " Z " ] )
fivenum ( p l a c a_p r i j e [ s p o l == "M" ] )
fivenum ( p l a c a_p r i j e [ s p o l == " Z " ] )
#K a t e g o r i z i r a n i histogram − n i j e osobito koristan
par ( mfrow=c ( 1 , 2 ) )
h i s t ( p l a c a_p r i j e [ s p o l == "M" ] )
h i s t ( p l a c a_p r i j e [ s p o l == " Z " ] )
dev . o f f ()
#K a t e g o r i z i r a n i k u t i j a s t i dijagram
b o x p l o t ( p l a c a_p r i j e [ s p o l == "M" ] , p l a c a_p r i j e [ s p o l == " Z " ] , names = c ( "M" ,
"Z" ) )
#i l i jednostavnije ( modelski način zapisa )
boxplot ( placa_p r i j e ~ spol )
#t a p p l y p r i m j e n j u j e f u n k c i j u po k a t e g o r i j a m a f a c t o r v a r i j a b l e (R j e
ta pp ly ( p l a c a_p r i j e , spol , mean )
t a p p l y ( p l a c a_p r i j e , l i s t ( spol , o d j e l ) , mean ) ¥
t a p p l y ( p l a c a_p r i j e , l i s t ( spol , o d j e l , o b r a z o v a n j e ) , mean )
#p r i m i j e t i t e kako ovim funkcijama izbjegavamo k o r i š t e n j e p e t l j i
vektoriziran )
¦
Zadatak 6. Za tablicu podataka djelatnici odgovorite na sljedeća pitanja.
(a) U kojem odjelu je najveća prosječna plaća prije reorganizacije? Grafički usporedite
plaće po odjelima.
(b) U kojem odjelu muškarci imaju najveći medijan plaća (prije reorganizacije)? Prikažite
grafički.
(c) Rastu li plaće s većom stručnom spremom? Prikažite grafički.
(d) U kojem odjelu su plaće najviše raspršene?
(e) Koji odjel je imao najveće povećanje prosječne plaće reorganizacijom?
§
##Zadatak 6 .
d j e l a t n i c i <− r e a d . c s v 2 ( ’ d j e l a t n i c i . c s v ’ )
str ( djelatnici )
attach ( djelatnici )
#( a )
ta pp ly ( p l a c a_p r i j e , o d j e l , mean )
boxplot ( placa_p r i j e ~ o d j e l )
#u o d j e l u P − p a k i r a n j e
#( b )
tapply ( placa_p r i j e , l i s t ( odjel , spol ) , median )
boxplot ( placa_p r i j e ~ o d j e l + spol )
#i l i
b o x p l o t ( p l a c a_p r i j e [ s p o l == "M" ] ~ o d j e l [ s p o l == "M" ] )
12
#u o d j e l u IS ¥
#( c )
t a p p l y ( p l a c a_p r i j e , obrazovanje , mean )
tapply ( placa_p r i j e , obrazovanje , median )
#Ne , n i p r o s j e č n a p l a ć a n i medijan p l a ć a
boxplot ( placa_p r i j e ~ obrazovanje )
o b r a z o v a n j e 2 <− o r d e r e d ( o b r a z o v a n j e , l e v e l s = c ( " SSS " , " VŠSS " , "VSS" ) )
obrazovanje
obrazovanje2
boxplot ( placa_p r i j e ~ obrazovanje2 )
#ne p r i m i j e t i s e r a s t
#( d )
tapply ( placa_p r i j e , odjel , sd )
#u o d j e l u P
boxplot ( placa_p r i j e ~ o d j e l )
#v i d i se i na kutijastom dijagramu
#( e )
ta pp ly ( p l a c a_p r i j e , o d j e l , mean )
t a p p l y ( p l a c a_p o s l i j e , o d j e l , mean )
t a p p l y ( p l a c a_p o s l i j e , o d j e l , mean ) − t a p p l y ( p l a c a_p r i j e , o d j e l , mean )
#o d j e l IS − isporuka .
¦
I.4.3. Parovi numeričkih varijabli
Parove numeričkih varijabli možemo prikazati dijagramom raspršenja. Dijagram ras-
pršenosti (scatterplot) koristimo za prikaz jedne numeričke varijable u ovisnosti o drugoj.
Prikazuje točke koje čine parovi nastali kombiniranjem dva niza podataka.
§ ¥
#Dijagram r a s p r š e n o s t i ( s c a t t e r p l o t )
plot ( placa_p r i j e , placa_p o s l i j e )
#m o d e l s k i n a č i n z a p i s a :
plot ( placa_p o s l i j e ~ placa_p r i j e )
¦
Zadatak 7. U tablici podataka sport nalaze se podaci iz jedne studije o efektima sport-
stkih aktivnosti.
• grupa označava je li ispitanik u eksperimentalnoj (EG) ili kontrolnoj grupi (KG)
• kompetitivnost označava ima li ispitanik izražen (I) ili nema izražen (NI) natjeca-
teljski duh
• interes - ima li ispitanik izražen (I) ili nema izražen (NI) interes za tjelesne aktiv-
nosti
• visI je visina na početku studije (inicijalno) (u cm)
• visF je visina na kraju studija (finalno) (u cm)
• tmI je tjelesna masa na početku studije (u kg)
13
• tmF je tjelesna masa na kraju studije (u kg)
• BMII je indeks tjelesne mase na početku studije
• BMIF je indeks tjelesne mase na kraju studije
• F6I je pretrčana udaljenost u 6 minuta na početku studije (u m)
• F6F je pretrčana udaljenost u 6 minuta na kraju studije (u m)
• MSDI je rezultat skoka u dalj s mjesta na početku studije (u cm)
• MSDF je rezultat skoka u dalj s mjesta na kraju studije (u cm)
(a) Odredite tipove varijabli u tablici.
(b) Koliki je ispitanika u kontrolnoj grupi?
(c) Koliki je udio ispitanika koji su kompetitivni i zainteresirani?
(d) Usporedite tjelesne mase na početku studije zainteresiranih i nezainteresiranih.
(e) Usporedite efekte aktivnosti po pretrčanoj udaljenosti i skoku u dalj za kompetitivne i
nekompetitivne.
(f) Jesu li kompetitivni i zainteresirani postigli bolji prosječni rezultat u trčanju od ostalih
ispitanika?
(g) Koliko ispitanika je povećalo pretrčanu udaljenost u 6 minuta za više do 100m? Koliko
je među njima zainteresiranih?
(h) Koliki je udio ispitanika koji su smršavjeli više od 1 kg?
§ interes
## Zadatak 7 .
s p o r t <− r e a d . c s v 2 ( " s p o r t . c s v " )
str ( sport )
attach ( sport )
#( a )
#k v a l i t a t i v n e nominalne : grupa , kompetitivnost ,
#numeričke n e p r e k i d n e : s v e o s t a l e
#( b )
table ( grupa )
#37
#( c )
prop . table ( table ( kompetitivnost , interes ) )
#0 . 3 2 0 5
#( d )
ta pp ly ( tmI , i n t e r e s , mean )
tapply ( tmI , i n t e r e s , median )
boxplot ( tmI ~ i n t e r e s )
#n e z a i n t e r e s i r a n i imaju nešto manju masu
14
#( e ) 3 1 . 4 4m
t a p p l y ( F6F − F6I , k o m p e t i t i v n o s t , mean )
t a p p l y ( F6F − F6I , k o m p e t i t i v n o s t , median ) ¥
b o x p l o t ( F6F − F6I ~ k o m p e t i t i v n o s t )
#u p r o s j e k u k o m p e t i t i v n i su p r e t r č a l i 3 8 . 1 5m v i š e , a n e k o m p e t i t i v n i
t a p p l y (MSDF − MSDI, k o m p e t i t i v n o s t , mean )
t a p p l y (MSDF − MSDI, k o m p e t i t i v n o s t , median )
b o x p l o t (MSDF − MSDI ~ k o m p e t i t i v n o s t )
#za skok u d a l j e ne uočavamo b i t n u r a z l i k u .
#( f )
mean ( ( F6F−F6I ) [ k o m p e t i t i v n o s t == " I " & i n t e r e s == " I " ] )
mean ( ( F6F−F6I ) [ ! ( k o m p e t i t i v n o s t == " I " & i n t e r e s == " NI " ) ] )
#j e s u
#( g )
sum ( F6F−F6I > 1 0 0 )
#20 i s p i t a n i k a
t a b l e ( i n t e r e s [ F6F−F6I > 1 0 0 ] )
#11 z a i n t e r e s i r a n i h
#( h )
sum ( tmI−tmF>1)/ l e n g t h ( tmI )
#u d i o j e 0 . 1 9 2 3 .
¦
Zadatak 8. U tablici podataka djeca nalazi se dio podataka o nekim ocjenama novoro-
đenčeta, načinu poroda i majci iz istraživanja koje je provedeno u jednoj bolnici.
• varijabla spol je spol novorođenčeta (M - dječak, Z - djevojčica)
• nacin_poroda predstavlja način poroda (1,2 ili 3)
• varijabla RM je masa novorođenčeta
• apgar1 i apgar5 su rezultati testa vitalnosti nakon 1 i 5 minuta
• majka_dob je dob majke
• majka_bolest sadrži informaciju o bolesti majke tijekom trudnoće (N - nije bila
bolesna, D - bila je bolesna)
• varijabla komplikacije označava stupanj komplikacija za vrijeme trudnoće (u skali od
0, što označava da komplikacija nije bilo, do 7)
• varijabla konvulzije sadrži informaciju o konvulzijama kod novorođenčeta (N - ko-
nvulzija nije bilo, D - konvulzije su bile prisutne)
• varijabla uzv je ocjena ultrazvučnog pregleda mozga novorođenčeta (od 1 do 4).
(a) Odredite tipove varijabli u tablici.
(b) Koliki je udio dječaka koji imaju ocjenu ultrazvuka veću od 2?
(c) Ima li među 10% najteže djece više dječaka ili djevojčica?
15
(d) Usporedite ocjene apgar1 i apgar5 i grafički prikažite.
(e) Usporedite stupčaste dijagrame komplikacija u ovisnosti o tome je li majka starija od
30 godina ili mlađa.
(f) S obzirom na spol i ocjenu ultrazvuka, koja djeca imaju najveću prosječnu masu?
(g) Koliki je udio apgar5 ocjena 10 među dječacima, a koliki među djevojčicama?
(h) Usporedite raspršenost masa dječaka i djevojčica.
§
d j e c a <− r e a d . c s v 2 ( " d j e c a . c s v " )
str ( djeca )
attach ( djeca )
#( a )
#k v a l i t a t i v n e nominalne : s p o l , n a c i n_poroda , majka b o l e s t , k o n v u l z i j e
#k v a l i t a t i v n e ordinalne : apgar1 , apgar5 , komplikacije , uzv
#numeričke n e p r e k i d n e : RM, majka_dob
#( b )
table ( spol , uzv )
prop . table ( table ( spol , uzv ) , 1)
sum ( prop . t a b l e ( t a b l e ( s p o l , uzv ) , 1) [ 1 , 3 : 4 ] )
#0 . 3 5 7 9 5
#( c )
q u a n t i l e (RM, 0 . 9 )
t a b l e ( s p o l [RM>q u a n t i l e (RM, 0 . 9 ) ] )
#v i š e j e dječaka
#( d )
mean ( apgar1 )
mean ( apgar5 )
boxplot ( apgar1 , apgar5 )
barplot ( table ( apgar1 ) )
barplot ( table ( apgar5 ) )
rbind ( table ( apgar1 ) , table ( apgar5 ) )
rbind ( table ( apgar1 ) , c (0 , table ( apgar5 ) ) )
b a r p l o t ( r b i n d ( t a b l e ( apgar1 ) , c ( 0 , t a b l e ( apgar5 ) ) ) , b e s i d e=TRUE)
#b o l j e j e promatrati r e l a t i v n e f r e k v e n c i j e
barplot ( rbind ( prop . table ( table ( apgar1 ) ) , c (0 , prop . table ( table ( apgar5 ) ) ) ) ,
b e s i d e=TRUE)
#( e )
t a b l e ( k o m p l i k a c i j e [ majka_dob <=30])
t a b l e ( k o m p l i k a c i j e [ majka_dob >30])
b a r p l o t ( r b i n d ( prop . t a b l e ( t a b l e ( k o m p l i k a c i j e [ majka_dob <=30]) ) , c ( prop . t a b l e (
t a b l e ( k o m p l i k a c i j e [ majka_dob >30]) ) , 0 ) ) , b e s i d e=TRUE)
#( f )
t a p p l y (RM, l i s t ( s p o l , uzv ) , mean )
#n a j v e ć u p r o s j e č n u masu imaju d j e č a c i s ocjenom u l t r a z v u k a 4
#( g )
prop . table ( table ( spol , apgar5 ) , 1) [ , 10]
#među d j e č a c i m a 0 . 4 9 4 3 , a među d j e v o j č i c a m a 0 . 5 3 8 4 6
#( h )
16
t a p p l y (RM, s p o l , sd ) ¥
t a p p l y (RM, s p o l , IQR)
b o x p l o t (RM ~ s p o l )
#veća j e r a s p r š e n o s t kod d j e v o j č i c a
¦
17