The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.
Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by marichusein, 2022-04-09 04:34:24

PS_MATERIJALI

PS_MATERIJALI

Primijenjena statistika
(materijali)



Materijali za prvu parcijalu



Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Datum: 5.3.2019.

Statistika i vjerovatnoća - Uvodno predavanje

Pojam i zadaci statistike

Pojam statistika se u današnje vrijeme tumači na više načina:

1. Skup uređenih podataka o društvenim ili prirodnim pojavama koje prikupljaju,
obrađuju, analiziraju i tumače statističke i druge ustanove (istorijski prva definicija
statistike).

2. Nauka koja se bavi proučavanjem prikupljanja, pripreme, obrade i tumačenja
podataka.

3. Funkcija nad populacijom.
4. Kao varijacija izjave: „Postoje tri vrste laži: laž, besramna laž i statistika.” Benjamin

Disraeli.

Posljednje tumačenje je veoma uvreženo kod laika; sa aspekta statističara, ovakvo
tumačenje se vezuje uz sve one koji zloupotrebljavaju naučnu disciplinu iznoseći stavove
neutemeljene u podacima ili teoriji. Zbog toga je jedan od ciljeva ovog kursa da se studenti
obuče dovoljno da mogu samostalno prikupiti, pripremiti, analizirati i protumačiti rezultate,
odnosno prepoznati rezultate statističke analize tako da 4. ne važi.

Statistički skup

Skup svih jedinki koje su od značaja za neko istraživanje se u statistici naziva populacija
(u literaturi još i statistički skup), a podskup populacije odabran po određenom pravilu –
uzorak.

Statistički skup se definiše u zavisnosti od potreba konkretnog istraživanja i to:

• Pojmovno (u zavisnosti od obilježja od interesa za dato istraživanje se određuje

pripadnost jedinica skupu),

• Prostorno (definiše se pripadnost u zavisnosti od regije) i
• Vremenski (definiše se vrijeme u kojem se vrši isreaživanje i/ili vrijeme na koje

se odnose podaci).

Osobine koje imaju jedinke populacije se nazivaju obilježjima. Obilježja mogu biti
kvalitativna (na primjer pol ispitanika) ili kvantitivna (na primjer starost, ili težina). Za

obilježja se vezuju slučajne promjenljive1, na osnovu kojih se dalje vrši statistička analiza.
No, da bi se izvršila statistička analiza, podaci se prvo moraju prikupiti i pripremiti za
obradu.

1 Slučajna promjenljiva je pojam iz Teorije vjerovatnoće, naučne oblasti na kojoj se bazira 1
matematička statistika. Formalna definicija slijedi u predavanjima o raspodjeli.

Primjenjena statistika :: Predavanja
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Prikupljanje podataka

Prikupljanje podataka i njihova primarna obrada je prva faza svakog (prethodno
definisanog) statističkog istraživanja. Na ovu fazu se odnosi fraza: Garbage in – garbage
out, kojom se slikovito objašnjava da bez kvalitetnih podataka nije moguće postići ni
kvalitetne rezultate. U osnovi postoje dva tipa prikupljanja podataka:

• preuzimanje već postojećih podataka ili
• prikupljanje novih podataka.

Prilikom prikupljanja podataka je neophodno izvršiti kontrolu unosa. Ukoliko se podaci

prikupljaju neposredno, onda se kontrola vrši prilikom unosa, a kod preuzimanja podataka
se vrši logička kontrola preuzetih podataka i upoređuju se određeni parametri sa analognim
parametrima izvornih podataka.

U svakom se slučaju podaci moraju prenijeti na memorijski medij i to u obliku
upotrebljivom za kasniju analizu. Statistički podaci se najčešće pohranjuju u vidu slogova,
pri čemu jedan red odgovara jednoj jedinici posmatranja, a u svakom slogu su definisana
polja koja se odnose na obilježja. Na ovaj način pohranjeni podaci se mogu čuvati u
formatima koji nisu zahtjevni s obzirom na memoriju, a što je veoma bitno kada se radi o
velikim skupovima podataka. Način čuvanja može zavisiti i od softvera kojim će se podaci
analizirati.

Postoji više tipova izvora podataka:

• Podaci iz već postojećih izvora (statistički bilteni ili neki drugi zvanični podaci

objaveljni u štampanim izvorima ili na internetu)

• Podaci koji se prikupljaju neposredno, za određeno istraživanje, kao što su podaci

iz:
o Anketa – pitanja i modaliteti odgovora su zapisani na papiru i obučena osoba
ih prikuplja od ispitanika,
o Intervjua – odabere se stručnjak za određenu tematiku i onda se direktno
od njega u prethodno pripremljenom razgovoru prikupljaju podaci,
o Fokus grupa – odabere se grupa stručnjaka koja razmatra određenu
tematiku i dostavi podatke u pisanoj formi, i drugo.

• Poseban izvor podataka je popis stanovništva, koji se vrši jednom u 10 godina uz

temeljne pripreme, a podaci iz popisa se smatraju najpouzdanijim.

Statistika se može podjeliti na :

1. deskriptivnu (uređenje podataka u statističke nizove, grafički analiza, analiza

pomoću relativnih brojeva i specifičnih mjera kao što su srednja vrijednost i
disperzija; sudovi koji se donose se odnose isključivo na empirijske podatke) i

2. inferencijalnu (pomoću datih informacija – uzorka – se donose sudovi o osobinama

populacije).

U ovom kursu će se prvo obraditi pokazatelji i statistike vezane za deskriptivne metode,
pa će se prijeći na dijelove inferencijalne statistike.

Osnovni dio deskriptivne analize predstavlja proučavanje strukture i dinamike pojave
pomoću računskih operacija sabiranja, oduzimanja, množenja i dijeljenja.

Primjenjena statistika :: Predavanja 2
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Pokazatelji strukture i dinamike pojava.

Svaka se pojava može analizirati sa aspekta strukture i dinamike. Izučavanje strukture se

najčešće primjenjuje na kvalitativna obilježja (koja se inače ne bi mogla matematički
obraditi) na način da se jedinice posmatranja grupišu prema jednoj osobini (na primjer,
grupiše se stanovništvo po polu) i posmatra se udio svake od grupa u populaciji. Sa druge

strane, izučavanje dinamike predstavlja praćenje vrijednosti neke pojave kroz vrijeme (na

primjer, praćenje cijena električne energije u nekoliko uzastopnih godina).

Najbitniji pokazatelji strukture i dinamike pojava su:

• Pokazatelji strukture pojave
o Koeficijenti (učešće količine pojedine grupe u totalu)
o Procenti (koeficijent pomnožen sa 100, odnosno izražen u procentima)

• Pokazatelji dinamike pojave
o Prosti indeks predstavlja količnik vrijednosti neke pojave u sadašnjem i

nekom prethodnom periodu, može biti

▪ Lančani (količnik vrijednosti neke pojave u dva uzastopna perioda),

ili

▪ Bazni (količnik vrijednosti neke pojave u tekućem i baznom periodu).
o Složeni indeks se formira kada se želi pratiti ukupna promjena neke pojave

u nekoliko uzastopnih perioda, a koja zavisi od dodatnog parametra –

pondera (na primjer stopa inflacije), tako što se vrijednost pojave za svaki

period pomnoži ponderom i onda se sve dobijene vrijednosti saberu.

o Stopa se računa kao razlika indeksa i jedinice i može biti prosta ili složena,

u zavisnosti od indeksa iz koga je izvedena.

Često je korisno izraziti lančane indekse kao bazne i obratno, što se postiže jednostavnim
matematičkim transformacijama, a primjer je prikazan u vježbama.

Uz pokazatelje strukture i dinamike se vezuju i njihove grafičke prezentacije. Po pravilu,
struktura se izražava kružnim dijagramom (pie chart) u kome se udio svake grupe u totalu

prikazuje kružnim isječkom. Ukoliko ovakav prikaz nije pregledan, onda se može iskoristiti
i štapićasti (ili neki drugi) prikaz.

Sa druge strane, dinamika pojave se po pravilu prikazuje štapićastim ili linijskim
dijagramom. Štapićasti dijagram prikazuje veličinu pojave za pojedine grupe visinom

pravougaonika (štapića) dok su kod linijskog dijagrama ordinate vrijednosti pojave po
grupama povezane linijama.

Kao posebni pokazatelji vitalnosti stanovništva jedne države izdvajaju se:

• Prirodni priraštaj – računa se kao razlika broja živorođenih i broja umrlih lica u

datom periodu

• Vitalni indeks – računa se kao količnik broja živorođenih i broja umrlih lica u datom

periodu.

Primjenjena statistika :: Predavanja 3
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Datum: 12.3.2019.

Uzorkovanje

Populacija

Populacija (ciljna populacija) je skup svih jedinica posmatranja koje su od interesa za
istraživanje; odnosno skup o kom istraživač želi da izvuče zaključke.

Primjer. Recimo da istraživača zanimaju muškarci u srednjim godinama (35-50) koji su

preživjeli infarkt miokarda. Cilj istraživanja bi bio da se uporedi efektivnost dvije vrste
tretmana pomoću kojih se mogu odgoditi ili spriječiti naredni infarkti. U tom slučaju je
populacija skup svih muškaraca koji zadovoljavaju iste opšte uslove kao i oni koji su
uključeni u konkretno istraživanje.

Uzorak

Uzorak je dio (podskup) populacije. Da bi uzorak bio reprezentativan za populaciju, on
mora biti odabran na pogodan način (bilo slučajno, bilo namjerno) sa ciljem da
zaključivanje na osnovu uzorka što vjernije oslikava zaključke koji važe za čitavu
populaciju.

Većina statističkih istraživanja se oslanja na teoriju uzoraka za procjenu parametara ciljne
populacije iz tri razloga:

- cijena je niža,
- podaci se brže prikupljaju i
- moguće je osigurati homogenost i poboljšati preciznost i kvalitet podataka.

Postoje razne tehnike za odabir uzorka, ovdje će biti navedene samo neke, bez da se ulazi
u matematičku teoriju na kojima se one zasnivaju.

Upareni uzorci

Upareni uzorci spadaju u (međusobno) zavisne uzorke. Kao uzrok uzorkovanja u paru
razlikuju se dvije situacije:

- elementi dva uzorka su očigledno upareni, ili ih je istraživač eksplicitno upario; na
primjer mjerenje IQ na identičnim blizancima.

- istraživanje je definisano na način da se mjerenje vrši dva puta na istim jedinicama
posmatranja pod različitim uslovima; na primjer mjerenje sposobnosti pamćenja
prije i poslije specijalne vježbe.

Nekada se iz ovakvih uzoraka računa razlika dobijenih vrijednosti i tada ona predstavlja
nov uzorak koji se dalje može adekvatno statistički analizirati.

Nezavisni uzorci

Nezavisni uzorci su oni koji se biraju iz iste ili iz različitih populacija, a nemaju nikakvog
efekta jedni na druge (ne postoji korelacija između njih).

Primjenjena statistika :: Predavanja 1
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Slučajni uzorak

Slučajno uzorkovanje je tehnika kjom se obezbjeđuje da se svaka jedinica posmatranja
bira potpuno slučajno, kao i da sve imaju poznatu (ne obavezno istu) vjerovatnoću izbora.
Pomoću ove tehnike se smanjuje pristrasnost izbora jedinica populacije u uzorak.

Prost slučajni uzorak (Simple Random Sample – SRS)

Kod SRS tehnike se svaka jedinica bira slučajno, pri čemu sve jedinice populacije imaju
iste šanse da budu odabrane u uzorak. Dodatno, svaki uzorak date veličine ima iste šanse
za izbor, što znači da svaki element populacije ima istu vjerovatnoću izbora u svim fazama
izbornog procesa.

Stratificirani uzorak

Često se populacija može prirodno podijeliti u disjunktne podskupove (potpopulacije,
stratume), pri čemu se očekuje da mjerenja od interesa variraju među poskupovima. (Na
primjer, istraživanje kupovne moći potrošača po kantonima u Federaciji BiH.) Tada bi se
razlike među podpopulacijama trebale odraziti i na uzorku, što se postiže stratificiranim
uzorkovanjem.

Stratificirani uzorak se dobija biranjem uzoraka iz svakog stratuma populacije.

U opštem slučaju se traži da proporcije svakog stratuma u uzorku budu jednake kao i u

populaciji (Probability Proportional to Size – PPS).

Stratificirani uzorak se koristi kod nehomogenih populacija, ili kod populacija iz kojih se
mogu izdvojiti homogene potpopulacije, dok se SRS koristi kod uzorkovanja iz homogene
populacije.

Neke od prednosti stratificiranog nad prostim slučajnim uzorkovanjem su:

- može se umanjiti cijena istraživanja po jedinici posmatranja,
- potrebno je ocijeniti parametre populacije i za potpopulacije,
- može se povećati preciznost za fiksiranu cijenu istraživanja.

Klaster uzorak

Koristi se kada istraživaču nije dostupan spisak jedinica posmatranje čitave populacije, ali
ima potpune podatke za grupe (klastere). Takođe se koristi kada SRS može rezultirati
toliko razuđenim uzorkom da bi istraživanje bilo preskupo (na primjer, ljudi koji žive u
različitim mjestima). Često je praktičnije i/ili jeftinije i od SRS i od stratificiranog
uzorkovanja.

Ovom metodom se čitava populacija podijeli u podskupove disjunktne po posmatranom

obilježju (klastere), pa se bira SRS od tih klastera. Sve jedinice posmatranja koje pripadaju
odabranom klasteru su u uzorku.

Kvota uzorak

Danas je možda i najpopularniji način na koji razne marketinške agencije prikupljaju

podatke, ali ima ozbiljne metodološke nedostatke; za početak, to nije slučajni uzorak i

uzoračka raspodjela bilo koje statistike je nepoznata.

Primjenjena statistika :: Predavanja 2
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Princip je sljedeći: svakom anketaru se dodijeli određeni broj (kvota) jedinica posmatranja
koje bi trebalo da „regrutuje“ za uzorak.

Uzoračka varijabilnost

Uzoračka varijabilnost je pojam koji se odnosi na različite vrijednosti koje data funkcija
ima kada se u nju zamijene podaci iz različitih uzoraka odabranih iz iste populacije.

Standardna greška

Standardna greška je standardna devijacija (termin koji će biti objašnjen u narednim
predavanjima) vrijednosti date uzoračke funkcije nad svim mogućim uzorcima iste veličine

Pristrasnost (Bias)

Pristrasnošću se mjeri koliko je prosječna statistika udaljena od parametra koji mjeri, dakle
greška koja nastaje pri ocjenjivanju veličine. Polazna pretpostavka je da će se slučajne
greške međusobno eliminisati ponavljanjem, ali da pristrasnost (ukoliko postoji) ostaje.

Na slici 1 su ilustrovani pristrasnost i preciznost.

Preciznost

Preciznost je mjera očekivanja blizine ocjene stvarnoj vrijednosti parametra, a obratno je
srazmjerna standardnoj grešci.

Precizno Neprecizno

Pristrasno

Nepristrasno
Slika 1: Pristrasnost i preciznost

Primjenjena statistika :: Predavanja 3
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Datum: 19.3.2019.

Sortiranje podataka

Nakon što se iz populacije odabere uzorak, podaci se najčešće trebaju na naki način urediti
da bi se mogli smisleno predstaviti i/ili dalje obrađivati. Neke od tehnika su: tabeliranje
(obrađeno u prethodnoj nastavnoj jedinici kroz vježbe), sortiranje, filtriranje i grafički
prikaz. Kako su ostale tehnike ili jednostavne, ili već obrađene, u daljem tekstu će se
govoriti samo o sortiranju podataka.

Podaci u uzorku se mogu sortirati na različite načine:

- prema broju (ili učestalosti) ponavljanja elemenata u uzorku, odnosno prema
frekvencijama elemenata,

- po srodnim grupama i
- prema veličini obilježja.

Sortiranje elemenata po učestalosti ponavljanja u uzorku

Veoma često je korisno znati koliko se puta neki element ponovio u uzorku (na primjer,
koliko studenata je položilo ispit sa ocjenom 6, koliko sa ocjenom 7,...). Naravno, ovakvo
sortiranje ima smisla ukoliko se radi o cijelim brojevima koji se ne kreću u prevelikom
rasponu; ukoliko se trebaju sortirati realni brojevi, ili brojevi u velikom rasponu,
primjenjuje se grupisanje.

Svaki statistički softver ima ugrađene funkcije za sortiranje elemenata prema učestalosti
njihovog ponavljanja u uzorku, pa ni MSExcel nije izuzetak. U njemu se za to koristi
naredba FREQUENCY ili PIVOT tabela sa opcijom Count (detalji primjene su prikazani u
vježbama). Postupak sortiranja bi bio sljedeći: vrijednosti u uzorku se sortiraju (u rastućem
ili opadajućem poretku) pa se prebroji koliko se puta koja vrijednost ponavlja. Kada se
primjenjuje naredba FREQUENCY veoma često je pogodno prethodno izračunati minimalni
i maksimalni element (pomoću funkcija MIN i MAX); izuzetak su jedino podaci za koje se
zna tačno koje vrijednosti nose, kao što je slučaj sa ocjenama.

Primjer

Na primjer, neka su za 40 studenata koji položili ispit iz statistike zabilježene sljedeće
ocjene:

6678976 6
7788866 10
10 9 9 9 6 6 6
7777886 7
6879776 6
6
Tabela 1: Ocjene 40 studenata

Primjenjena statistika :: Predavanja 1
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Kada se dobijene ocjene sortiraju po frekvencijama, dobija se:

Ocjena Frekvencija
(xi) (fi)

6 14

7 12

87

95

10 2

Svega 40

Tabela 2: Frekvencije ocjena iz Tabele 1 (broj studenata koji su dobili svaku od ocjena)

što znači da je 14 studenata položilo ispit s ocjenom 6, 12 sa 7 i tako redom. Sortirane
podatke je uvijek korisno prikazati i grafički; za prikaz frekvencija se koristi histogram
frekvencija1, pri čemu se vrijednosti (u ovom slučaju ocjene) upisuju na x-osu, a njihova
učestalost (frekvencija) na y-osu:

16 12 7 5
14 7 8 2

14 9 10

12

10

8

6

4

2

0
6

Slika 1: Histogram frekvencija ocjena studenata

1 Ukoliko se histogram frekvencija objavljuje u stručnom ili naučnom radu, obavezno je 2
odabrati crnu boju, na ispitu se mogu koristiti i druge boje.

Primjenjena statistika :: Predavanja
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Sortiranje po grupama

Ukoliko su podaci diskretni, a ima previše elemenata da bi se mogli prikazati u tabeli i/ili
grafikonu, ili ako se radi o neprekidnim podacima, onda se pribjegava grupisanju. Na
primjer, ako se želi mjeriti starost (koja se kreće od 0 do 100 i više godina) onda se takvi
podaci uvijek grupišu, pa se prebrojava koliko elemenata uzorka se nalazi u svakoj od
grupa.

Neka u jednoj zgradi živi 56 stanara starosti kao u donjoj tabeli.

50 61 24 25 27 55 57 16
67 31 57 53 26 16 19 30
33 53 58 26 29 72 77 43
11 8 11 38 38 64 58 56
42 28 27 25 20 21 44 77
33
0 7 32 34 36 31 29 55
66 59 62 63 4 6 66

Tabela 3: Starost 56 stanara neke zgrade

Da bi se jednostavnije odredile granice grupa, prvo se računaju minimalna i maksimalna
starost.

Minimalna starost 0
Maksimalna starost 77

Zatim se odrede granice razreda (grupa), pa se prebroji (primjenom FREQUENCY) koliko
elemenata uzorka ima vrijednost u zadanim granicama (u ovom slučaju granice imaju
smisla).

Opis grupe Ganice grupe Frekvencije (fi)

Predškolska djeca 0-5 2

Osnovci 6-14 5

Srednjoškolci 15-19 3

Studenti 20-24 3

Mlađi zaposleni 25-44 22

Stariji zaposleni 45-64 15

Penzioneri 65+ 6

Ukupno 56

Tabela 4: Podjela u starosne grupe i broj osoba koje spadaju u svaku od njih

Primjenjena statistika :: Predavanja 3
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Odgovarajući grafikon je prikazan na Slici 3:

25 22

20
15

15

10 5 6

52 33

0
0-5 6-14 15-19 20-24 25-44 45-64 65+

Slika 2: Histogram frekvencija starosti stanara jedne zgrade

Primjenjena statistika :: Predavanja 4
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Sortiranje po vrijednostima

Ako se elementi jednog uzorka sortiraju po vrijednostima u rastućem redoslijedu, tada se
oni mogu podijeliti u grupe koje imaju jednak broj elemenata. Tako se, na primjer, može
govoriti o prvoj i drugoj polovini uzorka, ili o srednjih 50% podataka i mogu se analizirati
njihove razlike. Ovakvo sortiranje se često primjenjuje u ekonomiji, na primjer, ukoliko se
gleda prihod po stanovniku, onda može biti zanimljivo znati koliki je maksimalni prihod za
najsiromašniju četvrtinu populacije, ili, koja je donja granica prihoda 10% najbogatijih.
Dodatno, često se čuje da su temperature u granicama normalnih ili izuzetno visoke za
određeno doba godine, a te granice se utvrđuju percentilima u odnosu na neki duži period.
Primjer upotrebe graničnih percentila u odnosu na višegodišnju srednju mjesečnu
temperaturu (1961-1990.) za klasifikaciju je prikazan na Slici 3.

Slika 3: Izvor http://fhmzbih.gov.ba/podaci/klima/ANALIZA/01.pdf p.6/13

Kada se podaci sortiraju po vrijednostima, oni se mogu podijeliti u proizvoljan broj grupa,
ali su najpoznatije podjele u

- percentile (100 grupa)
- decile (10 grupa),
- kvintile (5 grupa),
- kvartile (4 grupe) i
- tercile (3 grupe).

Prilikom sortiranja u bilo koje od navedenih grupa, uzorak se sortira, veličina uzorka se
podijeli brojem grupa i onda se određuju granice.

Značenje percentila se može shvatiti kroz izjavu da je p-ti percentil podataka takav broj
da je približno p% vrijednosti manje ili jednako njegovoj vrijednosti. Za računanje
percentila se može koristiti formula2

2 5

http://web.stanford.edu/class/archive/anthsci/anthsci192/anthsci192.1064/handouts/cal
culating%20percentiles.pdf (11.3.2018.)

Primjenjena statistika :: Predavanja
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

− 0.5
= 100

gdje je i redni broj percentila , a ukupan broj sortiranih podataka . Sa druge strane,

za računanje specifičnog percentila (na primjer 25%, 50%) formula se mora obrnuti:

= + 0.5
100

Ako je i cio broj, vrijednost granice i-tog percentila je element . Ako nije, onda se

vrijednost granice traži interpolacijom, po formuli:

= (1 − ) ∙ + ∙ +1

gdje je d decimalni dio od i.

Recimo da se ocjene studenata iz Tabele 1 trebaju sortirati u tercile. Kako podataka ima
40, a tercila 3, to se prvo treba podijeliti 40 sa 3, što nije cio broj3 (40:3=13.33). Iz tabele
frekvencija se vidi da je prvih 14 elemenata jednako 6, pa je i granica prve tercile jednaka
6 (jer je razlika između 13-tog i 14-tog elementa jednaka 0).

Redni broj Redni broj Granica
tercile
granice tercile

1 13,33 6

2 26,67 7,65

3 40,00 10

Tabela 5: Granice tercila ocjena 40 studenata

Granica druge tercile (7.65) se računa po formuli za = 0.667, 26 = 7, 27 = 8. Granica

treće tercile (i svake posljednje grupe) je najveći element u uzorku.

Sada se može reći da je barem trećina studenata dobila 6, dvije trećine studenata manje
od 7,65 (dakle, 7 ili manje), a da je samo trećina studenata položila ispit sa ocjenom 8 ili
više. Grafički prikaz ocjena sortiranih u tercile je na Slici 4.

12
10

8
6
4
2
0

123

Slika 4: Ocjene sortirane u tercile.

3 Ukoliko se dobije cio broj, postupak je jednostavan: granica grupe je element sortiranog 6
uzorka sa tim rednim brojem.

Primjenjena statistika :: Predavanja
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Datum: 26.3.2019.

Mjere centralne tendencije

U statističkim istraživanjima se dobijeni (sirovi) podaci najčešće ne prikazuju, nego se
obrađuju različitim funkcijama (statistikama). Te se funkcije koriste da bi se auditorijumu
prikazali prikupljeni podaci, a na osnovu njih se može vršiti i zaključivanje (inferencija).

U najjednostavnije funkcije za opisivanje podataka spadaju mjere centralne tendencije.
Sve one opisuju srednju vrijednost podataka, odnosno vrijednost za koju se očekuje da se
nalazi u sredini opisanog skupa, ili da se najčešće ponavlja u uzorku, ili da se sve ostale
vrijednosti grupišu oko nje. Funkcije koje se koriste za opisivanje centralne tendencije se
još nazivaju i sredinama.

Vrste sredina

Različiti podaci se moraju opisivati različitim sredinama. Najčešće korištena sredina u

statistici je aritmetička sredina podataka ili prosta sredina. Ona se računa tako što se

izračuna masa uzorka (svi podaci se saberu), pa se taj zbir podijeli veličinom uzorka
(brojem podataka). Veličina uzorka se u Excelu može odrediti pomoću funkcije COUNT, a
masa pomoću funkcije SUM.

Na primjer, neka su za 40 studenata koji položili ispit iz statistike zabilježene ocjene kao u
Tabeli 1.

6678976 6
7788866 10
10 9 9 9 6 6 6
7777886 7
6879776 6
6
Tabela 1: Ocjene 40 studenata

U Tabeli 2 su prikazane masa i veličina uzorka, te aritmetička sredina izračunata na dva
načina: kao količnik mase i veličine uzorka i pomoću ugrađene Excel funkcije AVERAGE.

Masa uzorka 289
Veličina uzorka 40
Aritmetička sredina 7,225

AVERAGE 7,225

Tabela 2: Masa, veličina i aritmetička sredina uzorka ocjena.

Sada se može reći da je prosječna ocjena studenata na ispitu bila 7.225.

No, sredina uzorka se može opisati i na druge načine. Jedan od njih je da se u obzir uzme
koja se ocjena najčešće ponavljala (kojih je ocjena bilo najviše). Ta mjera centralne

tendencije se naziva modus (dominantna sredina). U Excel-u se ona može izračunati

pomoću funkcije MODE, a ukoliko se mora računati „pješke“, onda se mora prebrojati koliko
se puta svaki od elemenata ponavlja u uzorku. U uzorku može biti više od jednog modusa,
ukoliko postoji veći broj elemenata koji se ponavljaju isti broj puta, rekimo k-puta, (a nema
elemenata koji se ponavljaju više od k puta).

Primjenjena statistika::Predavanja 1
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Dodatno se mogu elementi uzorka sortirati (u rastućem poretku) i onda se odrediti koji
element se nalazi na sredini sortiranog uzorka. Ta mjera centralne tendencije se naziva

medijana (centralna vrijednost). Ukoliko uzorak ima neparan broj elemenata, onda je

medijana element sortiranog uzorka pod rednim brojem (n-1)/2, a ukoliko je u uzorku
paran broj elemenata, medijana je aritmetička sredina srednja dva. U Excel-u postoji
ugrađena funkcija MEDIAN koja se može upotrijebiti za računanje medijane.

U tabeli 3 su prikazani modus i medijana uzorka ocjena iz Tabele 1.

Medijana 7

Modus 6

Tabela 3: Medijana i modus uzorka ocjena.

Iako se aritmetička sredina najčešće koristi, ona nije najbolji izbor u svim situacijama. Na
primjer, ukoliko se želi odrediti srednja cijena nekog artikla u različitim prodavnicama,
onda je efikasnije korititi modus (najčešće cijena tog artikla). Slično je i sa određivanjem
prosječnog broja djece po porodici, bolje je znati kakva se situacija najčešće javlja, na
primjer, u BiH ima najviše porodica sa dvoje djece, nego da se kaže da je prosječan broj
djece u BH porodici 2.18.

Odnos aritmetičke sredine i medijane

Kada se opisuje centralna tendencija nekog uzorka, korisno je uporediti različite vrste

sredina. Na taj način se dolazi do informacije o zakrivljenosti uzorka. Zakrivljenost se

karakteriše pozicijom medijane u odnosu na prostu sredinu: ako je medijana desno od
aritmetičke sredine, skup je zakrivljen udesno i obratno. U ovo razmatranje se može uzeti
i modus, ukoliko postoji.

Odnos između medijane i modusa može da upozori na neke karakteristike uzorka, kao što
su bipolarnost, ili postojanje ekstremne vrijednosti u uzorku. Na primjer, neka se posmatra
skup platnih razreda zaposlenika jednog prosječnog preduzeća u Mostaru (prosječna plata
u HNK je 900 maraka). Platni razredi sa frekvencijama su prikazani u Tabeli 4.

Platni razred Opseg Frekvencija

1 300-550 1

2 551-800 1

3 801-1050 3

4 1051-1300 6

5 1301-1550 4

6 1551-1800 4

7 1801-2050 6

8 2051-2300 3

9 2301-2550 1

10 2551 i više 1

Total 30

Tabela 4: Platni razredi jednog izmišljenog preduzeća sa frekvencijama zaposlenih

Frekvencijski prikaz uzorka je naročito pogodan za određivanje modusa, iz tabele 4 se vidi
da postoje dva modusa, platni razred 4 i platni razred 7 (u oba razreda postoji po 6
zaposlenih). Uzorak sa dva modusa se naziva i bipolaran (vrijednosti u uzorku se
koncentrišu oko dvije različite vrijednosti.

Primjenjena statistika::Predavanja 2
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Medijana ovog uzorka je jednaka aritmetičkoj sredini, 5.5.

Grafički prikaz uzorka je na Slici 1.

Broj zaposlenika po 8
platnom razredu
6

4

2

0
1 2 3 4 5 6 7 8 9 10
Platni razred

Slika 1: Broj zaposlenika po platnim razredima (Tabela 4).

Zamislimo sada da se u ovaj uzorak dodaju mjesečni džeparac nekog šeika, koji spada u
platni razred 300. Tada će se aritmetička sredina značajno uvećati (sa 5.5 na 15), medijana
će ili ostati ista ili će se samo malo povećati (sa 5.5 na 6), a modusi će ostati isti.

Kako prosta sredina zavisi od vrijednosti u uzorku, ona se naziva i težištem uzorka. Na ovaj
način se potencira osobina aritmetičke sredine da je suma odstupanja pojedinačnih
elemenata od sredine uvijek jednaka nuli.

Elementi uzorka veličine 10 6
5 4 577 6 689 6,3

Prosta sredina -0,3
Odstupanje elemenata uzorka od sredine 0,00

-1,3 -2,3 -1,3 0,7 0,7 -0,3 -0,3 1,7 2,7
Suma odstupanja elemenata uzorka od sredine

Frekvencijska sredina

Sredina se može računati i iz sortiranog uzorka. Ukoliko se radi o frekvencijskom uzorku,
frekvencijska sredina će biti jednaka prostoj sredini.

Razmotrimo uzorak 5,4,5,7,7,6,6,8,9,6. Svejedno je na koji način će sumirati elementi da
bi se dobila masa uzorka:

5+4+5+7+7+6+6+8+9+6

ili

1*4+2*5+3*6+2*7+1*8+1*9.

Primjer računanja frekvencijske sredine je detaljno objašnjen u materijalima za vježbe.

Primjenjena statistika::Predavanja 3
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Grupna (razredna sredina)

Recimo da se želi odrediti srednja vrijednost Uzorka prikazanog u Tabeli 4. Kada su
dostupne samo frekvencije po razredima, onda se može izračunati sredina razreda,
smatrati se da su svi elementi razreda predstavljeni tom sredinom i dalje se primjeniti
postupak za frekvencijsku sredinu. Važno je zapamtiti da razredna sredina ne mora biti
jednaka aritmetičkoj sredini, odnosno da ona u opštem slučaju ima odstupanje u odnosu
na prostu sredinu.

Harmonijska sredina

Harmonijska sredina predstavlja količnik obima uzorka i sume recipročnih vrijednosti
njegovih elemenata. Računa se po formuli:

̅ =
11+⋯+ 1 .

Koristi se veoma rijetko i to kod uzoraka čiji su elementi definisani u odnosu na neku
jedinicu (na primjer za računanje prosječne brzine koja se i sama definiše kao količnik
pređenog puta u jedinici vremena). U statistici je korisno primjenjivati harmonijsku sredinu
kada u uzorku postoje vrijednosti koje su mnogo puta veće od ostalih (takozvani ekstremne
vrijednosti ili autlejeri).

Na primjer, ukoliko želimo da izračunamo sredinu uzorka iz Tabele 4 sa pridodatom
vrijednošću za šeika sa platnim razredom 300, primjenom formule za harmonijsku sredinu
bi se dobila vrijednost 4,48, a ta vrijednost je bliža vrijednosti tipičnog predstavnika u
uzorku od vrijednosti za aritmetičku sredinu (15).

U odnosu na geometrijsku i aritmetičku sredinu, harmonijska je uvijek najmanja, a
jednakost sve tri važi samo ako su svi elementi u uzorku jednaki.

Geometrijska sredina

Geometrijska sredina se računa kao n-ti korjen proizvoda svih elemenata u uzorku, po
formuli:

̅ = √ 1 ∙ … ∙ .

Koristi se kod uzoraka čiji su elementi pozitivni, a čiji se kumulativ interpretira ne sumom
nego proizvodom (na primjer u ekonomiji, za računanje prosječne vrijednosti povrata
investicija kroz vrijeme, ili za računanje kumulativnih kamatnih stopa).

Na primjer, neka se dobit od neke investicije kreće kao u Tabeli 5.

Godina 2009 2010 2011 2012 2013 2014

- 5% 20% 25% -10% 20%
Povrat investicije 10000 10500 12600 15750 14175 17010

Tabela 5: Povrat izmišljene investicije u pet godina.

Primjenjena statistika::Predavanja 4
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Primjenom aritmetičke sredine se povrat investicije precenjuje za 4%, pa se u ovakvim
slučajevima primjenjuje geometrijska sredina, s tim da se procenti povrata investicije
moraju računati u odnosu na 100% kao u Tabeli 6, jer se geometrijska sredina računa za
pozitivne brojeve.

Godina Povrat

investicije

2009 -

2010 1,05

2011 1,2

2012 1,25

2013 0,9

2014 1,2

Tabela 6: Povrat investicije

Geometrijska sredina je uvijek veća od harmonijske, ali manja od aritmetičke, a jednakost
važi samo ako su svi elementi u uzorku jednaki.

Primjenjena statistika::Predavanja 5
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Datum: 2.4.2019.

Varijabilnost skupa podataka

U materijalima za prošlu sedmicu je bio opisan pojam sredine kao vrijednosti oko koje se
elementi uzorka grupišu, no nije rečeno ništa o tome koliko su elementi blizu ili daleko od
sredine. Mjerenjem udaljenosti elemenata uzorka od njegove sredine se dolazi do pojma

varijabilnosti.

Najjednostavnija mjera varijabilnosti uzorka je raspon, odnosno razlika između

maksimalnog i minimalnog elementa u uzorku. Iako ga je korisno izračunati, on je ipak
veoma nesigurna i neprecizna mjera, iz dva razloga:

1. prisustvo makar jedne ekstremne vrijednosti znatno uvećava raspon, što ne mora
oslikavati varijabilnost ostalih elemenata oko sredine i

2. obično je veći od broja elemenata u uzorku.

Druga mjera koja se može koristiti za sve sredine osim aritmetičke je prosječno odstupanje

elemenata od sredine, tzv. srednje odstupanje. Ono se računa tako što se saberu

odstupanja svih elemenata od sredine, pa se taj zbir podijeli veličinom uzorka.

Odstupanje od aritmetičke sredine

U praksi se dešava da dva različita uzorka imaju iste sredine; tada je korisno znati
varijabilnost uzoraka, da bi se oni mogli porediti. Na primjer, neka su data dva uzorka (U1
i U2, respektivno) kao u Tabeli 1.

Tabela 1: Dva uzorka sa različitim elementima i istim sredinama

U1 U2
12
23
33
43
54

Aritmetičke sredine (u daljem tekstu sredine) oba uzorka su iste (jednake 3), ali bi se na

osnovu uvida u elemente uzorka moglo zaključiti da dobijena sredina bolje predstavlja U2
nego U11. Funkcija kojom se opisuje odstupanje elemenata uzorka od sredine se naziva

varijansa ili disperzija.

1 Sredina predstavlja vrijednost oko koje se grupišu elementi uzorka, a kod U2 su elementi bliži 1
sredini, ili gušće grupisani oko sredine, nego kod U1.

Primjenjena statistika :: Predavanja
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

No, kako je već ukazano na osobinu aritmetičke sredine da je zbir odstupanja svih
elemenata uzoraka od sredine jednak nuli2, za računanje varijanse se odstupanja od
sredine kvadriraju3. Na taj način se dolazi do formule4

2 = 1 ∑ =1( − )2,


gdje označava sredinu, 2 varijansu, a veličinu uzorka. Dakle, može se reći da

varijansa predstavlja prosječno kvadratno odstupanje elemenata uzorka od sredine.

U Tabeli 2 je prikazan postupak računanja varijanse za uzorke iz Tabele 1.

Tabela 2: Suma odstupanja i suma kvadrata odstupanja od sredine za U1 i U2.

U1 U2

− ( − )2 − ( − )2

1 -2 4 2 -1 1

2 -1 1 300

30 0 3 0 0

41 1 3 0 0

52 4 4 1 1

∑ 15 0 10 15 0 2

Dalji postupak5 je da se veličine izračunate u Tabeli 2 smjene u formulu za računanje
varijanse (s tim da se koristi formula za varijansu uzorka, jer je < 30). Dakle, za U1 važi:

12 = 1 ∑ 5 =1( − )2 = 4+1+0+1+4 = 2.5,
5−1 4

a za U2:

22 = 1 ∑5 =1( − )2 = 1+0+0+0+1 = 0.5.
5−1 4

Sada se na osnovu vrijednosti sredine i varijanse može reći da sredina bolje predstavlja
U2 nego U1 jer su u U2 odstupanja elemenata od sredine manja nego u U1.

2 (jer se pozitivna i negativna odstupanja poništavaju) 2
3 (da bi se sumiranjem mogle kumulirati pozitivne vrijednosti odstupanja)
4 Ovo je formula za varijansu populacije; za varijansu uzorka se umjesto sa dijeli sa − 1. Smatra
se da se za uzorke veličine manje od 30 treba primijeniti formula za varijansu uzorka, a za ostale
formula za varijansu populacije.
5 Postupak za računanje varijanse u Excel-u je prikazan u materijalima za vježbe.

Primjenjena statistika :: Predavanja
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Ukoliko se uzme u obzir da je sredina najčešće decimalni broj, za računanje varijanse se
može koristiti i alternativna formula:

2 = 1 ∑ =1 2 − 1 (∑ =1 )2 ,
−1 ( −1)

pri čemu je kao osnovno polazište za računanje korištena formula za uzorak. Zaista, kada
se u ovu formulu smjene vrijednosti za U1, dobija se

2 = 4+9+9+9+16 − 1 (15)2 = 47∙5−225 = 10 = 0.5.
5−1 5(5−1) 20 20

Iako nije dobro da elementi uzorka previše variraju, ni varijansa bliska ili jednaka nuli nije
dobar pokazatelj.

U kom slučaju je varijansa uzorka jednaka nuli?

Kako se varijansom izražava prosječno kvadratno, to se uvodi statistika kojom se izražava
prosječno linearno odstupanje od sredine, standardna devijacija. Ona se računa kao

kvadratni korjen iz varijanse i koristi se kao standard za mjerenje varijabilnosti rezultata.

Dakle, kada se želi predstaviti neki uzorak, a ne žele se prikazati svi njegovi elementi, onda
se mora prikazati sredina u paru sa standardnom devijacijom, tako da korisnik može imati
predstavu i o vrijednosti oko koje se grupišu elementi uzorka (sredini) i o odstupanju
elemenata uzorka od sredine. Uz ove dvije statistike se još treba prikazati i veličina uzorka.

Kada su podaci pravilno (normalno6) grupišu oko sredine, onda važi:

• interval ( − , + ) obuhvata 68.26% elemenata uzorka,
• interval ( − 2 , + 2 ) obuhvata 95.44% elemenata uzorka,
• interval ( − 3 , + 3 ) obuhvata 99.73% elemenata uzorka

Detaljan postupak računanja varijanse i standardne devijacije za frekvencijsku i
grupnu/razrednu sredinu je prikazan u materijalima za vježbe.

6 Normalno se u ovom slučaju odnosi na pojam Normalne raspodjele, koji će biti objašnjen u 3
narednim predavanjima.

Primjenjena statistika :: Predavanja
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Koeficijent varijacije

Još jedna korisna funkcija kojom se izražava varijabilnost uzorka je koeficijent varijacije,
koji se računa po formuli

=
.

Koristi se kada se želi utvrditi jedna od sljedeće dvije stvari:

1. koje obilježje više varira, ako se na jednom uzorku mjere osobine dva ili više njih,
2. koji uzorak više varira, ako se na barem dva uzorka mjere osobine istog obilježja.

Na primjer, neka su dati podaci za jednu generaciju studenata o prosječnoj ocjeni (od 6
do 10) i prosječnom broju položenih ispita (od 0 do 10). Variraju li više rezultati za
prosječne ocjene ili za broj položenih ispita?

Tabela 3: Računanje koeficijenta varijacije za dva obilježja na jednom uzorku.

Prosječna ocjena Broj položenih ispita

µ 7,33 6,71
 1,28 2,66
 0,18 0,40

Iz Tabele 3 je vidljivo da više variraju podaci o broju položenih ispita od podataka za
prosječnu ocjenu po studentu.

Sa druge strane, neka se žele uporediti prosječne ocjene dvije generacije studenata, G1 i
G2, kao dva uzorka, koji su u dvije akademske godine položili isti predmet, Tabela 4.

Tabela 4: Koeficijent varijacije za poređenje vrijednosti jednog obilježja na dva uzorka.

Generacija 1 Generacija 2

n 104 79
µ 7,54 7,39
 2,20 2,10
 0,29 0,28

Uvidom u rezultate prikazane u Tabeli 4 se može zaključiti da ocjene ove dvije generacije
studenata isto variraju.

Primjenjena statistika :: Predavanja 4
https://www.fit.ba/fit

Materijali za drugu parcijalu



Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Datum: 8.4.2019.

Raspodjela slučajne promjenjive

Bez da se zadaje takozvana aksiomatska definicija vjerovatnoće, na kojoj počiva i stroga
definicija slučajne promjenjive i njene raspodjele, mogu se navesti i objasniti ovi pojmovi
u mjeri dovoljnoj za razumijevanje materije predviđene silabusom predmeta.

Vjerovatnoća

Empirijska definicija vjerovatnoće
Neka se posmatra događaj A čiji se elementarni ishodi obilježavaju sa  (uobičajeno je da
se skup svih elementarnih ishoda obilježava sa ). Na primjer, ukoliko se u eksperimentu

baca kocka i bilježi broj koji se nalazi na gornjoj strani, onda su elementarni ishodi 1, 2,
3, 4, 5 i 6.

Empirijska vjerovatnoća nekog događaja se posmatra kao omjer broja povoljnih ishoda
za taj događaj i ukupnog broja svih ishoda. Na primjer, ako se događaj A definiše tako da

je prilikom bacanja pao ili broj 3 ili 4 ili 5, onda je vjerovatnoća tog događaja jednaka 3/6,
jer su od šest mogućih tri ishoda povoljna za A. U tom smislu se može reći da je događaj
podskup skupa elementarnih ishoda.

Najosnovnija pravila (Petz, B. 1997, str. 32-34)

Vjerovatnoća događaja za koji je potpuno izvjesno da će se dogoditi jednaka je 1, a takav
događaj se naziva izvjestan ili siguran događaj. Na primjer, ukoliko se posmatra ocjena

koju je dobio student koji je pristupio nekom ispitu, a ocjene se kreću od 5 do 10, onda je
izvjestan događaj da je student dobio neku od ocjena za svoj izlazak na ispit. Sa druge

strane, ako je potpuno izvjesno da se nešto neće dogoditi, onda je vjerovatnoća tog
događaja jednaka 0 i on se naziva nemoguć događaj. Na primjer, ako je student izašao na

ispit, onda je nemoguć događaj da nije dobio ocjenu. Vjerovatnoće svih ostalih događaja
se nalaze u rasponu od 0 do 1, pa se za vjerovatnoću kaže da je nenegativna i normirana.

Vjerovatnoća da će se dogoditi bilo koji od nekoliko nezavisnih1 događaja jednaka je sumi
vjerovatnoća pojedinačnih događaja. Zbog toga se kaže da je vjerovatnoća aditivna.

Sa druge strane, vjerovatnoća da će se istovremeno desiti dva ili više nazavisna događaja
jednaka je proizvodu pojedinačnih vjerovatnoća (princip multiplikativnosti).

Vjerovatnoća se uvijek obilježava slovom p (engl. probability). Ukoliko se radi o
vjerovatnoći elementarnog ishoda, ona se obilježava malim slovom, a ukoliko se radi o
vjerovatnoći nekog događaja, obilježava se velikim slovom. Na primjer, sa P(A) se
obilježava vjerovatnoća događaja A.

1 Za događaje se kaže da su nezavisni ako ishod jednog događaja ne utiče na vjerovatnoću 1
drugog i obratno. Na primjer, ako se dva puta uzastopno baca kocka, onda je vjerovatnoća
da će „pasti“ 4 u oba pojedinačna bacanje jednaka 1/6.

Primjenjena statistika:: Predavanja
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Slučajna promjenjiva

Iako se u materijalima neće navoditi stroga (matematička) definicija, pojam slučajne
promjenjive se ipak mora objasniti. Dakle, za potrebe ovog kursa se može smatrati da je
slučajna promjenjiva ona promjenjiva kod koje se svaka vrijednost realizira sa određenom
vjerovatnoćom. Vjerovatnoća da je realizacija slučajne promjenjive2 X jednaka x se
obilježava sa P(X=x).

Vrijednosti koje može uzeti slučajna promjenjiva se nazivaju realizacije slučajne
promjenjive. Skup realizacija može biti diskretan ili neprekidan i u zavisnosti od njega se
slučajne promjenjive nazivaju diskretne ili neprekidne.

Diskretna slučajna promjenjiva.

Neka je dat primjer slučajne promjenjive X čije su vrijednosti ocjene studenta od 5 do 10.
Dalje, neka je svakoj ocjeni pridružena vjerovatnoća kojom se označava „šansa“ studenta
da na ispitu dobije određenu ocjenu. Jedan takav primjer je prikazan na Slici 1. Uobičajeno

je da se ovakvo pridruživanje naziva raspodjela vjerovatnoća slučajne promjenjive, pod
uslovom da je zbir vjerovatnoća za čitav skup realizacija slučajne promjenjive jednak 1.

: (0.539 6 78 9 01.006)
0.08 0.16 0.22 0.09

Slika 1: Raspodjela ocjena na imaginarnom ispitu

Raspodjela sa Slike 1 se može protumačiti i na sljedeći način: ukoliko bi na ispit izašlo 100
studenata (pomnoži se svaka vjerovatnoća sa 100), onda bi broj njih koji su dobili
određenu ocjenu bio kao u Tabeli 1.

Ocjena Broj studenata

5 39

68

7 16

8 22

99

10 6

Ukupno 100

Tabela 1: Frekvencije ocjena studenata

U statistici se dešava i da se prikaz kao u Tabeli 1 naziva raspodjelom, a u tom slučaju se
empirijske vjerovatnoće računaju na isti način kao i koeficijenti, a ponekad se izražavaju i
kao procenti.

Za slučajnu promjenjivu se vezuju i pojmovi matematičkog očekivanja i varijanse,
kovarijanse i korelacije, kao i momenata.

Matematičko očekivanje

Matematičko očekivanje slučajne promjenjive X, u oznaci EX, ili E(X), kao što mu ime kaže,
je formula kojom se dobija očekivana vrijednost neke slučajne promjenjive. Aritmetička
sredina je jedna od ocjena matematičkog očekivanja, a u primjenjenoj statistici je i
najčešća. Za diskretne slučajne promjenjive (za koje je eksplicitno navedena raspodjela)
formula glasi:

2 Slučajna promjenjiva se uvijek obilježava velikim slovom, a njene realizacije malim. 2

Primjenjena statistika:: Predavanja
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]



= ∑ ∙

=1

gdje su sa označene realizacije slučajne promjenjive, a sa vjerovatnoće da će slučajna
promjenjiva uzeti odgovarajuće realizacije. Na primjeru sa Slike 1, se može vidjeti da
smjenjivanje vrijednosti u formulu za matematičko očekivanje daje iste vrijednosti kao
kada se izračuna frekvencijska sredina za podatke prikazane u Tabeli 1. Naime,

= 5 ∙ 0.39 + 6 ∙ 0.08 + 7 ∙ 0.16 + 8 ∙ 0.22 + 9 ∙ 0.09 + 10 ∙ 0.06 = 6.72

što znači da je očekivana ocjena na ispitu prolazna ocjena, skoro sedmica.

Centralni momenti diskretnih slučajnih promjenjivih

Centralni moment (moment oko sredine) slučajne promjenjive reda se definiše
formulom:

= [( − ) ],

odnosno, za diskretne slučajne promjenjive se definiše formulom



= ∑( − )

=1

Gdje je sa m označena centralna vrijednost (matematičko očekivanje ili njegova ocjena).

U ovom kursu će se koristiti centralni momenti drugog, trećeg i četvrtog reda.

Centralni moment drugog reda se naziva varijansa (disperzija). Standardizirani3 moment
trećeg reda se naziva koeficijent simetrije (ili koeficijent asimetrije), a četvrtog reda
koeficijent spljoštenosti.

Binomna raspodjela

Najpoznatija raspodjela za diskretne slučajne promjenjive je Binomna raspodjela. Ona se
primjenjuje u situacijama kada se radi o slučajnoj promjenjivoj (X) koja ima samo dvije
realizacije, sa vjerovatnoćama4 p i 1-p.

Dalje se pretpostavlja da se eksperiment u kome se posmatra slučajna promjenjiva X
ponavlja n puta. Binomna raspodjela daje odgovor na pitanje kolika je vjerovatnoća da se
prilikom n ponavljanja eksperimenta određena realizacija (sa elementarnom
vjerovatnoćom p) ponovila k puta. Odgovarajuća formula glasi:

, ( = ) = ( ) (1 − ) − .

3 Centralni moment k-tog reda podijeljen standardnom devijacijom potenciranom na ( ) 3
se naziva standardiziranim.
4 Ako je vjerovatnoća neke realizacije (ili događaja) p, onda se vjerovatnoća q=1-p naziva

suprotna vjerovatnoća (vjerovatnoća da se događaj neće realizirati)

Primjenjena statistika:: Predavanja
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Povoljno svojstvo raspodjele je da su za nju uvijek određeni i matematičko očekivanje i

centralni momenti.Tako za Binomnu raspodjelu koja zavisi od parametara i , ( , )

važi:

= ,

= .

Na primjer, neka se posmatra bacanje kocke i neka se prati koliko je puta pala petica.
Vjerovatnoća da petica padne u jednom bacanju jednaka je 1/6. Kolika je vjerovatnoća da
će od 30 bacanja petica pasti 17 puta? Ova se vjerovatnoća jednostavno može izračunati
tako što se u formulu smijene vrijednosti n=30, k=17, p=1/6, ili u Excel-u, što je prikazano
u materijalima za vježbe.

Poisson-ova raspodjela

Poisson-ova raspodjela se odnosi na diskretne slučajne promjenjive koje zadovoljavaju
uslove Poisson-ovog eksperimenta:

• Rezultati eksperimenta su ishodi koji se mogu klasificirati kao uspješni ili
neuspješni;

• Prosječan broj uspješnih ishoda za jedan region ( ) je unaprijed poznat;

• Vjerovatnoća da će ishod biti uspješan je proporcionalna veličini regiona;
• Vjerovatnoća da će se uspješan ishod javiti u veoma malom regionu je zanemarljiva

(praktično jednaka nuli).

Region može biti dužina, površina, vremenski period, opseg ili tome slično.

Ako slučajna promjenjiva zadovoljava gore nabrojane uslove, onda ona ima Poisson-ovu

raspodjelu zadatu formulom:

( , ) =
.
!

Za Poisson-ovu raspodjelu važi da su joj jednaki matematičko očekivanje i varijansa, =
= .

Poisson-ova raspodjela se smatra uopštenjem Binomne za n veliko i p malo, obično 0.1 <
< 10.

Primjenjena statistika:: Predavanja 4
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Datum: 22.4.2019.

Raspodjela neprekidne slučajne promjenjive

Neprekidna slučajna promjenjiva (u smislu objašnjenja iz P7) je ona čiji je skup realizacija

neprekidan (neprebrojiv). Ukoliko je neprekidna slučajna promjenjiva, onda ona ima
gustinu raspodjele ( ) kojom se određuje vjerovatnoća da realizacija pripada intervalu
[ , ], a izražava se pomoću integrala:



( ≤ ≤ ) = ∫ ( )



Neprekidne slučajne promjenjive se karakterišu neprekidnom (ili čak apsolutno
neprekidnom) funkcijom raspodjele (Slika 1),



( ) = ( ≤ ) = ∫ ( )

−∞

Slika 1: (Kumulativna) funkcija raspodjele neprekidne slučajne promjenjive 1

Matematičko očekivanje neprekidne slučajne promjenjive je određeno formulom
+∞

= ∫ ( )

−∞
a varijansa se definiše kao drugi momenat oko sredine.

Za potrebe kursa će se definisati još i sljedeći pojmovi:

kovarijansa,
( , ) = ( ) − ( )( )

i koeficijent korelacije,

( , )
=

gdje su sa i obilježene standardne devijacije slučajnih promjenjivih X i Y respektivno.

Vrijednost koeficijenta korelacije se kreće od -1 do 1, a njime se utvrđuje imaju li dvije
slučajne promjenjive tendenciju da istovremeno rastu/opadaju, ili im se vrijednost kreću

Primjenjena statistika:: Predavanja
http://student.fit.ba/

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

u suprotnim smjerovima (-1 je maksimalna negativna korelacija, a 1 maksimalna
pozitivna).

Centralni momenti neprekidnih slučajnih promjenjivih

Centralni moment (moment oko sredine) slučajne promjenjive reda se definiše
formulom:

= [( − ) ],

odnosno, za neprekidne slučajne promjenjive se definiše formulom

+∞

= ∫ ( − ) ( )

−∞

gdje je sa m označena centralna vrijednost (matematičko očekivanje ili njegova ocjena).

U ovom kursu će se koristiti centralni momenti drugog, trećeg i četvrtog reda.

Centralni moment drugog reda se naziva varijansa (disperzija). Standardizirani1 moment
trećeg reda se naziva koeficijent simetrije (ili koeficijent asimetrije), a četvrtog reda
koeficijent spljoštenosti. Posljednja dva koeficijenta se u primjenjenoj statistici često

koriste za poređenje empirijske raspodjele sa normalnom.

Normalna (Gauss-ova) raspodjela

Najpoznatija raspodjela za neprekidne slučajne promjenjive je normalna raspodjela
( ( , 2)). Parametri normalne raspodjele su matematičko očekivanje ( ) i varijansa
( 2). Matematičko očekivanje predstavlja vrijednost oko koje su grupisane realizacije

slučajne promjenjive. Normalna raspodjela se često koristi kao aproksimacija empirijske
raspodjele slučajne promjenjive čije realizacije teže da se grupišu oko jedne vrijednosti.
Primjeri grafika normalne raspodjele za različite vrijednosti parametara su prikazane na
Slici 2.

Slika 2: Primjeri grafika normalne raspodjele (lijevo) i (kumulativne) funkcije raspodjele (desno) za 2
različite vrijednosti parametara. Standardizirana normalna raspodjela je prikazana crvenom bojom.

Normalna raspodjela kod koje je matematičko očekivanje jednako nuli, a varijansa jedinici,

(0,1) se naziva standardizovana normalna raspodjela. Naime, ako je X normalno

1 Centralni moment k-tog reda podijeljen standardnom devijacijom potenciranom na ( )
se naziva standardiziranim.

Primjenjena statistika:: Predavanja
http://student.fit.ba/

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

raspodjeljena slučajna promjenjiva, onda promjenjiva = − ima standardiziranu



normalnu raspodjelu, što slijedi iz osobina matematičkog očekivanja i varijanse.

Gustina normalne raspodjele je određena formulom

( ; , 2) = 1 −21( − )2
√2 2

Široka primjenjivost normalne raspodjele u praksi je bazirana na rezultatu teorije
vjerovatnoće, centralnoj graničnoj teoremi, kojom se pokazuje da pod slabim uslovima
srednja vrijednost velikog broja slučajnih promjenjivih nezavisno odabranih iz iste
raspodjele ima normalnu raspodjelu bez obzira na oblik polazne raspodjele. Dodatno,
normalnu raspodjelu je jednostavno izraziti analitički, odnosno, veliki broj rezultata koji se
na nju odnose se mogu eksplicitno izračunati.

Kako su za normalnu raspodjelu očekivanje i varijansa parametri, to njih nije potrebno
računati. Treći centralni momenat (kao i svi ostali neparni momenti) jednak je nuli, pa se
u primijenjenoj statistici empirijska raspodjela može smatrati asimetričnom (u odnosu na
sredinu) ukoliko se izračunati standardizirani treći momenat razlikuje od nule. Analogno,

kako je četvrti momenat oko sredine kod normalne raspodjele jednak 3 4 (k-ti centralni
moment, za parne k, jednak je ( − 1) ), to se empirijska raspodjela može smatrati

spljoštenom (ispupčenom) ukoliko je izračunati standardizirani četvrti momenat manji
(veći) od 3.

Od ostalih raspodjela, u ovom kursu će se koristiti još i one koje se primjenjuju za testiranje
hipoteza o normalno raspodijeljenim ishodima, a to su „hi-kvadrat“, studentova t i F
raspodjela. Raspodjele će biti detaljnije objašnjene u materijalima u kojima će se prvi put
pominjati njihova primjena.

Primjenjena statistika:: Predavanja 3
http://student.fit.ba/

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Datum: 23.4.2019.

Testiranje statističkih hipoteza

Pojam hipoteza se u primjenama statistike najčešće poistovjećuje sa formulisanjem tvrdnje
vezane za neki od parametara funkcije raspodjele, a testiranje takvih hipoteza se najčešće
zasniva na uzoračkoj ocjeni datog parametra. U matematičkoj statistici, testiranje hipoteza
je dio složene teorije koja prevazilazi obim ovog predmeta. Zbog toga će se u ovim
materijalima samo pominjati najbitniji rezultati, bez da se ulazi u njihovo dokazivanje.

Vrste testova

Postoje dvije vrste testova za provjeru statističkih hipoteza, parametarski i
neparametarski. Kod parametarskih testova se testiraju hipoteze o parametrima raspodjela
i mi ćemo se baviti isključivo ovim testovima.

Dakle, neka ( : 1, 2, … ) označava poznatu gustinu raspodjele koja zavisi od

parametara.

Statistička hipoteza

Definicija

Ukoliko se hipotezom određuju vrijednosti svih parametara gustine raspodjele, ona se

naziva prosta hipoteza; u protivnom hipoteza je složena.

Primjer proste hipoteze je: 0: 1 = 01, 2 = 02, a složene: 1: 1 = 01, 2 > 02. Hipoteza
o parametrima raspodjele se često testira naspram suprotne hipoteze, na primjer 0: =
0 naspram suprotne 1: > 0.

Matematički, uslov za konstruisanje najboljeg testa daje lemma Neumann-Pearson koja
određuje najbolji kritični region (površina ispod gustine raspodjele koja je nepovoljna za
datu hipotezu) za unaprijed određenu veličinu. Kritični region veličine se vezuje uz pojam
greške I vrste, koja predstavlja vjerovatnoću da dobijena vrijednost pripada kritičnom
regionu iako je hipoteza ispunjena. Sa druge strane greška II vrste je vjerovatnoća da

vrijednost ne pripada kritičnom regionu za (dakle trebala bi se prihvatiti 0), ali se
prihvata suprotna hipoteza 1. Kako je greška II vrste „opasnija“ za izvođenje pogrešnih

zaključaka, prilikom konstruisanja testova se ona minimizira.

U praksi se za kritični region (kritičnu vrijednost) najčešće koristi = 0,05 ili = 0,01,
što odgovara regionu od 5% (1%, respektivno) površine ispod krive gustine raspodjele.

U slučajevima kada se lemma Neumann-Pearson ne može primijeniti, primjenjuje se test
količnika vjerodostojnosti. Još jedan bitan pojam vezan za testiranje hipoteza je funkcija

moći testa ( ) kojom se određuje vjerovatnoća da dobijena vrijednost pripada kritičnom
regionu kada je stvarna vrijednost parametra; važi da je ( ) = 1 − ( ).

Primjenjena statistika:: Predavanja 1
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Goodness-of-fit testovi (testiranje da li uzorak odgovara teorijskoj raspodjeli)

U svim testovima koji su ovdje obrađeni se primjenjuje 2 raspodjela (slovo grčkog
alfabeta „hi“), gdje označava broj stepeni slobode (radi se o slovu grčkog alfabeta koje

se čita „ni“).

Multinomna raspodjela

Multinomna raspodjela ima slične karakteristike kao Binomna i smatra se njenim
uopštenjem. Kod binomne raspodjele se u svakom ponavljanju eksperimenta posmatrani

događaj ili realizuje (sa vjerovatnoćom ), ili ne realizuje (sa vjerovatnoćom = 1 − ).

Kod multinomne raspodjele postoji više elementarnih ishoda koji su svi međusobno

isključivi, 1, 2, … , i svakom od njih se pridružuje vjerovatnoća .

Na primjerima ćemo pokazati kako se koristi 2 test za utvrđivanje pripadnosti uzorka

poznatoj multinomnoj raspodjeli. Test se bazira na teoremi koja kaže da distribucije
slučajne promjenjive

( − )2



=1

ima 2 −1 raspodjelu (sa − 1 stepeni slobode).

Na isti način kao što se u ovdje prikazanim testovima testira adekvatnost Multinomnoj i
Normalnoj raspodjeli, može se testiranje primijeniti i za Binomnu i Poisson-ovu raspodjelu.

2 test

Primjer 1.

Neka se kocka baca 60 puta i neka su frekvencije ( ) zabilježene u eksperimentu date u

Tabeli 1.

Palo je: 1 2 3 4 5 6
ni 15 7 4 11 6 17

Tabela 1: Frekvencije pojavljivanja ishoda bacanja kocke u 60 ponavljanja.

Testira se hipoteza da je kocka „poštena“; u tom slučaju bi vjerovatnoće svih ishoda bile

iste i jednake 1 i to su očekivane vrijednosti za sve ishode. Dakle, testira se prosta hipoteza:

6

0: 1 = 1 , 2 = 1 , 3 = 1 , 4 = 1 , 5 = 1 , 6 = 1 , gdje je sa označena vjerovatnoća da je
6 6 6 6 6 6

palo .

Da bi se provelo testiranje, Tabela 1 se može dopuniti očekivanim vrijednostima (vidi
Tabelu 2) i onda je račun u Excel-u veoma jednostavan (vidjeti MSExcel file).

Dobijena vrijednost 2 statistike je 13.6. Kako ima 6 ishoda, to je broj stepeni slobode 2
raspodjele = 6 − 1 = 5, a teorijska vrijednost 52 za kritični region = 0,05 je jednaka 11.1.

Primjenjena statistika:: Predavanja 2
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Palo je: 1 2 3 4 5 6

ni 15 7 4 11 6 17


ei = ∙ = ∙ = ∙ = ∙ = ∙ = ∙

Tabela 2: Frekvencije pojavljivanja ishoda bacanja kocke u 60 ponavljanja.

Na Slici 1 je zasjenčen kritični region ispod krive koja približno prikazuje 2 raspodjelu.

Slika 1: Kritični region za χ2 raspodjelu.

Kako je vrijednost dobijena iz uzorka veća od teorijski dobijene vrijednosti, ona pripada
kritičnom regionu, pa se mora odbaciti hipoteza da su empirijske vrijednosti jednake

teorijskim. Dakle, 0 se odbacuje, pa možemo zaključiti da je kocka namještena (the dice

was loaded from the start...).

Primjenjena statistika:: Predavanja 3
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Primjer 2.

Neka su u eksperimentu uzgajanja jedne vrste cvijeća dobijene četiri različite kombinacije
boja i to 120 plavo-zelenih, 48 plavo-crvenih, 36 crveno-zelenih i 13 crveno-crvenih. Neka
je dalje poznato da bi se ove četiri kombinacije trebale odnositi u odnosu 9:3:3:1, treba
provjeriti jesu li empirijski podaci (podaci dobijeni u eksperimentu) u skladu sa teorijskim.

Da bi se odredile teorijske (očekivane) frekvencije, prvo se izračuna zbir 9+3+3+1=16, a
zatim se proizvod količnika odnosa i zbira pomnoži sa ukupnim brojem cvjetova i zaokruži
na najbliži cio broj (na primjer, 9 ∙ (120 + 48 + 36 + 13). Vrijednosti dobijene na ovaj način

16

su prikazane u Tabeli 3.

Sada se može postaviti hipoteza koja će se testirati:

9331
0: 1 = 16 , 2 = 16 , 3 = 16 , 4 = 16

Vrijednosti empirijskih i očekivanih frekvencija su prikazane u Tabeli 3.

Dobijena empirijska vrijednost 2 statistike je 1.9. Kako ima 4 ishoda, to je broj stepeni
slobode 2 raspodjele = 4 − 1 = 3, a teorijska vrijednost 32 za kritičnu vrijednost = 0,05

je jednaka 7.8.

Kombinacija boja: 1 2 3 4
ni 120 48 36 13
ei 122 41 41 14

Tabela 3: Frekvencije pojavljivanja kombinacija boja cvijeća u 217 sadnica.

Kako je u ovom slučaju empirijska vrijednost manja od teorijske za zadatu kritičnu

vrijednost, ona se ne nalazi u kritičnom regionu, hipoteza 0 se prihvata.

Primjenjena statistika:: Predavanja 4
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Ograničenja 2 test

U praksi se pokazalo da je 2 test nepouzdan ukoliko su vrijednosti (frekvencije

pojavljivanja ishoda) manje od 5. U tom slučaju se mora voditi računa da makar očekivane
vrijednosti budu veće od 5, a ako ni to nije slučaj, onda se ili mora izvršiti spajanje
kategorija (sumiranje frekvencija) ili se primijeniti neki drugi metod inferencije.

Uopštenje 2 testa

2 test se može koristiti i u slučajevima kada parametri raspodjele nisu unaprijed poznati,

nego se ocjenjuju na osnovu empirijskih podataka. U tom slučaju se za svaki procijenjeni
parametar oduzima po jedan stepen slobode.

Aproksimacije krive gustine raspodjele

Postoje situacije kada se želi provjeriti može li se za histogram frekvencija reći da
aproksimira neku raspodjelu (najčešće Normalnu, Poisson-ovu ili Binomnu).

Primjer 3.

Neka su u 1000 mjerenja dužine trajanja telefonskih razgovora dobijeni rezultati kao u
Tabeli 4 i neka je odgovarajući histogram frekvencija prikazan na Slici 2.

Dužina razgovora
(granica razreda) 49,5 149,5 249,5 349,5 449,5 549,5 649,5 749,5 849,5 949,5

ni 5 11 42 133 260 247 180 88 28 6

Tabela 4: Frekvencije obavljenih telefonskih razgovora određene dužine u 1000 mjerenja.

Dalje, neka je poznato da su srednja vrijednost i standardna devijacija jednaki = 474 i
= 151 (postupak računanja razredne sredine i varijanse je prikazan u .xsl dokumentu).

300
260 247

250

200 180

150 133

100 88

50 42 28
11
5

0

49.5 149.5 249.5 349.5 449.5 549.5 649.5 749.5 849.5

Slika 2: Histogram frekvencija dužine trajanja telefonskih razgovora u 1000 mjerenja prikazan po
razredima.

Primjenjena statistika:: Predavanja 5
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Očekivane vrijednosti se računaju primjenom formule za vjerovatnoće Normalne

raspodjele za zadate vrijednosti (granice intervala). U MSExcel-u se to postiže primjenom
funkcije NORM.DIST( = ; μ; σ; TRUE). Sintaksa funkcije je objašnjena u materijalima iz
vježbi. Kako je zbog opcije kumulativ=TRUE rezultat primjene funkcije površina ispod krive
do x, za sve vrijednosti osim prve se moraju izračunati razlike NORM.DIST( = ; μ; σ;
TRUE) - NORM.DIST( = −1; μ; σ; TRUE) (vidjeti Sliku 3).

Slika 3: Određivanje vjerovatnoće za oblast ispod krive ograničenu tačkama x1 (plavo) i x2
(crveno), presjek je ljubičaste boje i treba se oduzeti da bi se dobila crvena površina

Konačno, podaci pripremljeni za testiranje su prikazani u Tabeli 5.

ni 5 11 42 133 260 247 180 88 28 6
ei 2,5 13,3 52,4 135,5 229,3 254,4 184,9 88,0 27,4 5,6
Tabela 5: Podaci o dužinama telefonskih razgovora pripremljeni za testiranje.

Dobijena empirijska vrijednost 2 statistike je 9.63. Kako ima 10 mjernih intervala i

procjenjuju se dva parametra (sredina i standardna devijacija), to je broj stepeni slobode

2 raspodjele = 10 − 1 − 2 = 7, a teorijska vrijednost 72 za kritičnu vrijednost je jednaka

14.07. Pošto je empirijska vrijednost manja od teorijske, to se postavljena hipoteza može
prihvatiti, pa slijedi da su izmjereni podaci u skladu sa pretpostavljenom normalnom
raspodjelom.

Primjenjena statistika:: Predavanja 6
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Datum: 30.4.2019.

Testiranje hipoteza 2 - Tabele kontigencije

Još jedna veoma česta primjena 2 testa je vezana za provjeru kompatibilnosti uočenih i

očekivanih vrijednosti u takozvanim tabelama kontigencije. U takvim tabelama su podaci
već sumirani, odnose se na dva različita obilježja koja su podijeljena po kategorijama, a
koriste se za istraživanje relacija između dvije klasifikacijske promjenjive.

Testiranje nezavisnosti

Kod tabela kontigencije se 2 testom se može testirati hipoteza da ne postoji zavisnost

između dvije promjenjive po kategorijama.

Primjer 1.

Neka su u Tabeli 1 prikazani podaci za tri različita ponuđača iste vrste usluga (1, 2 i 3) i
zadovoljstvo korisnika tim uslugama (usluge ocijenjene kao: loše, osrednje, dobre i
izvrsne). U ovom konkretnom primjeru se testira hipoteza da ne postoji zavisnost između
proizvođača i zadovoljstva korisnika (u slučaju potvrde, svi ponuđači nude usluge kojima
su korisnici jednako zadovoljni). Hipoteza o nezavisnosti dvije promjenjive se zapisuje na
sljedeći način1:

0 = = . ∙ . { = 1, … ,
= 1, … ,

Loša Osrednja Dobra Izvrsna Svega
232
1 18 29 70 115 116
2 52
3 17 28 30 41 400
Svega
11 10 11 20

46 67 111 176

Tabela 1: Primjer tabele kontigencije

Kod tabela kontigencije broj stepeni slobode se računa preko broja kolona ( ) i broja

redova ( ) i važi da je = (r − 1) ∙ (k − 1). Dalje, pokazuje se da se ocjena maksimalne

vjerodostojnosti očekivane vrijednosti za svako polje u tabeli dobije kada se pomnože

total kolone sa totalom reda i podijeli sa ukupnim brojem elemenata u tabeli (na primjer,

za prvog ponuđača i kolonu Izvrsna, očekivana vrijednost je 232∙176 = 102,08, nakon čega
400

se zaokruže na najbliži cio broj). Postupak je prikazan u .xls dokumentu.

Kako je za = (3 − 1) ∙ (4 − 1) = 6 i kritičnu vrijednost = 0,05 dobijena empirijska

vrijednost 2 statistike (19.9) veća od teorijske (12.6), to se hipoteza može odbaciti. U

ovom slučaju to znači da korisnici usluga tri proizvođača nisu jednako zadovoljni

uslugom.

1 . označava sumu vjerovatnoća u redu za sve kolone 1

Statistika i vjerovatnoća:: Predavanja
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Test homogenosti

Testiranje homogenosti je veoma slično testiranju nezavisnosti u tabeli kontigencije.
Primjenjuje se kada se isti eksperiment ponavlja više puta i želi se ispitati da li su
različite realizacije eksperimenta međusobno nezavisne. Na primjer, u proizvodnji nekog
elementa se svakodnevno uzimaju uzorci i utvrđuje se broj defektnih elemenata. Treba
se utvrditi da li se broj defektnih elemenata poklapa sa očekivanim (dozvoljenim) brojem
iz dana u dan.

Uspjeh x1 x2 ... xk

Neuspjeh n-x1 n-x2 ... n-xk

Tabela 2: Tabeliranje broja uspješnih/neuspješnih pokušaja u uzastopnom ponavljanju
eksperimenta

Takvi se podaci mogu tabelirati u tabeli sa brojem uspješnih i neuspješnih pokušaja

(Tabela 2), a hipoteza se zapisuje kao 0 = 1 = 2 = ⋯ = , gdje označava

vjerovatnoću uspješnog pokušaja u svakom od ponavljanja eksperimenta.

Primjer 2.

Neka je u 12 nasada od po 90 sadnica broj zaraženih sadnica dat u Tabeli 3 (zaražena
sadnica je upisana kao uspjeh). Treba se utvrditi da li je broj zaraženih sadnica isti u svih

12 nasada. U tom slučaju se hipoteza postavlja kao 0 = 1 = 2 = ⋯ = , gdje je
vjerovatnoća da je slučajno odabrana sadnica iz -tog nasada zaražena.

1 2 3 4 5 6 7 8 9 10 11 12 Svega
Uspjeh 19 6 9 18 15 13 14 15 16 20 22 14 181
Neuspjeh 71 84 81 72 75 77 76 75 74 70 68 76 899
Svega 90 90 90 90 90 90 90 90 90 90 90 90 1080

Tabela 3: Broj zaraženih (Uspjeh) i nezaraženih (Neuspjeh) sadnica u 12 nasada sa po 90 sadnica.

Po istom postupku kao i za prethodnu tabelu kontigencije se izračuna vrijednost

2 statistike (17.75). Kako je za = (2 − 1) ∙ (12 − 1) = 11 i kritičnu vrijednost = 0,05
dobijena teorijska vrijednost 2 statistike (19.7) veća od empirijske, to se hipoteza

prihvata. U ovom slučaju to znači da su podaci u svih 12 nasada homogeni, odnosno da
je u svim nasadima jednako vjerovatno pojavljivanje zaražene sadnice.

Statistika i vjerovatnoća:: Predavanja 2
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Datum: 7.5.2019.

Testiranje fipoteza 3 – F test i t test

Bitna primjena 2 raspodjele se odnosi na jednu izvedenu raspodjelu pomoću koje se mogu

testirati hipoteze o jednakosti varijansi u dvije populacije.

F raspodjela i F test

F raspodjela se definiše kao količnik dvije nezavisne 2 promjenjive podjeljene

pripadajućim brojem stepeni slobode. Formula je sljedeća:

1 ∙ 12 ⁄ 1
12
=
2 ∙ 22
22 ⁄ 2

Ovakvom definicijom raspodjela čuva neke od osobina 2 promjenjivih, kao što su

nenegativnost, asimetričnost raspodjele, srednju vrijednost približno jednaku 1. Kako se

radi o količniku dvije promjenjive sa 2 raspodjelom, F raspodjela se definiše pomoću dva

stepena slobode.

F test je osmišljen da testira hipotezu da su varijanse u dvije populacije jednake. Kako se
radi o količniku, jednakost se iskazuje vrijednosću 1.

Prilikom korištenja F testa, treba se voditi računa o sljedećem:

- Veća varijansa bi trebala biti u nazivniku.
- Testna statistika je količnik uzoračkih varijansi.
- Ako se koristi „dvorepa“ raspodjela, vjerovatnoća se treba podijeliti sa 2 i onda se

gleda kritična vrijednost za desni „rep“.
- Ako su poznate standardne devijacije, one se moraju kvadrirati.
- Populacija iz koje se biraju uzorci mora imati normalnu raspodjelu.
- Uzorrci moraju biti nezavisni.

t raspodjela i t test

Studentova t raspodjela, ili samo t raspodjela se bazira na standardizovanoj normalnoj
raspodjeli (z raspodjeli):

= ̅ − a = ̅ −
⁄√ , ⁄√ .

Razlika je u tome što se u z raspodjeli koristi varijansa populacije, a u t raspodjeli varijansa
uzorka. Slijedi da su za uzorke obima većeg od 30 ove dvije raspodjele ekvivalentne. Iz
ovakve definicije se nameće da je posebno značajna primjena t raspodjele za male uzorke.

Kao i z raspodjela i t raspodjela se može koristiti za donošenje zaključaka o matematičkom

očekivanju, odnosno o srednjoj vrijednosti uzorka (ili populacije). Koristi se kada nije
poznata varijansa populacije ( 2) ali jeste poznata uzoračka varijansa ( 2).

t test se za potrebe ovog kursa koristi u tri varijante:

Statistika i vjerovatnoća:: Predavanja 1
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

1. „upareni“ t test kojim se testira jednakost sredina jednog uzorka u dva vremenska
perioda (na promjer, mjere se težine ispitanika prije i poslije ciklusa vježbi i poredi
se da li ima razlike).

2. t test za testiranje jednakosti sredina u dva uzorka sa jednakom varijansom.
3. t test za testiranje jednakosti sredina u dva uzorka sa različitim varijansama.

U svakom slučaju, osnovni preduslov je da su uzorci iz populacije sa normalnom
raspodjelom.

F test i t test se koriste i u procjeni pouzdanosti regresije i njenih parametara, što je
objašnjeno u vježbama.

Statistika i vjerovatnoća:: Predavanja 2
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Datum: 14.5.2019.

Linearna regresija

Linearna regresija se koristi za modeliranje međusobne funkcionalne zavisnosti (ne
statističke zavisnosti) između dvije promjenjive (varijable) na način da se linearna

jednačina prilagodi podacima. Pri tome se jedna promjenjiva smatra zavisnom
promjenjivom, a druga eksploratornom (nezavisnom, deskriptivnom)1. Na primjer, neka se

želi istražiti kako prinos jedne poljoprivredne kulture zavisi od količine navodnjavanja
(podaci su prikazani u Tabeli 1).

Voda (x) 12 18 24 30 36 42 48

Prinos (y) 5.27 5.68 6.25 7.21 8.02 8.71 8.42

Tabela 1: Zavisnost prinosa (u tonama po hektaru) od količine navodnjavanja (u inčima).

Prije nego što se podaci aproksimiraju linearnom funkcijom, modelar bi trebao istražiti
postoji li neka vrsta povezanosti između promjenjivih od interesa. Postojanje povezanosti
ne implicira nužno da je jedna promjenjiva uzrok promjene druge, već samo da postoji
neka vrsta značajne povezanosti među njima. Jedan od korisnih instrumenata za
istraživanje povezanosti je tzv. scatterplot (prikaz parova vrijednosti u dvodimenzionom
koordinatnom sistemu). Ukoliko se na grafikonu ne vidi nikakva značajna povezanost
(ukoliko su tačke nepravilno razasute po koordinatnom sistemu), linearna aproksimacija
ne mora imati smisla. Podaci iz Tabele 1 su prikazani na Slici 1.

Prinos (tona po hektaru) 10 20 40 60
8 Voda (u inčima)
6
4
2
0
0

Slika 1: Scatterplot povezanosti prinosa i navodnjavanja (podaci iz Tabele 1)

Kako se sa Slike 1 vidi da su podaci grupisani linearno, u ovom slučaju ima smisla istražiti
oblik linearne zavisnosti.

U opštem slučaju podaci ne moraju pokazivati linearnu zavisnost; jedan takav primjer je
prikazan na Slici 2.

Numerički pokazatelj povezanosti podataka koji se veoma često koristi u praksi je
koeficijent korelacije. Njime se može ustanoviti ne samo postojanje, nego i jačina
povezanosti. U ovom slučaju je vrijednost koeficijenta korelacije = 0.9724, što implicira
da među podacima postoji značajna pozitivna povezanost.

1 U ovoj situaciji se pojmovi zavisne i nezavisne promjenjive odnose na funkcionalnu, matematičku zavisnost, a 1
ne na statističku zavisnost.

Statistika i vjerovatnoća:: Predavanja
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

10

8

6

4

2

0
0 5 10 15 20

Slika 2: Primjer podataka koji ne pokazuju linearnu zavisnost.

Prava linearne regresije ima jednačinu opšteg oblika = + , gdje je zavisna
promjenjiva, eksploratorna (nezavisna) promjenjiva, presjek sa −osom, a nagib

prave. Koeficijent se još tumači kao početna vrijednost regresije (u ovom slučaju koliki
bi bio prinos bez navodnjavanja) i u modeliranju se može zahtjevati da se on postavi na
nulu, ukoliko to ima više smisla. Sa druge strane, uobičajeno tumačenje nagiba je da on
predstavlja povećanje zavisno promjenjive ukoliko se nezavisno promjenjiva poveća za
jednu jedinicu (u ovom slučaju povećanje količine navodnjavanja za jedan inč).

Metoda najmanjih kvadrata u regresiji

Kada su podaci za i poznati, onda se mogu aproksimirati i vrijednosti za koeficijente
i . Jedna od najčešće korištenih metoda je metoda najmanjih kvadrata u kojoj se
minimizira greška regresije. Greška se posmatra kao rastojanje pojedinačnih tačaka od
prave regresije (ukoliko tačka leži na pravoj njeno odstupanje jednako je nuli). Kako se
odstupanja od prave kvadriraju, to se pozitivne i negativne vrijednosti ne mogu anulirati.

Za realizaciju ove metode, potrebno je jednačinu regresije zapisati u obliku = + +
, gdje su malim slovima označene realizacije slučajnih promjenjivih, a sa je označena

greška regresije. Dalje se greška izrazi eksplicitno, kvadrira, a zatim se dobijene jednakosti
parcijalno deriviraju po promjenjivim. Ovaj postupak je detaljno opisan i u obaveznoj
literaturi za predmet, a i u drugim izvorima, te se ovdje neće dalje pominjati.

Primjer proste linearne regresije

Ukoliko se istražuje povezanost samo dvije promjenjive, za regresiju se kaže da je prosta;

prosta linearna regresija znači da se ispituje linearna zavisnost između dvije promjenjive.
Regresija može biti i nelinearna, ali i višestruka (ukoliko se ispituje zavisnost neke
promjenjive od dvije ili više deskriptivnih promjenjivih).

Koeficijenti regresije, kao i druge bitne statistike se mogu dobiti primjenom naredbe
LINEST u MSExcel-u, što je detaljno opisano u materijalima za vježbe. Sintaksu naredbe
studenti trebaju pogledati u Help-u.

Dodatna statistika na koju se treba obratiti pažnja je koeficijent determinacije, 2. Računa

se kao kvadrat koeficijenta korelacije, a njime se procjenjuje procenat (udio) varijacije
jedne promjenjive koji se može objasniti drugom.

Za primjer sa podacima iz Tabele 1 dobija se jednačina proste linearne regresije kao na
Slici 3.

Statistika i vjerovatnoća:: Predavanja 2
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

10 3

8

6

4 y = 0.1029x + 3.9943
2 R² = 0.9456

0
0 20 40 60

Slika 3: Prava i jednačina linearne regresije za podatke iz Tabele 1.

Autlejeri i uticajne opservacije

Autlejer2 je podatak koji odstupa u velikoj mjeri od ostalih podataka u uzorku. U statistici
se ovakvi podaci posebno provjeravaju, jer se može desiti da predstavljaju grešku prilikom
unosa. U regresionoj analizi se autlejerom naziva tačka (par podataka) koja je udaljena od

regresione prave i koji zbog toga ima veliku rezidualnu vrijednost. (Rezidualna vrijednost

je drugi naziv za odstupanje pojedine vrijednosti zavisno promjenjive od regresione prave;
računanje rezidualnih vrijednosti je prikazano u Tabeli 3.) Autlejer može označavati
pogrešnu vrijednost ili lošu aproksimaciju prave linearne regresije. Sa druge strane,

ukoliko je neki podatak udaljen horizontalno od ostalih podataka, on se naziva uticajna
vrijednost (engl. influential observation). U Tabeli 2 je prikazan primjer podataka (malo

izmijenjeni podaci za navodnjavanje iz Tabele 1) kod kojih postoje i autlejeri i jedna
uticajna vrijednost.

Voda (x) 33 5 9 13 17 21 25

Prinos (y) 5,27 5,68 6,25 7,21 8,02 8,71 8,42

Tabela 2: Izmijenjeni podaci za prinos i navodnjavanje

Ilustracija regresione zavisnosti ovih podataka je prikazana na Slici 4.

10

8

6

4 y = 0.0201x + 6.7271
2 R² = 0.0199

0
0 10 20 30 40

Slika 4: Scatterplot za podatke iz Tabele 2; 21 je autlejer, a 33 uticajna vrijednost

Sa Slike 4 je vidljivo da je ova procjena podataka linearnom regresijom veoma loša,
posebno zato što je vrijednost koeficijenta determinacije veoma bliska nuli (što govori o

2 Engl. Outlayer, riječ preuzeta iz strane literature kojom se u statistici naziva podatak koji
odstupa od ostalih

Statistika i vjerovatnoća:: Predavanja
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

tome da među ovim podacima nema skoro nikakve povezanosti). Da bi se poboljšala
aproksimacija, uobičajeno je da se uticajna vrijednost isključi iz razmatranja, ukoliko to
ima smisla u stvarnosti. U ovom slučaju, ukoliko se iz Tabele 2 ukloni prva kolona, dobija
se sasvim pristojna regresiona linija, kao na Slici 5 – lijevo. Sa druge strane, u ovom
primjeru je logično da ako se navodnjavanje povećava prinos mora početi opadati (jer će
usjevi nakon izvjesne količine navodnjavanja početi da trule), tako da bi realno bilo da se
provjeri mogu li se podaci aproksimirati recimo kvadratnom funkcijom (Slika 5 – desno).

10
10

88

66

4 4 y = -0.0151x2 + 0.59x + 2.5893
y = 0.1564x + 5.0363
R² = 0.8855
2 R² = 0.9181 2

00

0 10 20 30 0 10 20 30 40

Slika 5: Regresija za podatke iz Tabele 2 nakon što je uklonjena uticajna vrijednost (lijevo) i
aproksimacija kvadratnom regresijom sa uticajnom vrijednošću (desno).

Reziduali

U Tabeli 3 je prikazan način računanja reziduala za podatke iz Tabele 2.

Prinos (y) Voda (x) y' y-y' (y-y')^2

5,27 33 7,3898 -2,1198 4,4937

5,68 5 6,8275 -1,1475 1,3169

6,25 9 6,9079 -0,6579 0,4328

7,21 13 6,9882 0,2218 0,0492

8,02 17 7,0685 0,9515 0,9053

8,71 21 7,1489 1,5611 2,4372

8,42 25 7,2292 1,1908 1,4181

 0,0000 11,0531

Tabela 3: Primjer računanja reziduala na podacima iz Tabele 2. Sa y' je označena procijenjena
vrijednost zavisno promjenjive izračunata za konkretno x smjenom u jednačinu y=0.0201x+0.7271.
Rezidual je razlika između stvarnog podatka, y i procijenjene vrijednosti, y'.

Grafički prikaz reziduala (također scatterplot sa x i y-y') je prikazan na Slici 6.

1.0000 10 20 30 40
0.0000
-1.0000 0
-2.0000
-3.0000
-4.0000
-5.0000
-6.0000

Slika 6: Scatterplot reziduala za vrijednosti nezavisno promjenjive.

Statistika i vjerovatnoća:: Predavanja 4
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Ekstrapolacija

Kada se napravi regresioni model za grupu podataka, raspon tih podataka se mora pažljivo
proučiti. Tako se u praksi ispostavlja da je često neadekvatno primjenjivati jednačinu
regresije izvan zadatog raspona, jer rezultati mogu biti potpuno nevjerovatni. Očigledan
primjer bi bila jednačina regresije koja opisuje dobitak na težini veoma male djece;
primjena takve jednačine na stariju populaciju bi bila potpuno neumjesna.

Statistika i vjerovatnoća:: Predavanja 5
https://www.fit.ba/fit

Fakultet informacijskih tehnologija

ProgramiranjeI_sylabus.doc [email protected]

Datum: 21.05.2019.

Regresija

Prosta nelinearna regresija

U praksi se dešava da linearna funkcija nije najbolja aproksimacija podataka. Tako, osim
proste linearne regresije, postoje i nelinearne regresije, u skladu sa oblikom funkcije koja
opisuje zavisnost između dvije promjenjive. Tako se može govoriti o polinomnoj regresiji
(zavisnost se opisuje polinomnom funkcijom 2., 3. ili višeg stepena), logaritamskoj (koja
je najčešća alternativa linearnoj zbog monotonosti i sporog rasta), eksponencijalnoj (koja
se jako rijetko upotrebljava, jer eksponencijalna funkcija veoma brzo raste), stepenoj...

Na ispitu se od studenata može tražiti da procijene koji oblik proste regresije najbolje
aproksimira date podatke, pri čemu se kao kriterijum uzima najveća vrijednost koeficijenta
determinacije. Za ovo je dovoljno iskoristiti opcije koje su ugrađene u scatter plot, a
postupak je objašnjen na vježbama.

Višestruka linearna regresija

Model višestruke regresije se sastoji od jedne zavisne, dvije ili više nezavisnih promjenjivih
i slučajne promjenjive kojom se opisuje greška. Opšti oblik modela višestruke regresije je:

y = f (x1, x2, . . . , xk ) + e

U navedenom modelu y je zavisna promjenjiva, a njome se opisuje pojava čije se varijacije
izražavaju pomoću nezavisnih promjenjivih x1, x2, . . . , xk. Promjenjiva e odzražava nepoznata
odstupanja od funkcionalne zavisnosti.

Kao i kod proste regresije, nepoznati parametri u funkcionalnoj zavisnosti se procjenjuju
na osnovu uzorka veličine za poznate vrijednosti zavisne i nezavisnih promjenjivih, pri
čemu se nastoji minimizirati greška, odnosno odstupanje od funkcionalne zavisnosti.

Pretpostavi li se da je veza između zavisne i nezavisnih promjenjivih linearna, radi se o
modelu višestruke linearne regresije, čija je jednačina:

y = 0 + 1x1 + 2 x2+ . . . + xk

U navedenoj jednačini y je zavisna promjenjiva, x1, x2, . . . , xk su nezavisne promjenjive, a
0, 1, 2 , . . . , su procijenjeni parametri.

Procjena pouzdanosti parametara i regresije

Nakon što se parametri regresije procjene, „tačnost“ regresije se, osim pomoću koeficijenta
determinacije, može ispitati i testiranjem dobijenih vrijednosti parametara i čitave
regresije. U MSExcel-u se ovaj postupak za linearnu regresiju provodi jednostavno,
korištenjem izlaza iz funkcije LINEST (što je objašnjeno u materijalima za vježbe).

Primijenjena statistika :: Predavanja 1
https://www.fit.ba/fit


Click to View FlipBook Version