The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

Balu, Mariana Elena - Bazele statisticii

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by Contepisto, 2022-07-14 03:19:26

Balu, Mariana Elena - Bazele statisticii

Balu, Mariana Elena - Bazele statisticii

– informaŃiile despre variabilitate oferite în urma determinării i
analizei rezultatelor sunt extrem de reduse i nu vizează omogenitatea
ansamblului de date înregistrate etc.

Amplitudinea împră tierii sau variaŃiei (A)

• Amplitudinea absolută se define te prin diferenŃa dintre cea mai

mare i cea mai mică valoare individuală înregistrată.

A= xmax – xmin (4.20)

Pentru seriile de distribuŃie de frecvenŃă, construite pe intervale de

grupare, amplitudinea variaŃiei se calculează ca diferenŃă între limita supe-

rioară a ultimului interval (xL) i limita inferioară a primului interval (xl).

Astfel:

A = xL- xl (4.21)

OBSERVAłIE! Amplitudinea absolută se exprimă în unităŃile de

măsură ale variabilei respective, prin urmare nu poate fi folosită la

compararea a două variabile exprimate în unităŃi de măsură diferite.

• Amplitudinea relativă a variaŃiei (A%) se exprimă, de regulă, în

procente i se calculează ca raport între amplitudinea absolută i nivelul

mediu al caracteristicii:

A% = A ∗100 (4.22)
X

OBSERVAłII!
– Se folose te la controlul calităŃii produselor, caz în care se
interpretează în raport cu limitele de toleranŃă admise.
– Este utilizat la dirijarea statistică a procesului de fabricaŃie.
– Din punct de vedere metodologic este folosit la stabilirea
numărului de grupe (r) i a mărimii intervalului de grupare (h).

Abaterile individuale, ca măsuri ale împră tierii într-o serie
statistică, arată cu câte unităŃi de măsură, sau de câte ori (sau cât la sută)
valoarea caracteristicii urmărite, la fiecare unitate a caracteristicii, se abate
de la mărimea calculată a unui indicator al tendinŃei centrale.

Abaterile individuale se exprimă în cifre absolute sau relative.
• Abaterile individuale absolute (di) se calculează ca diferenŃă între
fiecare variantă înregistrată i nivelul mediu al acestora (de obicei, media
aritmetică):

99

di = xi - X i=1,2,...,n (4.23)

• Abaterile individuale relative (di%) se calculează raportând
abaterile absolute la nivelul mediu al caracteristicii:

di% = di ∗100 = xi − X ∗100 i=1,2,...,n (4.24)
X X

• Abaterile maxime pozitive (dmax+) i negative (dmax-) se urmăresc, în

mod deosebit, în analizele statistice i se pot calcula în cifre absolute i relative:

dmax+ = xmax - X sau dmax +% = d max + ∗100
X

dmax- = xmin - X sau d max−% = d max − ∗100 (4.25)
X

OBSERVAłIE! În cazul unei distribuŃii simetrice d max + = d max − , iar

în interiorul seriei, la abateri egale (dar de semne contrare) corespund
frecvenŃe egale de apariŃie. Aceasta conduce la compensarea pe total (la
nivelul întregului ansamblu) a abaterilor individuale.

4.2.2. Indicatorii sintetici ai variaŃiei

Indicatorii sintetici ai variaŃiei, spre deosebire de indicatorii
simpli, sintetizează într-o singură expresie numerică variaŃia valorilor
individuale faŃă de tendinŃa centrală a caracteristicii urmărite într-o
populaŃie statistică.

Principalii indicatori statistici cu care se caracterizează variaŃia sunt:

abaterea medie absolută ( d ), dispersia (σ 2 ), abaterea medie pătratică
(σ ), coeficientul de variaŃie (v).

Abaterea medie absolută

Abaterea medie absolută reprezintă media aritmetică simplă sau
ponderată a abaterilor „absolute” ale termenilor seriei, de la tendinŃa lor
centrală, caracterizată cu ajutorul mediei sau medianei.

100

Se determină astfel:

∑ xi − x

• pentru seria simplă: d = i (4.26)
n

∑ xi − x *ni
∑• pentru seria de distribuŃie de frecvenŃe: d = i
(4.27)

ni

i

∑ xi − x * n∗i%

• pentru seria de frecvenŃe relative: d = i (4.28)
100

unde: i = 1,k.

OBSERVAłII!
• Abaterea medie absolută arată, în medie, cu cât se abat termenii
seriei de la media lor.
• Ea se exprimă în unitatea de măsură a caracteristicii urmărite.
• În cazul seriilor de distribuŃie pe intervale de grupare, pentru
calculul ei se iau în considerare centrele acestora.
• Este concludentă numai dacă seria prezintă un grad mare de
omogenitate.
• Prezintă dezavantajul că nu Ńine seama de semnul algebric i acordă
aceea i importanŃă atât abaterilor mici, cât i celor mari, de i cele din urmă
influenŃează în mai mare măsură gradul de variaŃie al caracteristicii. Din
punct de vedere algebric nu este indicat să se renunŃe în mod arbitrar la
semnul valorilor din care se calculează o valoare medie. Din aceste consi-
derente, se folose te ca principal indicator sintetic al variaŃiei abaterea medie
pătratică.

Dispersia (σ 2 )

Dispersia, ca măsură sintetică a variaŃiei, reprezintă media

aritmetică (simplă sau ponderată) a pătratelor abaterilor individuale de la

tendinŃa lor centrală.

Formulele de calcul sunt: (4.29)

( )∑k 2 101
xi − x
• pentru seria simplă: σ2 = i=1

n

( )∑kxi− x 2

ni

• pentru seria de distribuŃie de frecvenŃe: σ 2 = i=1 k (4.30)

∑ ni

i =1

∑ ( )xi − x 2 * n∗i%
• pentru seria de frecvenŃe relative: σ 2 = i (4.31)

100

Dispersia se mai poate determina cu ajutorul formulei de calcul

simplificat. Aceasta se bazează pe combinarea a două proprietăŃi ale

dispersiei, care precizează că:

a.Dispersia calculată din abaterile valorilor caracteristicii faŃă de o

constantă a este mai mare decât dispersia acelora i valori faŃă de media lor

cu pătratul diferenŃei dintre medie i constanta a.

Deoarece: xi − a = xi − a , atunci avem:

[ ]( ) ( )∑ (xi − a)− xi − a 2 ∑ xi − a − x + xi

σ 2 = i =i =σ 2x
xi − a n
n

σ 2 =σ 2 + (x − a)2
xi −a x

[ ]∑ (xi − a)2 ∑ (xi − x) + (x − a) 2

Astfel : σ2 xi −a = i n = n =

= ∑ (x i − x)2 + 2(x − a) ∑ (x i − x) + n(x − a)2
2 nn

∑Deoarece (xi − x) = 0 (vezi proprietăŃile mediei aritmetice),

relaŃia de mai sus devine: σ2 =σ 2x + (x − a)2 .
xi −a

b. Într-o serie de variaŃie, dacă se împart sau se înmulŃesc toŃi termenii

cu un coeficient (h>1), dispersia noii serii (σ ′2 ) este de h2 ori mai mică,

respectiv de h2 ori mai mare decât dispersia seriei iniŃiale (σ 2 ):

∑ ∑( xi − x )2 = 1 (xi − x)2 = σ2 = σ′2; σ2 = σ′2 ∗ h2
h h2 n h2
n

102

De regulă, cele două proprietăŃi se combină i rezultă formula de

calcul simplificat a dispersiei pentru o serie de distribuŃie de frecvenŃe

∑cu intervale egale: σ2 =  xi − a 2 ni
 h 
i ∑ni ∗h2 − (x − a)2 (4.32)

i

unde: h = mărimea intervalului;

a = valoarea caracteristicii cu frecvenŃă maximă.

OBSERVAłII! Dispersia, ca i media calculată pe baza seriilor de

repartiŃie cu interval, este mai puŃin exactă decât dacă s-ar folosi date

individuale, negrupate. Cu cât intervalele de grupare sunt mai mari, cu atât

media i dispersia sunt mai puŃin semnificative.

Dacă avem dubii asupra veridicităŃii dispersiei calculate putem proceda

la corectarea acesteia, Ńinând seama de recomandarea făcută de statisticianul

W.F. Sheppard. Sheppard consideră că, în anumite condiŃii, dispersia se poate

corecta scăzând 1/12 din pătratul intervalului de grupare. Dispersia corectată

va fi:

(σ 2 )′ = σ 2 x − h2 , h fiind mărimea intervalului de grupare (4.33)
12

El consideră posibilă aplicarea acestei corecŃii numai pentru seriile

care prezintă următoarele proprietăŃi:

– repartiŃia de frecvenŃă este continuă, unimodală, relativ simetrică;

– frecvenŃele tind către zero în ambele extremităŃi ale intervalului de

variaŃie.

Aceste condiŃii presupun o repartiŃie normală sau u or asimetrică a

frecvenŃelor, în care se asigură o compensare a abaterilor i în interior, nu

numai pe total. Rezultă că aplicarea corecŃiei lui Sheppard trebuie să se facă

cu prudenŃă, verificând în prealabil dacă sunt îndeplinite condiŃiile de

normalitate i volum.

• Dispersia este un indicator abstract, nu are formă concretă de expri-

mare i arată modul în care valorile caracteristicii gravitează în jurul mediei.

• Dispersia măsoară variaŃia totală a caracteristicii studiate, datorată

cauzelor esenŃiale i întâmplătoare.

• Dispersia este utilă în verificări de ipoteze statistice, în calculul

altor indicatori statistici etc.

103

Abaterea medie pătratică (sau abaterea standard sau abaterea

tip) (σ )

Abaterea standard se define te ca medie pătratică simplă sau
ponderată a abaterilor valorilor individuale de la tendinŃa centrală sau ca
rădăcină pătrată a dispersiei.

RelaŃia de calcul este următoarea: σ = σ 2 (4.34)

unde σ 2 = dispersia, calculată prin orice metodă.

OBSERVAłII!

• σ se folose te în studiile de marketing, în studiul calităŃii

produselor, pentru elaborarea variantelor de prognoză.

• Abaterea standard, fiind calculată din pătratul abaterilor, este mai
concludentă decât abaterea medie liniară. Prin ridicarea la pătrat se dă o mai

mare importanŃă abaterilor mai mari în valoare absolută, acestea
influenŃând într-o mai mare măsură gradul de variaŃie al variabilei analizate.

Calculând pentru aceea i serie σ i d , ele vor fi întotdeauna în

această relaŃie: σ > d .

În literatura de specialitate se apreciază că pentru o serie de distribuŃie

cu tendinŃă clară de normalitate, abaterea medie liniară este egală cu 4/5 din

valoarea abaterii medii pătratice: dx ≅ 4σ .

5x

• Abaterea standard este un indicator de bază, care se folose te în

analiza variaŃiei la estimarea erorilor de selecŃie, în calculele de corelaŃie.

• Dezavantajele abaterii standard se referă la faptul că se exprimă în

acelea i unităŃi de măsură ca i variantele caracteristicii. Astfel, ea nu se

poate folosi pentru compararea gradului de variaŃie a două sau mai multe

variabile diferite i în această situaŃie se recurge la alt indicator de variaŃie –

coeficientul de variaŃie.

Coeficientul de variaŃie (v) sau coeficientul de omogenitate

Coeficientul de variaŃie este o măsură a dispersiei relative care
descrie abaterea medie pătratică ca procent din media aritmetică.

104

Acest coeficient permite compararea împră tierii valorilor care nu sunt

exprimate în aceea i unitate de măsură (de exemplu, compararea variabilităŃii

salariilor din două Ńări i în două monede diferite). Coeficientul de variaŃie se

define te ca raport între abaterea medie pătratică (σ ) i media aritmetică

( x ) a ansamblului de observaŃii: (4.35)
V = σ *100

x

OBSERVAłII!
• Coeficientul de variaŃie este cel mai sintetic indicator al
împră tierii, nu numai pentru că permite comparaŃia variabilităŃii, dar i prin
faptul că valorile sale sunt localizate în intervalul {0,100}:
– dacă v = 0 înseamnă lipsă de variaŃie, valorile sunt egale între ele i
egale cu media lor;
– dacă v → 0, variaŃia caracteristicii este mică;
– dacă v →100, variaŃia caracteristicii este mare.
Practica utilizării coeficientului de variaŃie a stabilit pragul de trecere
de la starea de omogenitate la cea de eterogenitate:

v 30-35%, variaŃia este mică i se concretizează în:

– media, ca indicator al tendinŃei centrale este semnificativă;
– colectivitatea este omogenă, respectiv este formată din unităŃi ce
aparŃin aceluia i tip calitativ;
– gruparea, ca metodă de sistematizare primară, este bine făcută.

v > 35%, colectivitatea este eterogenă, gruparea trebuie refăcută.
• Coeficientul de variaŃie, în analizele financiar-bursiere, este o măsură
a riscului relativ i permite o interpretare mai nuanŃată a dispersiei.
• Pentru profunzimea analizei întreprinse, aceste informaŃii trebuie
completate cu cele referitoare la concentrarea valorilor individuale, la
deplasarea acestora faŃă de anumite valori tipice. Astfel, analiza variaŃiei
trebuie urmată de analiza formelor în care se distribuie acestea.

4.2.3. Regula adunării dispersiilor

ColectivităŃile cu care se operează în statistica social-economică, de i au
un caracter finit, sunt formate de cele mai multe ori dintr-un număr foarte mare
de unităŃi purtătoare a unor variabile cu un grad mare de variaŃie.

105

Astfel, unităŃile la care s-a făcut observarea trebuie împărŃite în grupe,
în funcŃie de variaŃia factorilor determinanŃi. Dacă s-a folosit metoda
grupării se pot calcula medii i dispersii pe grupe i pe total colectivitate.

Între indicatorii de variaŃie, calculaŃi la nivelul fiecărei grupe, i cei
pe întreaga colectivitate există anumite relaŃii bazate pe regula adunării
dispersiilor.

Considerăm o colectivitate C, în care s-au înregistrat cele două
variabile x i y. Cele n unităŃi ale colectivităŃii C s-au structurat în k grupe
după valorile caracteristicii x i în r grupe după valorile caracteristicii y
(vezi tabelul 4.6).

Tabelul 4.6. DistribuŃiile condiŃionate ale variabilei y în funcŃie de un factor de
grupare x

Valorile Valorile caracteristicii yj Volumul Media pe
grupelor grupe (medii
caracteristicii condiŃionate)

xi y1 y2 ... yj ... yr ni yi

x1 n11 n12 ... n1j ... n1r n1. y1

x2 n21 n22 ... n2j ... n2r n2. y2
...
... ... ... ... ... ... ... ...

xi ni1 ni2 ... nij ... nir ni. yi

... ... ... ... ... ... ... ... ...

xk nk1 nk2 ... nkj ... nkr nk. yk

Total n.1 n.2 ... n.j ... n.r ∑ ni= y

=∑ nj=∑ nij

Pe baza datelor prezentate în tabelul 4.6 se pot calcula următorii
indicatori statistici:

• medii (pe fiecare grupă i pe total);
• dispersii (pe fiecare grupă i pe total).

Mediile de grupă ( yi ). Se pot calcula k medii de grupă ale variabilei
y, câte una pentru fiecare grupă x:

106

∑r
y jnij

∑yi =j=1 (4.36)
r

n ij

j=1

Media generală. Va fi notată cu y0 , când datele provin dintr-o

observare totală, sau cu y , când datele provin dintr-o observare parŃială.

Media generală sintetizează atât variaŃia valorilor individuale ale
colectivităŃii totale, cât i valorile mediilor de grupă (mediile condiŃionate
de factorul de grupare). Astfel, se poate calcula în funcŃie de datele de care
dispunem, după una din relaŃiile:

∑r ∑k
yi ni
y jn j

∑y 0=j=1 ∑sauy=i =1 (4.37)
r k

nj ni

j=1 i =1

Împră tierea valorilor individuale ale unităŃilor colectivităŃii C faŃă de

valoarea medie generală ( y j − y0 ) se poate descompune:

y j − y0 = (y j − yi ) + (yi − y0 ) (4.38)

Abateri Abateri Abateri

totale întâmplătoare sistematice

Pentru caracteristica y, înregistrată în colectivitatea C, se identifică trei
feluri de variaŃii:

1) ( y j − yi ) pentru orice i = 1, k, j = 1, r reprezentând împră -

tierea valorilor individuale în jurul fiecărei medii de grupă, datorită acŃiunii
cauzelor întâmplătoare;

2) ( yi − y0 ) pentru orice i = 1, k reprezentând variaŃia valorilor
mediilor de grupă în jurul mediei colectivităŃii totale, datorate acŃiunii
cauzelor esenŃiale (factorul principal de grupare);

107

3) y j − y0 pentru orice j = 1, r reprezentând variaŃia valorilor yj în jurul

mediei colectivităŃii totale, datorate influenŃei cauzelor esenŃiale i

întâmplătoare.

Măsurarea acŃiunii separate i combinate a celor două categorii de

factori variabili presupune descompunerea adecvată a dispersiei colecti-

vităŃii totale C.

Pentru determinarea separată, atât la nivelul fiecărei grupe, cât i la

nivelul colectivităŃii generale, a intensităŃii cu care au influenŃat asupra

variabilităŃii caracteristicii dependente cele două grupe de factori

(întâmplători i esenŃiali), se folosesc următoarele tipuri de dispersii:

• dispersia de grupă (σ 2 );
i

• media dispersiilor de grupă (σ 2 );

• dispersia dintre grupe (δ 2 );

• dispersia totală (σ 2 ).
0

Dispersia de grupă (dispersie parŃială) se calculează ca o medie
aritmetică ponderată a pătratelor abaterilor variantelor caracteristicii, de la
media lor de grupă:

∑( )r 2
yj − yi
nij

σ 2 = j =1 (4.39)
i
∑r
nij

j =1

unde: y j = variantele caracteristicii dependente;

yi = media de grupă, calculată din aceste variante;
nij = frecvenŃele corespunzătoare fiecărui interval de valori din

cadrul grupei.

OBSERVAłII!
• Dispersia de grupă evidenŃiază variaŃia caracteristicii dependente
( y j ) determinată de acŃiunea factorilor întâmplători care acŃionează la

nivelul grupei respective.

108

• Numărul dispersiilor de grupă este egal cu numărul grupelor ce
formează colectivitatea supusă studiului;

• Comparând între ele dispersiile de grupă, putem preciza care grupă
este mai omogenă. Dispersia cu nivelul cel mai scăzut evidenŃiază gradul

înalt de omogenitate al grupei, acŃiunea redusă a factorilor întâmplători i
deci o variaŃie slabă. Dispersia cu nivelul cel mai mare reflectă o variaŃie

pronunŃată sub acŃiunea intensă a factorilor întâmplători.

• Pentru a sintetiza această variaŃie într-un singur indicator calculat
pe întreaga colectivitate, se calculează media dispersiilor de grupă.

Media dispersiilor de grupă (σ 2 ) se calculează ca o medie

aritmetică ponderată a dispersiilor parŃiale astfel:

• ca o medie aritmetică simplă pentru grupe cu un număr egal de

∑σ i 2

unităŃi: σ 2 = i
k

• pentru grupe cu un număr diferit de unităŃi: σ 2 = ∑σ i 2ni (4.40)

i

∑ ni

i

OBSERVAłIE! σ 2 sintetizează influenŃa factorilor întâmplători pe

întreaga colectivitate, astfel măsoară variaŃia reziduală sau întâmplătoare a

caracteristicii studiate.

Dispersia dintre grupe (δ 2 ) reflectă variaŃia caracteristicii

dependente, datorată acŃiunii cauzelor esenŃiale pe întreaga colectivitate,
deci influenŃa factorului de grupare asupra caracteristicii rezultative y. Se

calculează ca o medie aritmetică ponderată a pătratelor abaterilor mediilor

de grupă faŃă de media colectivităŃii generale:

( )∑ yi 2
− y0
ni

∑δ 2 = i ni (4.41)

i

Dispersia totală (σ 02 ). Măsoară întreaga împră tiere a valorilor

caracteristicii y, care este produsă atât de acŃiunea factorilor esenŃiali, cât i

a celor neesenŃiali, variabili de la o grupă la alta sau în cadrul aceleia i

grupe:

109

( )∑ y j − y0 2

nj

∑σ 02 = j nj (4.42)

j

Pornind de la conŃinutul dispersiilor prezentate, dispersia totală se

calculează cu relaŃia: σ 02 = σ 2 + δ 2 . (4.43)

Această relaŃie este cunoscută în literatura de specialitate sub

denumirea de regula adunării dispersiilor. Ea se utilizează pentru

verificarea exactităŃii calculelor i pentru cazul când nu se cunosc decât

două din cele trei dispersii.

Pe baza ei se pot calcula alŃi doi indicatori statistici cu caracter de

mărime relativă de structură:

Coeficientul de determinaŃie ( R2 ) arată care este ponderea

factorului principal de grupare în variaŃia totală a caracteristicii.

R2 = δ2 ⋅100 (4.44)
σ 20

Coeficientul de nedeterminaŃie ( K 2 ) arată care este ponderea

factorilor întâmplători în variaŃia totală a caracteristicii.

σ 2
σ 02
K2 = ⋅100 (4.45)

Între cei doi coeficienŃi există următoarea relaŃie: R 2 + K 2 = 1

Dacă:

– R 2 > K 2 , factorul de grupare acŃionează în mod hotărâtor asupra

variaŃiei caracteristicii rezultative yj;
– R 2 < K 2 variaŃia variabilei yj se datorează influenŃei exercitate de

alte cauze (factori neînregistraŃi), aceasta fiind independentă de variaŃia

caracteristicii xi.

OBSERVAłIE! Dispersiile calculate în regula de adunare a dispersiilor
se folosesc în sondaj pentru calculul erorii medii pe tipuri de sondaj.

Pentru prezentarea modului de calcul i a semnificaŃiei acestor
dispersii, vom considera distribuŃia unui e antion de studenŃi după sex i
vârstă (tabelul 4.7).

110

Tabelul 4.7

Grupe de studenŃi Subgrupe de studenŃi după vârstă (ani) Total
după sex (yj) 20
(xi) 10
Masculin 18-20 20-22 22-24 24-26 26-28 30
Feminin 2774 -
Total 11332
3 8 10 7 2

Tabelul 4.8. Grupa I Sex feminin

Grupe de Număr Centru de yj nij −( )y jyi 2
studenŃi studenŃi interval
după vârstă 38 nij
18-20 nij yj 147
20-22 2 19 161 21,78
22-24 7 21 100
24-26 7 23 446 11,83
Total 4 25 ∑ yj nij
20 3,43
∑ nij
29,16

66,2

∑( )y j 2 ∆2
− yi = y/z
n
ij

• Media grupei I: y1 = 446 = 22,3 ani.
20

• Dispersia grupei I: σ 2 = 66,2 = 3,31
1
20

Tabelul 4.9. Grupa II Sex masculin

Grupe de Număr Centru yj nij ( )y j2
studenŃi studenŃi de − yi
19 nij
după nij interval 21
vârstă yj 69 23,04
18-20 1 19 75
20-22 1 21 54 7,84
22-24 3 23 238
24-26 3 25 1,92
26-28 2 27 ∑ yj nij
Total 10 4,32
20,48
∑ nij
57,6

∑( )y j 2 = ∆2y / z
− yi
n
ij

111

• Media grupei II: y2 = 238 = 23,8 ani.
10

• Dispersia grupei II: σ 2 = 57,6 = 5,76
2
10

Tabelul 4.10. Total e antion

Grupe de Număr Centru de yj nj ( )y j 2
studenŃi studenŃi interval − y0
după vârstă 57 nj
18-20 nj yj 168
20-22 3 19 230 43,32
22-24 8 21 175
24-26 10 23 54 25,92
26-28 7 25 684
Total 2 27 ∑ yj nij 0,4
30
∑ nij 33,88

35,28

138,8

( )∑ y j− y0 2

n
j

• Media totală: y0 = 684 = 22,8 ani sau
30

y = ∑ yini = 684 = 22,8 ani.
∑ ni 30

∑( ∑ )• yj − y0 2 = 138,8

nj

Dispersia totală: σ 02 = j = 4,63

n j 30

j

Tabelul 4.11

Grupe de Numă yi yi ni σ 2 σ 2i ( )yi−y0 2
studenŃi rul i
după sex 22,3 ni ni
grupe- 23,8
Feminin lor (ni) 446 3,31 66,2 5
Masculin 238 5,76 57,6
20 684 123,8 10
Total
10 15

30

∑( )yi 2 = ∆2y / z
− y0
n
i

112

∑• Media dispersiilor de grupă: σ 2 = i σ i 2ni = 123,8 = 4,13
∑ ni 30

i

∑ ( )• Dispersia dintre grupe: δ 2 = yi − y0 2 = 15

ni

i ∑ ni 30 = 0,5

i

• Regula de adunare a dispersiilor:

σ 02 = σ 2 + δ 2 = 4,13 + 0,5 = 4,63

• Coeficientul de determinaŃie:

R2 = δ2 ⋅100 = 0,5 ⋅100 ≅ 11%
σ 20 4,63

• Coeficientul de nedeterminaŃie:

σ 2 4,13 ⋅100
σ 02 4,63
K2 = ⋅100 = = 89%

R 2 + K 2 = 1 (100%)
1 - R2 = K2 → K2 = 100 – 11% = 89%

11% + 89% = 100%

OBSERVAłIE! R 2 < K 2 , ceea ce înseamnă că sexul nu este un fac-

tor determinant pentru analiza vârstei, aceasta fiind influenŃată de alŃi

factori.

4.3. Verificarea semnificaŃiei factorului principal de grupare
prin metoda analizei dispersionale. Testul F

Analiza dispersională stă la baza caracterizării statistice a interdepen-
denŃelor din economie. Prin analiza dispersională se urmăre te:

• depistarea i ordonarea factorilor care influenŃează fenomenul
analizat;

• separarea influenŃei diferiŃilor factori, considerând câte un factor
sau mai mulŃi variabili, iar ceilalŃi cu acŃiune constantă.

113

Analiza dispersională se folose te în următoarele cazuri:

– la verificarea dependenŃei variaŃiei unei caracteristici statistice de

influenŃa factorilor determinanŃi;

– la verificarea stabilităŃii mediei i dispersiei pentru mai multe

e antioane succesive.

Cazul 1. Analiza dispersională este o metodă auxiliară a corelaŃiei i

regresiei statistice, aplicându-se înainte i după aplicarea acestora.

Înainte ne oferă posibilitatea să verificăm gradul de semnificaŃie al

factorului principal de grupare, confirmându-se sau infirmându-se existenŃa

sau inexistenŃa legăturii.

După aplicarea metodelor de corelaŃie, analiza dispersională serve te

la verificarea veridicităŃii funcŃiei de regresie i a indicatorilor de corelaŃie.

Cazul 2. Analiza dispersională se folose te când fenomenul cercetat

se grupează după criterii organizatorice (EXEMPLU: repartizarea angajaŃilor

pe echipe, a mărfurilor pe loturi etc).

Cazul 3. Se verifică gradul de reprezentativitate al e antionului; dacă

se îndepline te condiŃia reprezentativităŃii, media i dispersia nu diferă

semnificativ de la un e antion la altul, ace ti indicatori fiind estimaŃii ale

mediei i dispersiei colectivităŃii totale.

Analiza dispersională se bazează pe metoda grupării, prin care se

separă influenŃa factorilor esenŃiali (notaŃi cu x) de acŃiunea factorilor

întâmplători (notaŃi cu z), asupra unei variabile rezultative y.

Indicatorii folosiŃi frecvent în analiza dispersională sunt:

• devianŃele sau varianŃele ( 2);

• gradul de determinaŃie ( Rx2 ) i nedeterminaŃie ( K 2 );
z

• numărul gradelor de libertate (n);

• dispersiile corectate (S2);

• testul F, raportul dintre dispersiile corectate.

DevianŃele ( 2)
DevianŃa totală ( 2y) arată gradul de împră tiere a tuturor valorilor

caracteristicii yj, ca urmare a influenŃei tuturor factorilor (esenŃiali i

întâmplători):

∑( )∆2y =yj − y0 2 (4.46)

nj

114

DevianŃa sistematică ( ∆2y / x ), considerată devianŃă între grupe, arată

gradul de împră tiere al mediilor condiŃionate ( yi ) ale variabilei yj

faŃă de media totală:

∑ ( )∆ 2 = 2
y/x
yi − y0 nj (4.47)

DevianŃa reziduală ( ∆2y / z ) măsoară împră tierea valorilor variabilei

yj faŃă de media condiŃionată ( yi ) din fiecare grupă, datorată

cauzelor întâmplătoare. Se mai nume te devianŃa din interiorul

grupelor, numărul acestora fiind egal cu numărul grupelor:

∑ ∑( )∆2 k r 2
y/z 
= y j − yi nij  (4.48)
i=1 j=1 

Gradul de determinaŃie i nedeterminaŃie se bazează pe raportul dintre

fiecare deviantă i devianŃa totală, i arată ponderea influenŃei cauzelor sis-

tematice i, respectiv, a celor întâmplătoare, în variaŃia totală a variabilei yj.

Coeficientul de determinaŃie:

Rx2 = ∆2 (4.49)
y/x
∆2y

Coeficientul de nedeterminaŃie:

K 2 = ∆2 (4.50)
z y/z
∆2y

Rezultă că: Rx2 + K 2 =1.
z

OBSERVAłIE! Cu cât valoarea lui Rx2 este mai mare i se apropie de

1, cu atât factorul principal de grupare are acŃiune mai pronunŃată i

semnificativă asupra variabilei yj.

Dispersii corectate (S2)
În tabelul 4.12 se prezintă, pe etape, construcŃia acestor tipuri de

dispersii:

115

Tabelul 4.12

Felul Suma pătratelor Numărul Dispersii corectate
varia- abaterilor
Ńiei gradelor

Între de
grupe
libertate
În
interio- ∑( )yi 2 ∑( )r-1 2
− y0 = ∆2y / x S2 = ∆2 = yi − y0
rul ni y/x y/ x ni
grupe-
r −1 r −1
lor
Totală ∑ ∑( )k  r 2  ∆2y ∑ ∑( )n-r k r 2 
   
i=1 j=1  
y j − yi nij = / z i=1 j=1 y j − yi nij
n−r
S2 = ∆2 =
y/z y/z

n−r

∑( )y j 2 = ∆2y ∑( )n-1 2
− y0 S 2 = ∆2y = yj − y0
nj y n −1 nj

n −1

Numărul gradelor de libertate: r = numărul de grupe;
n = numărul de valori perechi.

Dispersia totală (S2) măsoară variaŃia totală a variabilei yj, datorată
tuturor categoriilor de cauze care o determină.

∑( )S2= ∆2y = yj − y0 2 (4.51)
y ny
nj

n −1

Dispersia sistematică ( S 2 x ) măsoară acea parte din variaŃia carac-
y/

teristicii yj, datorată factorului principal de grupare i se calculează
ca raport între devianŃa sistematică i numărul de grupe (r) formate

după caracteristica xi, mai puŃin o unitate:
∑( )S 2
y/x = ∆2 = yi − y0 2 (4.52)
y/x
nx ni

r −1

Dispersia reziduală ( S 2 z ) măsoară acea parte din variaŃia
y/

caracteristicii yj, datorată factorilor întâmplători i se calculează ca
raport între devianŃa reziduală i numărul de unităŃi din care se

compune colectivitatea (n), mai puŃin numărul de grupe (r):

116

k r 
 

i =1  j =1
∑ ∑( ) ∑∑S y j − yi 2 nij σ i2ni
n−r
2 / z = ∆2y / z = = i (4.53)
y n−r
ni

i

rezultă că S 2 # S 2 / x + S2y / z , dar relaŃia este valabilă pentru devianŃe:
y y

∆2y = ∆2 + ∆2y / z .
y/x

Testul F

Se aplică asupra dispersiilor corectate, fiind raportul dintre dispersia

sistematică i cea reziduală:

SSFcalculat = 2 (4.54)
y/x

2
y/z

Fcalculat > 1, dacă S2 > S2
y/x y/z

acest raport putând fi: Fcalculat < 1, dacă S2 < S2
y/x y/z

Fcalculat = 1, dacă S2 = S2
y/x y/z

Practic, acest Fcalculat se compară cu un Fteoretic, prezentat în tabele
speciale, depinzând de gradele de libertate respective nx i nz, luate în
consideraŃie la calculul dispersiilor i de probabilitatea cu care se
garantează apariŃia rezultatelor.

Fteoretic: f1(v1) / nx = r – 1
f2(v2) / nz = n - r

Valorile lui Fteoretic se vor lua din Anexa 3 pentru repartiŃia F
corespunzător unui nivel de semnificaŃie.

Dacă Fcalculat > Fteoretic , caracteristica xi constituie un factor determinant
pentru caracteristica yj, adică între cele două variabile există o legătură
statistică semnificativă ce poate fi cuantificată.

117

Dacă Fcalculat < Fteoretic, cele două variabile sunt necorelate sau
independente.

EXEMPLU: Folosim distribuŃia studenŃilor după sex i vârstă din

tabelul 4.7. De asemenea, mai folosim tabelele 4.8 i 4.9, unde devianŃele

reziduale vor fi: ∆2y / z = 66,2 i ∆2y / z = 57,6. Din tabelul 4.11 vom lua

devianŃa sistematică ∆2 = 15.
y/x

Fcalculat = S2 = ∆2 ÷ ∆2 =
y/x y/x y/z

S2 r −1 n − r
y/z

∑( ) ∑ ∑( )=  y j − yi 2
 nij 
yi − y0 2 i j  15 ÷ 66,2 + 57,6 = 3,39
÷ =
ni

r −1 n − r 2 −1 30 − 2

f1 = r – 1 = 1

Fteoretic: , pentru α = 0,05 rezultă Fteoretic = 4,2.

f2 = n – r = 28

Fcalculat < Fteoretic, 3,39 < 4,2 deci sexul nu influenŃează semnificativ
vârsta, acestea fiind independente din punct de vedere statistic.

4.4. Media i dispersia unei variabile alternative

În cercetarea statistică a fenomenelor social-economice se întâlnesc
caracteristici ale căror variante nu se exprimă numeric (cantitativ), ci prin
cuvinte (calitativ) i nu admit decât una dintre alternative. În cazul în care
caracteristica urmărită este alternativă, unităŃile colectivităŃii se împart în
două grupe:

– o grupă care cuprinde acele unităŃi la care se înregistrează forma
directă de manifestare a caracteristicii;

– o altă grupă la care se înregistrează opusul formei de manifestare a
caracteristicii.

EXEMPLU: Starea unei piese poate fi bună sau rebut; situaŃia unui
student după un examen poate fi promovat sau nepromovat. De menŃionat
că orice caracteristică numerică nealternativă se poate transforma într-o

118

caracteristică alternativă, prin raportarea la un anumit prag, care poate fi
media. Astfel, unităŃile colectivităŃii se vor separa în două grupe:

– unităŃi cu un nivel de dezvoltare mai mic decât media;
– unităŃi cu un nivel de dezvoltare mai mare decât media.
Pentru caracterizarea statistică a variabilelor alternative este necesară o
cuantificare a valorilor. Pentru exprimarea lor cantitativă se folosesc
următoarele valori convenŃionale:
• pentru DA, x1 = 1;
• pentru NU, x2 = 0.
Numărul de unităŃi (frecvenŃele) din cele două grupe este diferit, iar
distribuŃia lor este prezentată în tabelul 4.13.

Tabelul 4.13

Răspunsul Valorile FrecvenŃe FrecvenŃe
înregistrat caracteristicii absolute relative
DA x1 = 1 M p=M/N
NU x2 = 0 N–M q = (N – M)/N = 1 - p
Total N = ∑ni p+q=1

unde: N = numărul total al unităŃilor colectivităŃii studiate;
M = numărul unităŃilor care posedă caracteristica;
N – M = numărul unităŃilor care nu posedă caracteristica.

Media caracteristicii alternative (p) se va calcula aplicând relaŃia

mediei aritmetice ponderate, astfel:

x= ∑xini = 1⋅ M + 0 ⋅ (N − M) = M =p⇒p= M (4.55)
∑ni N N N

OBSERVAłII!
• Media caracteristicii alternative este chiar frecvenŃa relativă
corespunzătoare răspunsurilor afirmative.
• Media caracteristicii alternative poate fi considerată mărime relativă
de structură, greutate specifică sau pondere i probabilitate de apari-
Ńie a cazurilor favorabile.
• Aceste observaŃii sunt valabile i pentru q, media răspunsurilor
neafirmative.

119

Dispersia caracteristicii alternative (σ p2 ) se obŃine pornind de la

relaŃia de calcul obi nuit al dispersiei:

( )∑ ∑σ2 = xi −x 2 = (1 − p)2 M + (0 − p)2 (N −M) =
p
ni

inN

= (1− p)2 M + p2 (N − M ) = p(1− p)(1− p + p) = p(1− p) = p ⋅ q

NN

σ 2 = p(1 − p) = p⋅q (4.56)
p

OBSERVAłIE! Dispersia caracteristicii alternative este egală cu
produsul celor două frecvenŃe relative.

Abaterea medie pătratică (σ p ) se determină clasic, prin extragerea

rădăcinii pătrate din dispersie:

σ p = σ p 2 = p(1− p) = p ⋅ q (4.57)

Ace ti indicatori sunt folosiŃi pe scară largă în cercetări selective i în
controlul calităŃii produselor.

Dispersia i abaterea medie pătratică a caracteristicii alternative prezintă
anumite particularităŃi:

• dispersia poate lua valori numai în intervalul 0 ≤ σp 2 ≤ 0,25, iar

abaterea medie pătratică ia valori numai în intervalul 0 ≤ σp ≤ 0,5;

• când p < q i p cre te uniform în cadrul intervalului 0 < p < 0,5, atât

abaterea medie pătratică, cât i dispersia înregistrează o cre tere mai rapidă

la început i mai lentă către limita superioară;

• când p = q dispersia i abaterea standard ating valori maxime

σ 2 = 0,25 i σp = 0,5;
p

• dacă p > q i p continuă să crească în cadrul intervalului 0,5 < p < 1
atât abaterea standard, cât i dispersia înregistrează o scădere în acela i ritm
în care a avut loc i cre terea.

120

EXEMPLU: Pentru determinarea calităŃii produselor unei firme de

rulmenŃi, s-au examinat un număr de 300 de piese, din care 270 au fost

considerate bune. Se cere:

a. Procentul mediu de piese bune:

Dacă N = 300 i M = 270

p = M = 270 ⋅100 = 90%
N 300

b. Procentul mediu de piese rebut:

q = N − M = 300 − 270 ⋅100 = 10%
N 300

c. VariaŃia colectivităŃii:

σ 2 = p⋅q = 90% ⋅10% = 900
p

d. Coeficientul de variaŃie:

v = σ p ⋅100 = 900 ⋅100 = 33,3% ⇒ V < 35%
p 90

4.5. Asimetria

În analiza distribuŃiilor statistice unidimensionale i unimodale, un
interes deosebit îl prezintă cunoa terea formei distribuŃiei.

Seriile de repartiŃie de frecvenŃă empirice (cele obŃinute în urma
prelucrării primare a informaŃiilor) se pot compara cu repartiŃiile teoretice,
pentru care s-au calculat parametrii (medie, dispersie etc.) i este cunoscută
forma lor de repartiŃie. Cea mai frecventă repartiŃie teoretică către care tind
seriile empirice este distribuŃia normală, sau funcŃia Gauss-Laplace, ale
cărei frecvenŃe se distribuie simetric de o parte i de alta a frecvenŃei
maxime plasată în centrul seriei, iar graficul are forma de clopot, în raport
cu ordonata maximă.

Asimetria, ca noŃiune, se referă la felul în care frecvenŃele unei
distribuŃii empirice se abat de la curba normală a frecvenŃelor.

Sunt cunoscute distribuŃii empirice:
– u or asimetrice;
– pronunŃat asimetrice.
Forma asimetriei se poate stabili grafic cu ajutorul histogramei sau
poligonul frecvenŃelor.

121

Într-o distribuŃie simetrică, cele 3 valori ale tendinŃei centrale: modul
(Mo), mediana (Me) i media ( x ) se confundă, ca în figura 4.7.

nj

xj

Me = Mo = x

Figura 4.7. RepartiŃia simetrică a frecvenŃelor

O repartiŃie u or asimetrică prezintă o deplasare mai mare sau mai
mică într-o parte i alta faŃă de tendinŃa centrală (exprimată prin Me,
Mo, x ) ca în figura 4.8 i 4.9:

nj nj

Mo Me x xj x Me Mo x j

Mo < Me < x x < Me < Mo
(etalarea frecvenŃelor spre stânga)
(etalarea frecvenŃelor spre dreapta)
Figura 4.8. RepartiŃia oblică
spre stânga Figura 4.9. RepartiŃia oblică
spre dreapta

122

Seriile pronunŃat asimetrice pot fi:
• în formă de „J”, atunci când frecvenŃele de grupare î i ating

maximul la un capăt sau altul al intervalului de variaŃie:
• în formă de „U”, atunci când frecvenŃele maxime sunt la capătul

intervalului, iar cele minime în centrul intervalului;
• sau repartiŃii complexe, formate din suprapunerea mai multor tipuri de

repartiŃii (una în formă de „J” i două repartiŃii moderat asimetrice).
Reprezentarea grafică oferă o imagine asupra asimetriei, dar gradul de
asimetrie se măsoară cu ajutorul unor indicatori specifici:
– indicatori de asimetrie ai lui Pearson;
– coeficienŃii de asimetrie interquartilici i interdecilici.

Coeficientul de asimetrie Pearson (Cas) se bazează pe asimetria
absolută (As), calculată ca diferenŃă între media aritmetică i modul:

As = X − Mo
As arată cât de mare este abaterea dintre cei doi indicatori.

Coeficientul de asimetrie (Cas) se află ca raport între asimetria

absolută (As) i abaterea medie pătratică (σ ):

Cas = As = X − Mo (4.58)
σ σ

OBSERVAłIE!

• Cas are o valoare abstractă i arată mărimea i felul asimetriei.

• Cas ia valori în intervalul [-1; +1].

• Dacă: Cas = 0 : seria este simetrică;

Cas → 0 : asimetria seriei este mică;

Cas → ±1: asimetria este pronunŃată;

Cas > 0: asimetrie la stânga;

Cas < 0: asimetrie la dreapta;

• Cas se folose te numai pentru distribuŃii u or asimetrice;

• Pentru un Cas cuprins în intervalul (-0,3; +0,3) se poate calcula i

cel de-al doilea coeficient de asimetrie a lui Pearson:
( )C′as
= 3 X − Me (4.59)
σ

Acest C′as ia valori cuprinse între [-3; +3]; C′as dacă →0: asimetria

este mai redusă.

123

CoeficienŃi de asimetrie interquartilici i interdecilici

• Coeficientul Yule (Cas1) măsoară asimetria în funcŃie de poziŃia

quartilelor. Se calculează cu relaŃia:
(Q3 Me) − (Me )
Cas1 = (Q3 − Me) + (Me − Q1 ) (4.60)
− − Q1

OBSERVAłIE!

•Cas1 ia valori în intervalul [-1; +1].
•Interpretarea lui este identică cu cea a coeficientului de asimetrie

Pearson.

• Coeficientul Bowley (Cas2) măsoară asimetria în funcŃie de poziŃia

decilelor. Se calculează cu relaŃia:
(D9 Me) − (Me D1 )
Cas1 = (D9 − Me ) + (Me − D1 ) (4.61)
− −

OBSERVAłIE! Cas2 ia valori în intervalul [-1; +1], iar interpretarea lui
este similară cu cea a coeficientului de asimetrie Pearson.

EXEMPLU: Pe baza distribuŃiei agenŃilor economici, după mărimea

profitului, analizaŃi asimetria seriei statistice.

Tabelul 4.14. DistribuŃia agenŃilor economici după profit

AgenŃi economici Nr. agenŃi xi −a  x − a n  x − a  2
după mărimea economici h h h
profitului xi i i n
(mii lei) ni -3
20-30 25 -2 i i
30-40 5 35 -1
40-50 14 45 0 -15 45
50-60 18 55 1 -28 56
60-70 30 65 2 -18 18
70-80 15 75 3 0 0
80-90 12 85 15 15
TOTAL 6 24 48
100 18 54
-4 236

unde: h = 10; a = 55

Reprezentarea grafică a asimetriei s-a efectuat cu poligonul
frecvenŃelor (conform figurii 4.10).

124

DistribuŃia agenŃilor economici după mărimea profitului economic

Y
Ox: 1 cm = 10 u.m.

33 Oy: 1 cm = 4
29
25 Koy = (30-5)/7 ≈ 4
21
17
13
9
5

25 35 45 55 65 75 85 x

Mo Me x

Figura 4.10. Poligonul frecvenŃelor

Din grafic se pate observa o u oară asimetrie pozitivă în funcŃie

de valorile medii ale seriei: x = 54,6; Me = 54,5; M0 = 54,44.
Atunci: M 0 〈 M e 〈 x , ceea ce determină un coeficient de asimetrie

pozitiv Cas > 0.

Pe baza tabelului 4.14 vom determina coeficientul de asimetrie

Pearson, astfel:

∑  xi −a n i −4
 h 100
x = ⋅h +a = ⋅10 + 55 = 54,6
∑ni

 x − a  2
 h 
i n

∑ ( )σ2 i 2 236 ⋅100 − (54,6 − 55)2

= ⋅h2 − x−a = = 235,84
ni 100

σ = σ2 = 235,84 = 15,35 ; M0 ∈ (50 – 60)

125

M0 = x0 + h ∆1 = 50 + 10 (30 − (30 − 18) − 15) = 54,44
∆1 + ∆2 18) + (30

Cas = x − M0 = 54,6 − 54,44 = 0,0104
σ 15,35

OBSERVAłIE! Ceea ce s-a constatat pe grafic, s-a obŃinut i prin
Cas = 0,0104, o u oară asimetrie pozitivă.

CONCEPTE-CHEIE: tendinŃă centrală; indicatorii medii; media

distribuŃiei statistice; media aritmetică ( X ); media armonică ( Xh ); media

pătratică ( Xp ); media geometrică ( Xg ); indicatorii de poziŃie; modul
(Mo); cuantile de ordinul K: (mediana (Me), quartilele (Q), decilele (D);
indicatorii de variaŃie (simpli i sintetici); regula de adunare a dispersiilor;
testul F; caracteristica alternativă (media, dispersia); asimetria.

ÎNTREBĂRI DE AUTOEVALUARE

1.Cu ce indicatori caracterizăm tendinŃa centrală?
2.În ce situaŃii tendinŃa centrală este mai corect generalizată de: media

aritmetică, media armonică, media pătratică, media geometrică?
3.Care sunt dezavantajele mediei în caracterizarea tendinŃei centrale?
4.Cum se determină media variabilei alternative?
5.Care sunt proprietăŃile mediei aritmetice?
6.Când nu are sens determinarea mediei aritmetice?
7.O medie calculată dintr-un ir de valori individuale este reprezentativă

dacă:
a) s-au utilizat frecvenŃele absolute de apariŃie a valorilor individuale;
b) irul de valori individuale este omogen;
c) coeficientul de asimetrie ia valori în intervalul [-1];
d) irul de valori este structurat pe intervale de grupare egale;
e) s-a utilizat media aritmetică.
8.Media armonică se define te ca:
a) media aritmetică, calculată din inversele valorilor individuale

înregistrate;
b) valoarea inversă a mediei aritmetice, calculată din inversele pătratelor

valorilor individuale înregistrate;

126

c) valoarea inversă a mediei aritmetice, calculată din inversele valorilor
individuale;

d) valoarea care, dacă ar înlocui termenii seriei, nu ar modifica suma lor.
9.Ce sunt cuantilele? DefiniŃia i modul de calcul a cuantilelor de ordinul 2

i 4.
10. Care este semnificaŃia valorii modale? Când i cum se calculează

aceasta?
11. O serie de distribuŃie de frecvenŃe poate avea mai multe moduri? Dacă

da, cum se continuă analiza?
12. Când se recomandă folosirea medianei (Me) ca o alternativă la media

aritmetică?
13. Care din următoarele afirmaŃii nu este adevărată pentru o serie statistică:

a) între quartila 1 i quartila 3 se găsesc 50% din observaŃii, situate în
centrul distribuŃiei;

b) valoarea Q2 este egală cu mediana, doar pentru o serie simetrică;
c) valoarea Me este întotdeauna egală cu valoarea Q2;
d) pentru o serie simetrică, abaterea interquartilică este nulă;
e) pentru o serie simetrică, abaterea interquartilică cuprinde 25% din

observaŃii.
14. Expresia sintetizării valorilor individuale ale unei variabile statistice

într-un singur nivel reprezentativ, în apariŃia i manifestarea feno-
menelor de masă este dată de:
a) mediană;
b) medială;
c) valoarea medie;
d) coeficientul de variaŃie;
e) mărimea relativă de intensitate.
15. Care este cel mai potrivit indicator pentru caracterizarea variaŃiei unei
caracteristici statistice?
16. Când se utilizează amplitudinea absolută a variaŃiei?
17. Când se recomandă folosirea abaterii medii liniare?
18. Care sunt principalele caracteristici ale indicatorului abatere medie
absolută?
19. Ce probleme de cunoa tere statistică rezolvă analiza variaŃiei valorilor
individuale de la tendinŃa centrală?
20. Care sunt avantajele diferitelor modalităŃi de calcul a dispersiei?
21. Care sunt proprietăŃile dispersiei i utilizarea lor practică?
22. Ce relaŃie este între abaterea medie liniară i abaterea medie pătratică în
cazul unei distribuŃii normale?
23. Când se recomandă folosirea abaterii medii pătratice?

127

24. Dispersia este invers proporŃională cu:
a) volumul e antionului;
b) abaterea standard;
c) coeficientul de asimetrie.

25. Coeficientul de variaŃie arată:

a) de câte ori este mai mare σ faŃă de x;

b) cu câte procente este depă ită limita de omogenitate admisă;

c) cu cât este mai mare σ faŃă de x;

d) de câte ori se cuprinde σ în x;

e) câte procente din σ reprezintă x.
26. Care sunt indicatorii ce analizează concentrarea valorilor individuale i

fac analiza formelor în care se distribuie aceste valori?
27. Care este regula de adunare a dispersiilor?
28. Ce semnificaŃie are dispersia dintre grupe?
29. Ce reprezintă media dispersiilor de grupă? Dar dispersia totală?
30. Ce indicatori putem calcula pe baza regulii de adunare a dispersiilor?
31. Ce verificăm cu ajutorul testului F?
32. Cum se calculează i ce semnificaŃie au media i dispersia

caracteristicii alternative?
33. Ce se înŃelege prin asimetrie?
34. Când este o serie perfect simetrică? Dar asimetrică?
35. Cum se calculează i se interpretează coeficienŃii de asimetrie propu i

de Pearson?
36. Coeficientul de asimetrie Pearson se află în relaŃie de inversă

proporŃionalitate cu:
a) abaterea standard;
b) abaterea standard i valoarea modală;
c) dispersia i valoarea modală;
d) media aritmetică;
e) mediana.
37. Ce alŃi coeficienŃi de asimetrie mai cunoa teŃi?
38. Ce verificări se pot face cu testul χ2?
39. Ce indici numerici ai concentrării puteŃi enumera? Cum se calculează i
se interpretează ace ti indici?

128

5. SONDAJUL STATISTIC I TESTAREA IPOTEZELOR
PENTRU FUNDAMENTAREA DECIZIILOR ECONOMICE

5.1. Necesitatea folosirii sondajului statistic

Sondajul statistic, ca metodă de obŃinere a datelor statistice, alături de
alte procedee (recensământ, rapoarte statistice, anchete etc.), este o variantă
aflată, în prezent, în plină expansiune. Într-o economie de piaŃă, sondajul
este o formă preponderentă de obŃinere a datelor statistice, datorită
operativităŃii i economicităŃii obŃinerii acestora.

InformaŃia obŃinută pe baza datelor rezultate dintr-o cercetare parŃială,
respectiv a unui e antion din colectivitatea totală, face obiectul statisticii
inferenŃiale.

Statistica inferenŃială se referă la cunoa terea statistică indirectă a
unei colectivităŃi, se bazează pe inducŃia statistică – procedeu al cunoa terii
ce pleacă de la particular la general – i este fundamentată pe legea
numerelor mari, principiile teoriei probabilităŃilor i statisticii matematice.

Sondajul statistic este o procedură prin care se caracterizează o
populaŃie, în baza cercetării unei părŃi a acesteia, deci a unui e antion
prelevat din populaŃia de origine (colectivitatea totală).

Rezultatele obŃinute pe baza sondajului se extrapolează la
dimensiunea întregii populaŃii. Extinderea rezultatelor de la parte la întreg
nu are caracter determinist, ci probabilist, fiind supuse unui risc de a fi
eronate.

Avantajele cercetării prin sondaj pot fi următoarele:
• când colectivitatea totală este foarte mare, iar cercetarea ei

exhaustivă ar necesita un volum mare de cheltuieli materiale i de muncă,
atunci este avantajos să se recurgă la sondaj;

129

• programul observărilor prin sondaj cuprinde, de regulă, un număr
mai mare de caracteristici decât programul observării totale, ceea ce
permite o caracterizare mai aprofundată a fenomenelor studiate;

• în cazul controlului de calitate executat prin distrugerea produsului
respectiv, sondajul este singura cercetare posibilă;

• evaluarea rezervelor subterane de petrol, gaze naturale, cărbune etc.
nu este posibilă decât pe baza unui sondaj statistic;

• sondajul poate fi folosit cu bune rezultate în verificarea progra-
mului unei observări totale, cât i la verificarea ipotezelor statistice.

Prin sintetizarea avantajelor prezentate de sondaj putem obŃine următoa-
rele elemente care ar recomanda sondajul:

– COSTUL. Costul poate fi mai mic datorită faptului că sondajul
presupune cercetarea unei părŃi a colectivităŃii totale, numite e antion.
Datele obŃinute pot caracteriza suficient de bine populaŃia de referinŃă.

– RAPIDITATEA. Cercetătorul are de-a face cu un e antion, ceea ce îi va
reduce timpul necesar pregătirii observării, timpul de culegere al datelor,
cât i timpul de prelucrare al datelor.

– EXACTITATEA CERCETĂRII. E antionul folosit este verificat dacă este
reprezentativ (eroarea de sondaj ≤ 5%). De asemenea, utilizarea în procesul
de culegere a datelor a unor persoane pregătite, cât i organizarea unor
sondaje de probă i a unor controale în teren.

– CERINłE SPECIALE. Există domenii în care sondajul nu poate fi folosit
(EXEMPLU = controlul calităŃii unui lot de produse, care presupune
distrugerea totală sau parŃială a produselor).

NoŃiuni specifice sondajului statistic

Scopul sondajului statistic îl constituie estimarea parametrilor colecti-
vităŃii totale pe baza informaŃiilor culese i prelucrate statistic, folosind
principiile teoriei probabilităŃilor. Astfel, în cercetarea selectivă se parcurg
două etape:

– prima etapă, denumită descrierea statistică, constă în culegerea i
prelucrarea informaŃiilor referitoare la e antion, respectiv calculul
indicatorilor care-l definesc (media, dispersia etc.);

– a doua etapă este denumită inferenŃă statistică sau extinderea
indicatorilor e antionului asupra colectivităŃii generale în scopul
caracterizării complete a colectivităŃii totale.

130

Cercetarea prin sondaj necesită folosirea unor indicatori perechi, ca de
pildă:

Colectivitatea totală, denumită i colectivitate generală sau
populaŃie, cuprinde totalitatea unităŃilor simple i complexe care formează
fenomenul supus cercetării.

Ansamblul unităŃilor, ce formează colectivitatea totală, formează
volumul colectivităŃii i se notează cu:

– „N” în cazul unităŃilor simple;
– „R” pentru unităŃile complexe;
– „M” pentru unităŃile ce posedă caracteristica, în cazul
variabilelor alternative.

• Colectivitatea de selecŃie, numită i e antion (probă, mostră), este
colectivitatea parŃială extrasă din colectivitatea totală în scopul observării
i generalizării rezultatelor obŃinute prin prelucrare asupra întregului
ansamblu.

Volumul e antionului se notează cu:
– „n” pentru unităŃi simple;
– „r” pentru unităŃi complexe;
– „m” pentru unităŃile ce posedă caracteristica, în cazul

variabilelor alternative.

OBSERVAłIE! Dintr-o colectivitate totală pot fi extrase mai multe
e antioane, care să difere între ele atât ca volum, cât i ca structură.

Astfel, indicatorii statistici cu care caracterizăm e antionul pot fi
consideraŃi de forma unor variabile aleatoare pentru care se pot stabili dis-
tribuŃii de frecvenŃe corespunzătoare, spre deosebire de media i dispersia
colectivităŃii totale studiate care nu pot lua decât o singură valoare.

Tabelul 5.1. Simboluri de bază folosite în sondaj

Indicatori Nr. de Media caracteristicii Dispersia caracteristicii
din: unităŃi Nume- Alter-
Nume- Alternativă
PopulaŃia N rică nativă rică
generală
n X0 P σ 02 σ 2 = p(1 − p)
E antion p
XW
σ2 σ w2 = w(1 − w)
x

131

5.2. Erorile de sondaj

Folosirea cu succes a sondajului depinde de asigurarea reprezentati-
vităŃii, de aceasta depinzând valoarea rezultatelor obŃinute în urma
cercetării prin sondaj.

Un e antion este considerat reprezentativ atunci când reproduce, în
structura sa, aceea i structură pe care o prezintă i colectivitatea generală.

Asigurarea reprezentativităŃii presupune respectarea următoarelor
condiŃii:

–includerea în e antion a unităŃilor, în mod obiectiv, fără
preferinŃe, fiecare unitate fiind extrasă după principiul hazardului, cu o
probabilitate calculabilă i diferită de zero;

–e antionul stabilit să fie suficient de mare încât să permită reda-
rea trăsăturilor esenŃiale ale populaŃiei totale i obŃinerea unor indicatori cu
un grad mare de stabilitate;

–includerea fiecărei unităŃi în e antion trebuie să se facă
independent de alte unităŃi.

Principala clasă a erorilor de sondaj sunt erorile de reprezentativitate,
care pot fi:

• Erori de reprezentativitate sistematice, ce pot fi evitate dacă se
respectă principiile teoriei selecŃiei prin înlăturarea cauzelor ce duc la
producerea lor;

• Erori întâmplătoare de reprezentativitate, care î i au sursa în însu i
natura sondajului ca cercetare parŃială, erori ce nu pot fi eliminate, dar pot fi
predimensionate, astfel distorsiunile de apreciere realizate prin cercetarea unui
e antion pot fi prevăzute statistic.

Măsurarea erorii de reprezentativitate se poate efectua:

• Absolut, ca dimensiune a deplasării parametrului de sondaj ( x ) de

la mărirea adevărată a parametrului în populaŃia totală ( x0 ), respectiv:

d x = x − x0 (5.1)

• Relativ, caz în care se poate stabili coeficientul de

reprezentativitate ( d ) calculat ca raport între eroarea efectivă de
x%

reprezentativitate d i media colectivităŃii generale ( x0 ):
x

132

d = d = xi − x0 100 ≤ 5% (5.2)
x

x% x0 x0

Dacă d ≤ 5% ne permite să apreciem că sondajul este reprezentativ
x%

i oferă o imagine aproximativ fidelă a realităŃii. Dimensionarea erorii de

sondaj este o problemă a proiectării unui sondaj i Ńine de stabilirea unui

compromis acceptabil între nivelul erorii i costul măririi e antionului.

EXEMPLU: Verificarea gradului de reprezentativitate a unui e antion,

pentru alegerea unei selecŃii corespunzătoare.

Tabelul 5.2. DistribuŃia salariaŃilor după salariul mediu

Grupe Număr salariaŃi

salariaŃi

după Colectivitate SelecŃia I Selec-

salariul generală ni1 Ńia II xi xi ni xi ni1 xi ni2
mediu ni ni2
2-5 20
2 7 3,5 70 7 24,5

5-7 120 12 12 5,5 660 66 66

7-9 280 35 48 7,5 2100 262,5 360

9-11 400 38 20 9,5 3800 361 190

11-13 100 8 7 11,5 1150 92 80,5

13-15 80 5 6 13,5 1080 67,5 81

Total 1000 100 100 8,860 856 802
∑x0 = xi ni = 8860 = 8,86
∑ ni 1000

∑x1 = xi ni1 = 856 = 8,56
∑ ni1 100

∑∑x2 = xi ni2 = 802 = 8,02
ni2 100

I. d = x1 − x0 ⋅100 = 8,56 − 8,86 ⋅100 = 3,39%
x% x0 8,86

133

II. d = x2 − x0 ⋅100 = 8,02 − 8,86 ⋅100 = 9,48%
x% x0 8,86

Din selecŃiile alese, numai selecŃia I corespunde condiŃiei de
reprezentativitate : d = 3,3% ≤ 5%.

x%

5.3. Procedee de selecŃie folosite în practica statistică

Practica statistică, după procedeul folosit în construirea e antionului,
acceptă două categorii de sondaje:

– sondaje nealeatoare;
– sondaje aleatoare.

5.3.1. Sondaje nealeatoare

Metoda sondajului nealeator constă în alegerea acelor unităŃi din
e antion, astfel încât să fie cât mai apropiate de caracteristicile esenŃiale
ale colectivităŃii generale din care s-au extras.

Astfel, e antionul se formează după o manieră arbitrară, care are însă
la bază alegerea raŃională a unităŃilor, dar nu se poate estima probabilitatea
ca un element să intre în e antion. De aceea, nu este posibilă estimarea
variantei i nici intervalul de încredere pentru colectivitatea generală.

În acest tip de sondaj, singurul mod de a evalua calitatea datelor de
anchetă este de a compara rezultatele metodei cu datele reale ale colecti-
vităŃii observate. Cu cât rezultatele obŃinute sunt mai apropiate de datele
reale, cu atât această metodă va fi mai utilă în cercetarea statistică. Astfel,
dacă populaŃia de referinŃă este omogenă atunci metodele neprobabiliste
pot oferi rezultate acceptabile.

OBSERVAłII!
• metodele nealeatoare sunt mai puŃin costisitoare i mult mai practice;
• în comparaŃie cu metodele aleatoare sunt mai puŃin exacte.
Dintre metodele neprobabiliste putem aminti:
• E antionarea la întâmplare;
• E antioane de voluntari;
• E antioane dirijate;
• E antionarea prin metoda cotelor.

134

E antioane la întâmplare
ConstrucŃia e antionului este făcută la întâmplare, de aceea
asigurarea reprezentativităŃii e antionului este puternic afectată de intuiŃia
operatorilor de anchetă. Dacă operatorii de anchetă respectă câteva condiŃii
minime pentru asigurarea caracterului „aleator” în construcŃia e antionului
rezultatele obŃinute sunt suficient de reprezentative.
EXEMPLE:
• Sondajul de opinie publică pe o problemă de actualitate.
• Sondaje de opinie pe probleme ecologice.
OBSERVAłII!
• această metodă este utilă atunci când colectivitatea generală din
care se extrage e antionul este omogenă.
• în restul cazurilor metoda trebuie luată cu precauŃie ca fiind corectă,
mai ales că este puternic influenŃată de operatorii ce culeg datele.

E antioane de voluntari
În cadrul acestei metode e antionul se formează pe baza opŃiunii
voluntare a persoanelor de a face parte din e antion. Din această cauză
trebuie să avem în vedere durata mare de formare a acestor e antioane care
necesită i o exigenŃă deosebită.
REMARCĂ!
• Această formă de e antionare este folosită cu succes în studiile de
marketing (lansarea unui anumit produs nou).
• Cercetarea medicală i psihologia folosesc acest tip de e antionare:
– în tratarea unei boli;
– în urmărirea efectelor introducerii unui nou medicament.

E antioane dirijate
Formarea e antionului se face de către persoanele care culeg datele
în funcŃie de anumite considerente asupra compoziŃiei colectivităŃii de
referinŃă.
Deoarece alegerea unităŃilor ce vor intra în e antion este făcută de un
operator, el poate face i alegeri subiective, care pot provoca distorsiuni sau
deplasări semnificative ale indicatorilor calculaŃi de la valorile colectivităŃii
studiate.
Atunci când acest tip de selecŃie trebuie folosit, se va face o analiză
amănunŃită din punct de vedere calitativ a colectivităŃii generale, iar în
formarea e antionului se vor avea în vedere aceste informaŃii cu precădere.

135

REMARCĂ!
• Acest tip de selecŃie se folose te în studiile preliminare asupra unui
fenomen.
• Alegerea dirijată a unităŃilor e antionului determină costuri reduse,
precum i un mare grad de operativitate.
• Nu se va folosi în practică în situaŃiile în care se cere o mare rigoare
tiinŃifică.

E antionarea pe cote
Presupune formarea unui e antion care să respecte compoziŃia pe
straturi a colectivităŃii generale. Astfel, acest tip de sondaj se face atunci
când se cunosc proprietăŃile indivizilor pe straturi, într-o colectivitate care a
fost stratificată după un criteriu prestabilit. Anchetatorul va alege din
fiecare strat unităŃile pe care le consideră reprezentative.
Apropierea acestui tip de sondaj de sondajul aleator se realizează în
măsura în care frecvenŃele relative, definite în cadrul colectivităŃii generale
pentru anumite variabile, pot fi interpretate ca probabilităŃi. Acest lucru
poate fi realizat dacă colectivitatea generală este suficient de mare pentru a
da posibilitatea aplicării legii numerelor mari.
REMARCĂ!
• Această metodă, bazată pe o alegerea raŃională a unităŃilor în
e antion, dă rezultate suficient de bune în studiile de piaŃă, în sondajele de
opinie la nivel naŃional.
• Metoda pe cote este, în general, mai puŃin costisitoare decât o
metodă aleatoare, datorită desfă urării ei.
• Este o metodă practică i asigură o culegere rapidă a informaŃiilor
necesare studiului.
• În această metodă însă calitatea datelor depinde decisiv de
priceperea anchetatorului. De aceea, nu se pot evalua erorile de e antionare,
neputând calcula precizia estimărilor, plecând de la rezultatele obŃinute
asupra e antionului. Anchetatorul, din dorinŃa de a alege unităŃile cele mai
reprezentative, alege intenŃionat valori apropiate de medie, dar îi scapă
tocmai elementele externe care caracterizează dispersia colectivităŃii.
Astfel, acest e antion ales raŃional va spune ceva mai mult despre medie i
prea puŃin despre dispersia colectivităŃii.
Atunci această metodă se poate folosi cu succes în cercetările în care
se cere operativitate i nu o înaltă precizie a rezultatelor obŃinute.

136

EXEMPLU: Se organizează o anchetă statistică la nivel naŃional
privind introducerea pe piaŃă a unor noi produse cosmetice. Pentru studiul
nostru vom lua un e antion format din 3000 de persoane. În analiză se pot
introduce mai multe variabile în funcŃie de scopul studiului: sexul, vârsta,
categoria socio-profesională etc. În exemplul nostru vom lua doar sexul ca
variabilă (conform tabelului 5.3 i tabelului 5.4).

Tabelul 5.3. Repartizarea populaŃiei României cu vârstă peste 18 ani, după sex

PopulaŃia după sex Număr persoane Structura populaŃiei %
Femei 10.600.000 54,22
BărbaŃi 8.950.000 45,78
Total 19.550.000 100,00

Tabelul 5.4. Cote relative la populaŃia generală pentru e antionul
de 3000 de persoane

PopulaŃia după sex Număr de persoane
Femei 1.627
BărbaŃi 1.373
Total 3000

5.3.2. Sondaje aleatoare

Principiul alegerii aleatoare (probabiliste) presupune extragerea
unităŃilor e antionului din colectivitatea generală în mod aleator, cu o
probabilitate egală i nenulă, cunoscută a priori.

Prin utilizarea acestei metode în generarea unui e antion, eroarea de
e antionare este, în general, mai mică decât în sondajele nealeatoare.

Procedee de e antionare
În e antionarea aleatoare, după modul de extragere a unităŃilor
e antionului se disting următoarele procedee:
• e antionarea aleatoare repetată;
• e antionarea aleatoare nerepetată;
• e antionarea aleatoare mecanică.
E antionarea aleatoare repetată – se realizează atunci când o unitate
extrasă se restituie colectivităŃii de origine. Volumul colectivităŃii generale

137

(N) va rămâne neschimbat pe toată perioada iteraŃiei, astfel că fiecare
unitate extrasă va avea aceea i probabilitate de includere (1/N) în e antion.

E antionarea aleatoare nerepetată – se realizează atunci când uni-
tăŃile extrase din colectivitatea generală nu mai sunt restituite acesteia. Astfel
că volumul colectivităŃii generale, la sfâr itul iteraŃiei, va fi (N-n), adică dife-
renŃa dintre volumul colectivităŃii generale (N) i volumul e antionului (n).

REMARCĂ!
Modelul teoretic al celor două variante de prelucrare este schema
urnei lui Bernoulli cu bila revenită i cu bila nerevenită.
E antionarea aleatoare mecanică – presupune formarea e antionului
pe baza unei progresii aritmetice, prin alegerea unui număr de la care să
pornească construirea progresiei i prin stabilirea unui pas de numărare
(raŃia progresiei) prin relaŃia K = N/n.
Atunci, construirea e antionului se face prin două elemente:
• pasul de numărare (K);
• punctul de plecare ales (x) din colectivitatea generală.
Practic, selecŃiile aleatoare se pot realiza prin mai multe procedee
dintre care amintim:
• procedeul „loteriei”;
• procedeul tabelului cu numere aleatoare;
• procedeul mecanic.

Procedeul „loteriei”. Acesta presupune extragerea dintr-o urnă a
unor bile, discuri, bilete, reprezentând fiecare o unitate a colectivităŃii.
Extragerea din urnă se face în două variante:

a) procedeul bilei revenite, în care probabilitatea de includere în
e antion a fiecărei unităŃi este constantă (p = 1/N) tot timpul cât durează
operaŃia de construire a e antionului. La sfâr it, în urnă rămân (N-1) unităŃi;

b) procedeul bilei nerevenite, în care bila, odată extrasă, nu se mai
întoarce în urnă, mărind astfel ansa fiecărei unităŃi rămase în urnă de a intra
în e antion. ProbabilităŃile sunt variabile i cresc pe măsura formării e antio-
nului: p1=1/N, p2=1/N-1,...., pn=1/N-(n-1). La sfâr it, în urnă rămân (N-n)
unităŃi.

Pentru că, în acest caz, este exclusă posibilitatea extragerii de mai
multe ori a acelea i unităŃi, erorile sunt mai mici, iar rezultatele obŃinute au
un grad de precizie mai ridicat.

138

OBSERVAłIE! Procedeul „Loteriei” se folose te când colectivitatea
generală cuprinde un număr mai mic de unităŃi, pentru care să se poată
asigura bile i să se poată include în urnă.

Procedeul tabelului cu numere aleatoare. Acest procedeu poate
fi folosit numai pentru colectivităŃi restrânse. Tabelele cu numere aleatoare,
elaborate de Kendall Yates etc., au fost întocmite cu ajutorul unui dispozitiv
de amestecat numere. Pentru folosirea tabelului cu numere aleatoare este
necesară numerotarea unităŃilor colectivităŃii generale de la 1 la N i apoi
extragerea celor „n” unităŃi ce formează e antionul. Pentru formarea
e antionului se va proceda astfel: se vor alege la întâmplare coloana i
rândul din coloana respectivă cu care se va începe selecŃia. Apoi, de la
numărul respectiv începe selectarea unităŃilor (după anumite criterii) până
la formarea completă a e antionului „n”.

Procedeul mecanic presupune ordonarea unităŃilor după o
caracteristică oarecare (ordine alfabetică, denumirea străzii etc.) prin care să
se asigure includerea, pe cât posibil întâmplătoare, a unităŃilor în e antion.
Formarea e antionului este precedată de stabilirea unui pas de numărare,
după care se va face includerea unităŃilor. Pasul de numărare, care trebuie
să fie un număr întreg, se calculează ca raport între volumul colectivităŃii
generale i volumul colectivităŃii de selecŃie: k = N/n.

Prin calculul pasului de numărare se obŃine împărŃirea colectivităŃii
generale în grupe de volum egal.

Pentru constituirea e antionului se procedează astfel: se selectează la
întâmplare (prin tragere la sorŃi) o unitate din prima grupă, la care se adaugă
succesiv pasul de numărare până la obŃinerea celor „n” unităŃi ale
e antionului.

OBSERVAłIE! Constituirea e antionului în selecŃia mecanică nu este
pe deplin aleatoare pentru că fiecare unitate selectată depinde de numărul
de ordine al celei precedente. De aceea, selecŃia mecanică este considerată
în literatura de specialitate o selecŃie cvasialeatoare. Totu i ea este folosită
cu succes în statistica agricolă i statistica nivelului de trai.

5.4. Tipuri de sondaje

5.4.1. Sondajul aleator simplu

Este varianta aleatoare elementară de sondaj, celelalte tipuri putând fi
înŃelese ca soluŃii obŃinute prin particularizarea unor elemente ale acestui tip
de sondaj.

139

Sondajul aleator simplu se aplică numai unor colectivităŃi cu un
grad mare de omogenitate, formate din unităŃi simple de observare i în
care se urmăre te variaŃia unei singure caracteristici de grupare.

În practică se operează asupra unor populaŃii finite, prelevând cele „n”
unităŃi din cele N ale populaŃiei i înregistrând pentru fiecare unitate din
e antion valoarea caracteristicii urmărite, pe baza cărora se calculează
media:

x = ∑ xi
n
Această medie va fi diferită (mai mult sau mai puŃin) faŃă de media
„adevărată”, dar necunoscută din populaŃia generală. Pentru o altă
e antionare, unităŃile prelevate vor fi altele, astfel încât tot alta ar fi fost
media de sondaj al acestor valori.
Faptul că indicatorii de sondaj diferă de la un e antion la altul
înseamnă că pot fi interpretaŃi ca variabile aleatoare. Astfel, în prelucrarea
datelor de sondaj se pot folosi procedee de tratare a datelor specifice
disciplinei de „probabilităŃi i statistică matematică”.
EstimaŃiile obŃinute pe baza datelor de sondaj constituie evaluări
aproximative ale adevăratelor valori ale parametrilor necunoscuŃi din
populaŃia generală.
Rezultatele obŃinute prin sondaj sunt afectate de erori. Ce se obŃine
prin sondaj nu reprezintă valoarea exactă a parametrului căutat, ci un
„interval de încredere” care, cu o probabilitate fixată de cercetător, acoperă
valoarea adevărată, dar necunoscută a parametrilor din populaŃia generală.
Acest interval se nume te interval de estimaŃie sau interval de încredere,
iar cele două limite ale intervalului θinf i θsup se calculează pe baza

datelor sondajului, astfel încât cu o probabilitate P = 1– α să se

îndeplinească relaŃia: P(θinf < θ < θsup ) = 1 − α , unde:

– intervalul (θinf , θsup ) reprezintă intervalul de încredere i

define te precizia estimaŃiei;
– probabilitatea P = 1– α caracterizează siguranŃa afirmaŃiei i se

nume te nivel de încredere;

140

– α, fiind valoarea complementară a nivelului de încredere, se
nume te prag sau nivel de semnificaŃie i se fixează prin
programul de cercetare.

5.4.1.1. Indicatori ai sondajului aleator simplu

1. Eroarea medie de sondaj
a. Cazul sondajului repetat. Datele înregistrate în e antion pot fi
considerate variabile aleatoare, iar folosind independenŃa valorilor
variabile, se calculează media de sondaj:

x = ∑ xi
n

Media de sondaj poate fi un estimator al mediei x0 a colectivităŃii
generale, dacă se îndepline te condiŃia ca media de sondaj să fie egală cu

( )media generală M x = x 0 . Se calculează dispersia mediei de sondaj:

D(x) = σ 2
n

În practică, cercetarea prin sondaj se folose te fie pentru a completa o

observare totală de mare amploare, fie ca singura posibilitate de carac-

terizare statistică a fenomenului respectiv. Astfel, cunoscând, de regulă,

numai media calculată pe baza datelor rezultate de la un singur e antion,

pentru determinarea erorii medii de sondaj trebuie să se recurgă la relaŃia

care există între dispersia colectivităŃii de selecŃie (σ 2 ), eroarea medie de
x

sondaj ( µ ) i volumul e antionului (n).
x

În teorie, se demonstrează că, în cazul selecŃiei aleatoare repetate,

între cei doi indicatori există relaŃia:

σ 2 = µ *n, de unde: µx = σ 2 (5.3)
x x x

n

b. Cazul sondajului nerepetat
În acest tip de sondaj, unităŃile sunt prelevate întâmplător din
populaŃia generală, o unitate astfel extrasă nu mai este restituită populaŃiei
de origine.

141

Dacă N este volumul populaŃiei generale, atunci P(X1 = x1) = 1/N, iar
probabilitatea evenimentului X2 = x2 este condiŃionată de faptul că la prima
extragere a avut loc evenimentul X1 = x1, iar unitatea extrasă nu mai revine
în populaŃia generală: P (X2 = x2 / X1 = x1) = 1/N-1. Astfel, abaterea
standard a mediei de sondaj ca măsurător al erorii medii de

reprezentativitate devine:

µ = σ2 N −n ≅ σ2 ⋅ N −n ≅ σ2 ⋅ (1− n ) (5.4)
x⋅ x x

x n N −1 n N −1 n N

OBSERVAłIE!

• În practică, dacă volumul colectivităŃii generale este foarte mare se

renunŃă la (-1) de la numitorul formulei i coeficientul de corecŃie se

folose te astfel: (1− n ) .
N

• Coeficientul de corecŃie 1 − n este subunitar. Dacă în calculele
N

efective n/N < 0,2, de regulă factorul 1 − n nu se mai ia în considerare.
N

• Dacă volumul N al populaŃiei este ridicat, iar al sondajului „n” este

redus, atunci N −n →1, astfel rezultatul estimării erorii medii de sondaj

N −1

coincide în ambele variante de sondaj.

• Dacă n = N, atunci 1 − n devine nul, căci cercetarea parŃială
N

s-a transformat într-o cercetare totală.
• Dacă „n”, volumul sondajului, cre te – precizia spore te cu

aproximativ n ori, i în acela i raport se mic orează i dispersia de

sondaj. Aceasta arată că sporirea volumului e antionului nu se regăse te
proporŃional în ridicarea preciziei sondajului. De aceea, în practică se
folosesc sondaje de volum mic.

• Eroarea medie de reprezentativitate pentru acest tip de sondaj este
mai mică decât în cazul celui cu revenire.

142

2. Eroarea limită (eroare maximă admisă sau probabilă – ∆ )
x

Eroarea limită maximă admisă define te siguranŃa estimării mediei x0

prin variabila de sondaj x i se măsoară probabilist astfel:

x − x0 < ∆ x

Mărimea ∆ caracterizează precizia estimării. Aprecierea satisfacerii
x

inegalităŃii se face ca o probabilitate de realizare:

P( x − x0 < ∆ x ) = 1−α

Probabilitatea (1– α) se alege de către cercetător, în funcŃie de nivelul

de siguranŃă urmărit în estimare.

Eroarea limită se determină pornind de la variabila:

Z = x − x0 = ∆
x

σ2 µ
x

n

Variabila Z are o repartiŃie normală, fiind valoarea tabelară care

satisface relaŃia 2Φ(Zα) = P = 1– α . Astfel, eroarea limită este:

σ2
∆ = Zα ⋅µ = Zα ⋅ x pentru sondajul repetat (5.5)
x x n

∆ = Zα ⋅µ = Zα ⋅ σ2 1 − n  pentru sondajul nerepetat (5.6)
x x x  N 
n

3. Determinarea volumului e antionului
Dimensionarea raŃională a volumului e antionului este o problemă
importantă în cercetarea prin sondaj, mărimea e antionului „n”, în virtutea
legii numerelor mari, spore te precizia rezultatelor i reduce eroarea medie
probabilă.
În teoria i practica sondajului se folosesc e antioane „mari” i
e antioane de volum redus, în funcŃie de gradul de omogenitate al
colectivităŃii generale.
Interpretarea erorii medii de reprezentativitate se face diferit:

143

– pentru e aloanele mari se folose te distribuŃia normală Laplace;
– pentru cele de volum redus se folose te distribuŃia Student.
Calculul volumului de sondaj se realizează pornind de la eroarea
limită maximă admisă:
– pentru cazul sondajului repetat:

∆ = Zα ⋅ σ2 , de unde: ∆2 x = Z 2 ⋅ σ 2 ⇒n= Z 2 ⋅σ 2 (5.7)
x x α x α x
n
n ∆2 x

– pentru cazul sondajului nerepetat:

∆ = Zα ⋅ σ2 1 − n  , de unde: n= Z α2 ⋅σ 2 . (5.8)
x x  N x
n
∆2 x + Z 2 ⋅σ 2
α x

N

4. Intervalul de estimaŃie sau intervalul de încredere
Intervalul de încredere desemnează zona probabilă în interiorul căreia
se va plasa media populaŃiei generale.
Intervalul se determină pornind de la media de sondaj corectată cu

nivelul erorii limită maxim admisă: x − x0 < ∆ x , relaŃie echivalentă cu
dubla inegalitate:

x − ∆x < x0 < x + ∆x
Satisfacerea inegalităŃii se face cu o probabilitate de realizare:

P( x − x0 < ∆ x ) = P( − ∆ x < x − x0 < ∆ x ) =

= P( x − ∆ x < x0 < x + ∆ x ) = 1 – α (5.9)

Lungimea intervalului de încredere este direct proporŃională cu

mărimea împră tierii valorilor i invers proporŃională cu nivelul pragului de

semnificaŃie i mărirea e antionului.

În unele situaŃii prezintă interes i calculul intervalului probabil de

plasare a nivelului totalizat al caracteristicii în populaŃia generală:

∑ xi ≈ N ⋅ x ; de unde intervalul de încredere:

( ) ( )∑N x − ∆ < <
x
xi x+∆ N (5.10)
x

144

5.4.1.2. Indicatori ai sondajului în cazul caracteristicilor alternative

Când variabila X poate arăta doar o însu ire pe care o posedă doar
unele dintre elementele populaŃiei, caracteristica se nume te alternativă sau
binară.

EXEMPLU: Într-un lot de piese, caracteristica poate fi: „defectă” sau
„bună”, iar pentru o echipă de muncitori caracteristica poate reprezenta
nivelul de calificare sau salarizare: „peste medie” sau „sub medie” etc.
PopulaŃia cercetată este formată din „n” elemente, dintre care un număr
„m” posedă caracteristica, i un număr „n-m” nu o posedă. Apoi se atribuie
valoarea 1 elementelor colectivităŃii care posedă caracteristica i valoarea 0
celor ce nu o posedă.

Tabelul 5.5

UnităŃile Răspuns Valoarea FrecvenŃa FrecvenŃa relativă ni*
e antionului DA caracteristicii absolută ni
UnităŃi ce m=w
X1=1 m n
posedă
caracteristica NU X2=0 n-m n−m =1− n =1− w
UnităŃi ce nu nm
∑ ni = n
posedă ∑n * =1
caracteristica i

Total

Media caracteristicii alternative: (5.11)

∑x = xini = 1⋅ m + 0 ⋅ (n − m) = m = w
∑ ni n n

Media „w” este chiar frecvenŃa relativă a caracteristicii cercetate în

e antion.

Dispersia caracteristicii alternative:

( )∑ ∑σ2= xi −x 2 = (1 − w)2 ⋅ m + (0 − w)2 ⋅ (n − m) =
w
ni

ni n n

= (1 − w)2 ⋅ w + w2 (1 − w) = w ⋅ (1− w)⋅ (1 − w + w) = w ⋅ (1 − w)

σ 2 = w(1 − w) (5.12)
w

145

Eroarea medie de sondaj:

µw = σ 2 = w ⋅ (1 − w) pentru sondajul repetat (5.13)
w
n
n

µw = σ 2 1 − n  = w ⋅ (1 − w) 1 − n  pentru sondajul nerepetat
w  N   N
n
n

(5.14)

Eroarea limită maximă admisibilă:
– pentru sondaj repetat:

∆w = Z ⋅µw = Z ⋅ σ 2 =Z⋅ w(1− w) (5.15)
w
n
n

– pentru sondaj nerepetat:

∆w = Z ⋅µw = Z ⋅ σ 2 1 − n  = Z ⋅ w(1 − w) 1 − n  (5.16)
w  N   N 
n
n

Intervalul de încredere pentru media caracteristicii alternative:

w− ∆w < p < w+ ∆w (5.17)

Volumul e antionului „m” pentru caracteristica alternativă:

– pentru sondajul repetat:

∆w = Z ⋅ w(1 − w) ⇒ ∆2 w = Z2 ⋅ w(1 − w) ⇒ n = Z2 ⋅ w(1 − w)

n n ∆2 w

(5.18)

– pentru sondajul nerepetat:

∆w = Z ⋅ σ 2 1 − n  ⇒ ∆2w =Z 2 ⋅ σ 2 1 − n 
w  N  w  N 

n n

⇒ n = Z2 ⋅ σ 2 (5.19)
∆2 w + w

Z 2 ⋅σ 2
w

N

146

Intervalul de încredere pentru nivelul totalizat al caracte-
risticii alternative:

∑N ⋅ (w − ∆ w ) < M i < N (w + ∆ w )

Tabelul 5.6. Indicatorii sondajului aleator simplu

Indicatori Caracteristică numerică Caracteristică alternativă
SelecŃie repetată SelecŃie nerepetată
1. Eroarea SelecŃie SelecŃie
medie
de repetată nerepetată
sondaj
µx = σ2x µx= σn2x1−Nn µw = w⋅(1−w) = µw = σ2w1− n  =
n N
n

= σ2w = w⋅ (1− w) 1− n 
n N
n

2. Eroarea ∆x = Z⋅µx ∆x = Z ⋅µx ∆w = Z ⋅ µw ∆w = Z⋅µw
limită
Z2 ⋅ σ2x n = Z2 ⋅ σ2x Z2 ⋅ σ2 Z2 ⋅ σ2
3.Volumul n = ∆2x ∆2x + Z2 ⋅ w n= w =
e antionului σ2x n= ∆2w =
Z2 σ2
(n) w

∆2w ⋅

N ( )Z2 ⋅ w 1−w +

= ∆2w N

( )Z2⋅w1−w
( )= ∆2w+ Z2⋅w1−w

N

4.Intervalul x − ∆x < x0 < x + ∆x w−∆w < p < w+∆w
de

încredere
pt. media
generală

147

OBSERVAłII!

• Dacă se ajunge la situaŃia ca n = N, atunci factorul 1 − n 
N 

devine nul i dispare, pentru că cercetarea parŃială s-a transformat
în cercetare totală.
• Dacă N, volumul colectivităŃii, este ridicat, iar n al sondajului este

redus, atunci 1 − n  → 1, practic coincide în ambele tipuri de
N 

sondaj.
• Z – este argumentul funcŃiei de probabilitate Gauss-Laplace

Φ(Z), care are o repartiŃie normală, fiind o valoare tabelară (vezi
Anexa 1).
Intervalul de încredere delimitează zona probabilă în care se va plasa
valoarea adevărată, dar necunoscută a mediei populaŃiei generale (x0 ) .

5.4.2. Sondajul tipic (stratificat)

Sondajul tipic este tipul de selecŃie ce se aplică cel mai frecvent în
cercetarea fenomenelor social-economice de masă.

Sondajul tipic se aplică colectivităŃilor neomogene, care au fost
împărŃite în grupe omogene (straturi sau tipuri de unităŃi) după o
caracteristică esenŃială, notate cu N1, N2,..., Nr, i reprezentate în sondaj
prin volumul sube antioanelor n1, n2,..., nr.

Cu cât grupele în care a fost împărŃită colectivitatea sunt mai

( )omogene, cu atât mediile de grupe xi au valori apropiate de valorile

individuale din care s-au calculat i deci abaterile într-un sens sau altul sunt

mici, iar gradul de variaŃie este mic.

VariaŃia mediilor de selecŃie posibile va fi în funcŃie de variaŃia
( )fiecărei grupe măsurată prin dispersiile de grupă
σ 2 i sintetizată prin
i
( )media dispersiilor parŃiale σ 2 . Din regula de adunare a dispersiilor tim

că σ2 < σ 2 , iar de aici rezultă erori mai mici prin aplicarea selecŃiei
0

tipice. Dacă nu dispunem de date dintr-o cercetare totală anterioară, se va

148


Click to View FlipBook Version