The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

Balu, Mariana Elena - Bazele statisticii

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by Contepisto, 2022-07-14 03:19:26

Balu, Mariana Elena - Bazele statisticii

Balu, Mariana Elena - Bazele statisticii

( )folosi pentru calculul indicatorilor de selecŃie media dispersiilor parŃiale din

colectivitatea de selecŃie σ 2 .

( )• Media de selecŃie x se va calcula ca o medie aritmetică
ponderată a mediilor sube antioanelor respective:
(5.20)
∑x = x i n i
∑ ni

unde: i = 1, r .

• Media dispersiilor de grupă σ 2  se calculează ca o medie
x

aritmetică ponderată a dispersiilor de grupă astfel:

∑∑σ2 = σ 2 ni (5.21)
x i

ni

OBSERVAłIE! Dacă caracteristica, ce a stat la baza separării în grupe

omogene, joacă un rol important în variaŃia caracteristicii cercetate, mediile

de grupă sau parŃiale ( xi ) se vor diferenŃia între ele i se vor abate într-o

măsură mai mare de la media colectivităŃii generale. Astfel, ponderea mediei
dispersiilor parŃiale în variaŃia totală va fi mică, deci influenŃa cauzelor
întâmplătoare va fi mai redusă în raport cu cea a cauzelor esenŃiale.

E antionul se obŃine prin extragerea de sube antioane din nivelurile
populaŃiei totale prin procedee de selecŃie aleatoare. Pentru repartizarea
e antionului pe sube antioane corespunzător tipurilor calitative, se pot
aplica trei procedee:

• SelecŃia tipică simplă se face prin repartizarea în mod egal a
e antionului pe sube antioane, indiferent de numărul unităŃilor ce

compun straturile populaŃiei totale.

RelaŃia de calcul:

ni = n (5.22)
r
149
unde: ni = dimensiunea fiecărui sube antion;
r = numărul de straturi în populaŃia totală.

• SelecŃia tipică proporŃională este acea selecŃie în care ponderea
pe sube antioane este în funcŃie de ponderea pe care o are fiecare grupă
în colectivitatea generală i se respectă proporŃia de selecŃie n/N.

Volumul fiecărui sube antion va fi:

n ip = n ⋅ Ni , unde i = 1, r (5.23)

∑ Ni

OBSERVAłIE! SelecŃia tipică, proporŃională. Se folose te frecvent în
practică, datorită modului de formare a e antionului. Structura colectivităŃii
de selecŃie este identică cu cea a colectivităŃii generale, asigurându-se astfel
erori mai mici.

• SelecŃia tipică optimă în care la formarea sube antioanelor se
are în vedere atât ponderea fiecărei grupe în colectivitatea generală, cât i
gradul de omogenitate al grupelor măsurat prin abaterea standard.

RelaŃia de calcul:

nio =n⋅ Nσi ,unde i = 1, r (5.24)

∑ Niσi

unde: Ni = numărul unităŃilor pe grupe din colectivitatea totală;

σ i = abaterea standard pe grupe ale colectivităŃii totale.

OBSERVAłIE! SelecŃia tipică dă cele mai mici erori în activitatea
practică, dar este greu de aplicat.

RelaŃiile de calcul în cazul sondajului tipic se particularizează
pornind de la cele ale sondajului aleator simplu, înlocuind dispersia colec-
tivităŃii generale sau dispersia e antionului cu media dispersiilor de grupă.

Calculul indicatorilor de selecŃie pentru sondajul tipic va fi prezentat
sintetic în tabelul 5.7.

150

Tabelul 5.7

Indica- Caracteristică numerică Caracteristică alternativă
tori
SelecŃie SelecŃie nerepetată SelecŃie SelecŃie
Eroarea repetată nerepetată
medie repetată
de sondaj
µx = σ2x µx = σx2 1− n  µw = w⋅(1−w) = µw = σw2 1− n  =
Eroarea n n N n  N
limită n

= σ 2 = w⋅(1−w) 1−Nn
w
n
n

∆x = Z ⋅µx ∆ =Z⋅µ ∆w = Z ⋅ µw ∆w = Z ⋅ µw
xx

Volumul Z 2 ⋅σ 2 Z 2 ⋅σ 2 n= Z2 ⋅σw2 = n= Z2⋅σw2 =
e antio- n= x n= x ∆2w ∆2w +Z2 ⋅σw2
nului Z2 ⋅σ 2 N
∆2 x ∆2 x + x
Z2 ⋅ w(1−w)
N Z2 ⋅ w(1 − w) = ∆2w + Z2 ⋅ w(1−w)

= ∆2 w N

Intervalul x−∆x < x0 < x +∆x ∑w−∆w < Mi < w+∆w
de încre-
dere pt. ( ) ( )∑N < ( ) ∑N⋅ w−∆w < Mi < N(w+∆w)
media N x−∆ < xi x+∆ N
colecti- x x

vităŃii i =1
generale
Intervalul
de încre-
dere pt.
nivelul
totali–

zat al
caracte-
risticii

OBSERVAłII!
• Pentru a obŃine acela i grad de precizie a rezultatelor, e antionul
constituit prin stratificare este mai mic decât cel pentru sondajul aleator

simplu.
• E antionul trebuie dimensionat, astfel încât fiecare sube antion să

conŃină un număr suficient de unităŃi, pentru a permite calcularea dispersiilor
la nivelul sube antionului (ni > 35).

151

5.4.3. Sondajul de serii

Sondajul de serii este folosit pentru colectivităŃile compuse din
unităŃi complexe, numite i serii (echipe, brigăzi, magazine etc.).

UnităŃile complexe sunt formate la rândul lor din unităŃi simple ce
posedă caracteristici ce le deosebesc una de alta, au caracter eterogen.

EXEMPLU: Muncitorii care alcătuiesc o echipă au o vechime în muncă
diferită, au un anumit nivel de pregătire i deci o anumită calificare. Ei au,
ca unităŃi simple, un caracter eterogen, dar împreună alcătuiesc o echipă.

Formarea e antionului se face prin procedee cunoscute, selectând
unităŃi complexe sau serii întregi de unităŃi simple.

Caracteristic acestui tip de sondaj este faptul că, în locul variantelor
concrete ale caracteristicilor, se vor folosi indicatori de selecŃie, calculaŃi la
nivelul seriei.

Reprezentativitatea se va asigura prin apropierea mediilor din seriile
de unităŃi selectate de mediile din seriile colectivităŃii generale.

Mediile seriilor ( xi ) servesc la estimarea mediei de sondaj: (5.25)

x = ∑ xi i w = ∑ wi (pentru caracteristica alternativă)
rr

Abaterile dintre mediile seriilor selectate i media de sondaj se

măsoară sintetic prin dispersia dintre serii (δ 2 ):
( )δ
∑ xi − 2
r
2 = x , unde i = 1, r , r = numărul seriilor selectate;
x

( )δ
2 ∑ wi − w 2 (pentru caracteristica alternativă) (5.26)
w r
=

În sondajul de serii, dispersia dintre serii înlocuie te dispersia generală

din sondajul simplu i astfel erorile de reprezentativitate vor fi mai mici sau

cel puŃin egale cu erorile de la sondajul simplu δ2 ≤ σ 2 .
0

Dispersia dintre serii are o valoare mică în e antioanele ce conŃin serii

care au aceea i structură ca i a colectivităŃii generale. E antionarea

făcându-se pe bază de serii, numărul acestora se va nota cu „r” în

colectivitatea de selecŃie i cu „R” în colectivitatea totală.

Analog cu selecŃia simplă se vor elabora formele i pentru selecŃia de

serii cu deosebirea că:

152

• în locul dispersiilor colectivităŃii totale se va folosi dispersia dintre
serii (δ2 );

• în locul volumului e antionului (n) se va folosi numărul de serii
din e antioane (r);

• coeficientul de corecŃie al erorilor de sondaj va fi R − r ; nu se mai

R −1

renunŃă la „1” din numitor pentru că el reprezintă o serie ca unitate
complexă.

Calculul indicatorilor de selecŃie pentru sondajul de serii este prezentat
în tabelul 5.8.

Tabelul 5.8

Indica- Caracteristică numerică Caracteristică alternativă
tori
SelecŃie SelecŃie SelecŃie SelecŃie nerepetată
Eroarea repetată
medie repetată nerepetată

de µx = δ2x µx = δ2 R−r  µx = δ2w µw = δw2  R − r 
selecŃie r x r r  R −1
Eroarea
limită r R−1

∆ = Z⋅µ ∆ = Z ⋅µ ∆w =Z⋅µw ∆w = Z ⋅ µw
xx xx

Volumul Z2 ⋅δ2 R ⋅ Z2 ⋅ δ2 Z2 ⋅ δ2w R⋅Z2 ⋅δ2
e antio- r= x r = x x = ∆2w
nului (R −1)∆2x + ⋅ δ2 r = (R −1)∆2w w
∆2 x Z2 x + ⋅ δ2
„r” Z2 w

Intervalul x − ∆ < x0 < x + ∆ w−∆w < p < w+∆w
de x x

încredere
pt. x0

OBSERVAłIE! Datorită avantajelor organizatorice pe care le prezintă
sondajul de serii – chiar cu carenŃele sale de reprezentativitate – se justifică
utilizarea sa în numeroase domenii ale statisticii economice i sociale:
statistica preŃurilor pe piaŃa Ńărănească, statistica bugetelor de familie în
cadrul anchetelor integrate în gospodării etc.

153

5.5. Testarea ipotezelor statistice i fundamentarea deciziilor
bazate pe date de sondaj

Prin cercetarea selectivă se urmăre te extrapolarea sau extinderea
rezultatelor obŃinute pe baza e antionului la întreaga populaŃie cercetată.

Prin prelucrarea datelor de sondaj se obŃine un estimator al para-
metrului urmărit în populaŃia de origine. Se pune problema în ce măsură
parametrul estimat pe baza sondajului asigură credibilitatea aprecierilor
referitoare la întreaga populaŃie. Rezultatul obŃinut pe baza sondajului este
un estimator al nivelului indicatorului în populaŃia generală sau, altfel spus,
o ipoteză statistică.

O ipoteză statistică este o supoziŃie cu privire la repartiŃia uneia sau
a mai multor variabile la legea de probabilitate a populaŃiei studiate sau
asupra valorii unui parametru al unei distribuŃii date.

Ipoteza statistică nu prive te statisticile de sondaj, ci valorile adevărate
ale parametrilor implicaŃi sau formele caracteristice ale repartiŃiilor con-
siderate.

Modul de operare asupra supoziŃiei se realizează prin datele
e antionului, care reprezintă elementul de cunoa tere, care, prin procedeele
oferite de teoria estimaŃiei, ne apropie mai mult sau mai puŃin de valoarea
adevărată a unui parametru.

Valoarea adevărată, dar necunoscută a parametrului din populaŃia
generală, va fi estimată probabilist, ca o zonă probabilă de deplasare a
parametrului adevărat.

5.5.1. Probleme ale testării unei ipoteze statistice

Testarea ipotezelor statistice este strâns legată de teoria estimaŃiei. Este
un procedeu care, în funcŃie de anumite reguli de decizie, se poate respinge
sau nu o ipoteză admisă asupra unui parametru sau a unei distribuŃii.

Pentru testarea unei ipoteze se parcurg următoarele etape:
• se formulează ipotezele de lucru (ipoteza nulă i ipoteza alternativă);
• se alege i se calculează un test statistic în funcŃie de distribuŃia de
selecŃie considerată;
• se alege un prag de semnificaŃie pentru test;
• se compară valoarea calculată a testului cu valoarea teoretică;
• se stabilesc regulile de decizie;

154

• se ia decizia de acceptare sau respingere a ipotezei admise prin
compararea valorii calculate cu valoarea teoretică (tabelară) i adoptarea
deciziei de acceptare sau respingere a ipotezei nule.

Apare problema rezultatului unui experiment, dacă valorile înregis-
trate se repartizează într-adevăr după legea teoretică propusă. Ipoteza care
se formulează cu privire la parametrii unei repartiŃii sau la legea de repar-
tiŃie pe care o urmează variabila statistică se nume te ipoteză statistică.
Pentru o ipoteză statistică, ce urmează să fie verificată, se folose te
termenul de ipoteză nulă H0.

Ipoteza H0 exprimă acea situaŃie pe care cercetătorul ar vrea să o
discrediteze în urma testării.

Ipoteza de la care porne te cercetătorul i pe care dore te să o
confirme se nume te ipoteză alternativă, notată cu H1.

Ipoteza nulă H0, este formulată în a a fel încât negarea ei să ducă în
mod automat la acceptarea ipotezei alternative.

Ipoteza alternativă se exprimă întotdeauna sub forma unei inegalităŃi,
al cărui sens poate fi cunoscut sau necunoscut.

Drept urmare, se poate vorbi de două tipuri de teste: teste unilaterale i
teste bilaterale.

5.5.2. Teste asupra ipotezelor statistice

Verificarea ipotezei constă în alegerea unor reguli care precizează
condiŃiile în care se consideră că ipoteza nu concordă cu realitatea i trebuie
respinsă. Procedeul de verificare se nume te test sau criteriu.

Pentru a accepta sau a respinge o ipoteză statistică se efectuează un
experiment pentru definirea zonei de acceptare sau respingere a ipotezei,
problemă care presupune alegerea testului unilateral sau bilateral i a
probabilităŃii asociate acestuia.

Zona de acceptare a unei ipoteze, numită i interval de încredere,
este un interval în care se acceptă, printr-un test, ipoteza nulă Ho, căreia i
se asociază probabilitatea 1– α.

155

Zona de respingere este intervalul dintr-o distribuŃie de selecŃie a
unei statistici considerate, în care se respinge ipoteza nulă H0, căreia i se
asociază o probabilitate α.

Probabilitatea α (alfa) este numită prag de semnificaŃie a testului. În
testarea ipotezelor, regiunea care se define te este regiunea de respingere a
ipotezei H0pentru un prag de semnificaŃie acceptat.

Teste unilaterale
Sunt testele în care sensul inegalităŃii din ipoteza alternativă este

cunoscut. Dacă în experimentarea acestei ipoteze apare una din expresiile
„mai mare” sau „mai mic”, avem de-a face cu un test unilateral. Un test
unilateral este la stânga dacă în ipoteza alternativă apare semnul „<”(mai
mic) i la dreapta dacă apare semnul „>” (mai mare).

Teste bilaterale
Este testul în care sensul ipotezei alternative este necunoscut

(H1: m1 ≠ m2). Vom ti că este vorba despre un test bilateral, atunci când
exprimarea ipotezei alternative este prin cuvintele „diferit”, „inegal”.

OBSERVAłIE! Recunoa terea corectă a unui test ca fiind bilateral sau
unilateral are mare importanŃă în luarea deciziei de acceptare sau respingere
a ipotezei nule.

Majoritatea testelor de marketing sunt teste unilaterale. După
formularea ipotezelor se stabile te nivelul de semnificaŃie al testării – care
se notează cu α – adică probabilitatea de eroare pe care o admite
cercetătorul (probabilitatea ca o ipoteză nulă adevărată să fie respinsă).

În cazul testării unei ipoteze se pot produce erori de acceptare sau de
respingere pe nedrept a unei ipoteze, numite erori de primă speŃă sau erori
de tip I i de-a doua speŃă sau erori de tip II.

Eroarea este o diferenŃă între o valoare adevărată i o valoare
observată.

Eroarea de tip I este eroarea în care se respinge pe nedrept ipoteza
nulă H0, când în realitate ea este adevărată. Probabilitatea asociată este
notată cu α , unde α = P, respinge H0, când H0 este adevărată. În
practică, α este cunoscut sub denumirea de risc al vânzătorului.

156

Eroare de tip II este eroarea în care se acceptă ipoteza nulă, atunci

când ea este falsă. Probabilitatea asociată este notată cu β, unde β = P,

care acceptă H0, când H0 este falsă.
Riscul β este cunoscut sub denumirea de riscul cumpărătorului.

Tabelul 5.9 reprezintă tipurile de erori ce pot apărarea în analiza de
marketing.

Tabel 5.9. Tipuri de erori în testarea ipotezelor

Decizia Realitatea

Acceptăm H0 H0 este adevărată H0 este falsă
Decizie corectă Eroare de tip II

p=1–α p=β

Respingem H0 Eroare de tip I Decizie corectă
p=α p=1–β

În cercetările de marketing se lucrează, de regulă, cu un nivel de

semnificaŃie 5% (adică un nivel de încredere 95%).

Verificând o ipoteză, se calculează o anumită mărime, numită

statistică sau test. Procedeul verificării ipotezelor, compararea statisticii
calculate cu valoarea teoretică constă în fixarea unor reguli, după care ipo-

teza se respinge pe baza testului.

Tabelul 5.10 prezintă criteriile de decizie pentru cazul distribuŃiilor

normală i Student. În tabel s-au folosit indicele „c” pentru valorile calcu-

late i indicele „t” pentru cele tabelare.

Tabelul 5.10. Criterii de decizie1

Tipul DistribuŃia normală (z) DistribuŃia Student (t)
testului E antion (n ≥ 30) E antion (n < 30)
ZC > – Zt(α) acceptăm H0
Test ZC ≤ – Zt(α) respingem H0 tC > – tt(α) acceptăm H0
unilateral tC ≤ – tt(α) respingem H0
stânga

Test ZC < Zt(α) acceptăm H0 tC < tt(α) acceptăm H0
tC ≥ tt(α) respingem H0
unilateral ZC ≥ Zt(α) respingem H0
dreapta

Test Zt(α/2) < ZC < Zt(α/2) acceptăm H0 – tt(α/2) < tC < tt(α/2) acceptăm H0
bilateral tC ≤ – tt(α/2) sau
ZC ≤ – Zt(α/2) sau tC ≥ tt(α) respingem H0

ZC ≥ Zt(α) respingem H0

1 Prutianu t., Anastasiei B., Jijie T., Cercetări de marketing. Studiul
pieŃei pur i simplu, Editura Polirom, Ia i, 2002.

157

Zonele de acceptare sau respingere a ipotezei H0 se pot prezenta i
grafic ca în figura 5.1.

Acceptă Acceptă Acceptă
m m m

H0 H0 H0
-z -z
Test unilateral
Test unilateral dreapta Test bilateral
stânga

Figura 5.1. Criterii de decizie în cazul distribuŃiei normale

OBSERVAłIE! Ipoteza este acceptată sub beneficiu de inventar, până la
apariŃia unor informaŃii noi, care, eventual, vor informa rezultatele testării.

În testarea ipotezelor se disting două tipuri de teste:
• Teste parametrice, care presupun cunoa terea formei parametrice
a unei distribuŃii a populaŃiei considerate, adică a legii de distribuŃie. Aici
putem aminti testul Student, care vizează compararea mediilor a două
populaŃii care urmează o distribuŃie normală. Alte teste: testul χ 2 i testul F.
• Teste neparametrice – pot testa ipotezele statistice fără a fi
cunoscute formele de distribuŃie a populaŃiilor comparate. Dintre cele mai
cunoscute teste putem aminti: testul Wilcoxon (1945) folose te datele de
sondaj pentru a arăta diferenŃele semnificative între două populaŃii; testul
Mann-Whitney (1947), pentru verificarea existenŃei egalităŃii între două
populaŃii; testul Kolmagatov-Smitnov (1933) vizează testarea identităŃii a
două legi de distribuŃie.

5.5.3. Teste pentru media caracteristicilor

5.5.3.1. Testul Z pentru verificarea conformităŃii unei medii
experimentale cu o valoare propusă

Testul Z2 se bazează pe o statistică a cărei repartiŃie este normală, cu
parametrii m = 0 i σ2 = 1. Formele testului Z, folosite în practică, sunt:

2 Isaic-Maniu Al., MitruŃ C., Voineagu V., Statistică, Editura
IndependenŃa Economică, Brăila, 1998.
158

1.Testul unilateral, când se verifică ipoteza H : m = m0, statistica Z
are forma:

ZC = x − m0 (5.27)
σ
x

n
având o lege de repartiŃie normală N (Z,0,1), unde:

– x = estimaŃia medie m;

– m0= media teoretică (respectiv media populaŃiei generale);

– n = volumul e antionului;

– σ x = abaterea standard teoretică a populaŃiei (presupusă cunoscută).

Fiind un test unilateral, valoarea calculată ZC se va compara cu o

valoare tabelară Zt(α). În funcŃie de probabilitate acceptată i felul testului, se
acceptă sau se respinge ipoteza H0 ca în tabelul 5.8.

2.Testul bilateral în care se pleacă de la aceea i ipoteză H0 : m = m0

i se construiesc două limite Z1 i Z2, astfel încât, pentru un nivel de

semnificaŃie α fixat, să avem:

 
 x − m0 
P Z1 ≤ σ ≤ Z2  =1−α

 x 

n

Dacă vom alege Z1 = – Z2 = Z1 – α/2, obŃinem:

 
 x − m0 
P − Z1−α ≤ σ ≤ Z1−α  = 1 − α (5.28)
2 2
 x 

n

EXEMPLU: Testul Z unilateral dreapta i Testul Z bilateral
Presupunem că pentru 100 de observări asupra unei variabile X s-a

obŃinut x = 110 i σ x = 60.

159

Atunci:
a) testaŃi ipoteza nulă că m = 100, cu alternativa m > 100, pentru

α = 0,053;
b) testaŃi ipoteza nulă că m = 100, cu alternativa m # 100, pentru

α = 0,05.

Rezolvare:

a) n = 100, x = 110, σ x = 60, α = 0,05

ipoteza: H0 : m = 100

H1 : m > 100

 
 − m0 
P x σ ≤ Z1  = 1 − α

 x 

n

x ≥ m0 + Z1−α ⋅ σ x

n

Z1−0,05 = Z 0,95 = 1,645

m0 + Z1−α ⋅ σ x = 100 + 60 ⋅1,645 = 109,87
n 100

Astfel, x = 110 > 109,87 deci suntem în zona critică i se respinge H0.

b) ipoteza: H0 : m = 100

H1 : m ≠ 100

 
P x − m0 
− Z α ≤ σx ≤ Z α  = 1 − α
1− 1−
 2 n 2 

Z1−0,05 = Z 0,975 = 1,96
2

Limitele intervalului de încredere sunt:

m0 − Z α ⋅ σx ≤ x ≤ m0 + Z α ⋅ σx
1− n 1− n
2 2

160

σ x ⋅ Z = 60 ⋅1,96 = 11,76
1− 100
n α

2

100 – 11,76 < x < 100+11,76

88,24 < x < 111,76
Pentru că ne aflăm în intervalul de încredere, se acceptă H0.

5.5.3.2. Testul Z pentru verificarea egalităŃii a două medii

Acest test este utilizat pentru compararea diferenŃelor dintre mediile a
două variabile, fie pentru măsurarea corelaŃiei dintre două variabile. Fiecare

variabilă va avea o medie proprie (notată cu x1 i x2 ) i o abatere medie
pătratică proprie (σ1 i σ 2 ).

Acest test se folose te în practică, de pildă, pentru testarea
performanŃelor produselor similare oferite de potenŃialii furnizori.

1. Când se verifică ipoteza egalităŃii a două medii m1 i m2, ce
corespund la două populaŃii normal distribuite, care au aceea i dispersie

teoretică σ 2 , statistica Z are o repartiŃie normală N(Z,0,1) i se calculează:

Z = x1 − x2 (5.29)
σ 1+1
n1 n2

unde: x1 i x2 sunt estimaŃiile teoretice m1 i m2;
n1 i n2sunt volumele e antioanelor efectuate asupra celor două
populaŃii.

2. Când se verifică ipoteza egalităŃii a două medii m1 i m2,
corespunzătoare celor două populaŃii normal distribuite, care au dispersii

neegale σ 2 i σ 2 , statistica Z este normal repartizată N(Z,0,1):
12

Z = x1 − x2 2 (5.30)
2 2
σ 1 + σ

n1 n2

161

Regiunea critică a testului în toate aceste cazuri este x > Zt(α ) , unde

Zt(α ) se ia din tabelul valorilor funcŃiei Gauss-Laplace (vezi Anexa 1).

O altă formă de luare a deciziilor constă în a considera diferenŃa dintre
cele două medii ca fiind nesemnificativă când mărimea:

x1 − x 2 ≤ Z1−α ⋅ σ 2 + σ 2 (5.31)
2 1 2

n1 n2

EXEMPLU: Pentru a verifica dacă între greutăŃile medii ale tiuleŃilor

din două soiuri de porumb există o diferenŃă semnificativă sau nu, s-au luat

câte 10 probe din fiecare soi:

Total
Soiul I 260 250 290 300 270 310 260 280 340 300 2860
Soiul 240 270 230 250 220 280 210 260 290 240 2490

II

Din cercetările anterioare se cunoa te: σ 2 =275 i σ 2 =260.
12

• Testul Z bilateral:

∑x1 = xi = 2860 = 286

n 10

∑x2 = xi = 2490 = 249

n 10

• Pragul de semnificaŃie α = 0,05:

Z α = Z1− 0,05 = Z 0,975 = 1,96
1−
22

• Intervalul de încredere:

P − Z1−α ⋅ σ 2 + σ 2 ≤ x1 − x 2 ≤ Z1−α ⋅ σ 2 + σ 2  =1−α
2 1 2 2 1 2 

n1 n2 n1 n2

Z ⋅ σ 2 + σ 2 = 1,96 ⋅ 275 + 260 = 1,96 * 7,32 = 14,3472
1− 1 2 10

α n1 n2

2

Astfel: x1 – x2 = 37 > 14,3472 deci ne aflăm în regiunea critică i se
respinge H0.

162

Deci, între greutăŃile medii ale tiuleŃilor din cele două soiuri de
porumb există diferenŃe semnificative.

5.5.3.3. Testul t (Student)

Testul t3 se folose te pentru verificarea ipotezelor referitoare la
mediile populaŃiei normal repartizate, când nu se cunosc dispersiile teo-
retice. Testul t se bazează pe statistica t care are o repartiŃie Student.

Forme de aplicare ale testului t: (5.32)
1. Când se verifică ipoteza H : m = m0 , statistica t este:

t = x − m0
σx n

unde: x = estimaŃia teoretică m0;

σ x = estimaŃia abaterii standard necunoscute;

n = volumul sondajului.
Statistica t are t = n-1 grade de libertate.
2. Când se verifică ipoteza egalităŃii a două medii H : m1 = m2 pentru
două colectivităŃi normal repartizate, care au aceea i dispersie teoretică
necunoscută, statistica t este:

t = x1 − x2 (5.33)
S12 (n1 −1) + 2 (n2 − 1)
S 2 ⋅ 1+1

n1 + n2 − 1 n1 n2

unde: S1 i S2 sunt estimaŃii ale dispersiei teoretice necunoscute.
Rezultatul se compară cu valoarea tabelară a lui t pentru nivelul de

încredere ales i n1 + n2 −1 grade de libertate.

3. Când se verifică ipoteza egalităŃii a două medii m1 i m2, ce
corespund la două populaŃii normal distribuite, care au dispersiile teoretice

neegale i necunoscute, statistica t este:

3 Prutianu t., Anastasiei B., Jijie T., op. cit.

163

t = x1 − x2 2 (5.34)
S12 2
+ S

n1 n2

Regiunea critică a testului t este t > tt(α ) .

OBSERVAłII!
• Testul t înlocuie te testul Z când e antionul este mai mic de 30.
• Testul t se folose te pentru verificarea egalităŃii a două medii
teoretice numai după ce s-a aplicat testul F în funcŃie de rezultatul
căruia se constată dacă ne găsim în situaŃia 2 sau 3.

Testul F se folose te pentru verificarea ipotezei egalităŃii dispersiilor

teoretice σ 2 i σ 2 a două populaŃii distribuite normal.
12

Dacă s 2 i s 2 sunt estimaŃiile dispersiilor σ 2 i σ 2 obŃinute în
12 12

două sondaje diferite, de volum n1 i n2 , atunci testul F se construie te pe

statistica:

= S2
F 1 (5.35)

S 2
2

care are o repartiŃie Fischer cu n1 − 1, n2 −1 grade de libertate.

Regiunea critică pentru testul F este:

Fcalc > F ,t, f1, f2 unde f1 = n1 − 1, f 2 = n2 − 1 i pragul de

semnificaŃie α ales.

Numerotarea dispersiilor se face astfel încât F ≥ 1.

EXEMPLU: Asupra preŃului unui produs pentru anul viitor î i exprimă

părerea 5 experŃi. Rezultatul anchetei: x = 2,63 mil. lei, S = 0,72 mil. lei

( ) x1 − x2 2 
n −1  .
 S=

Dacă se tie că anul acesta preŃul mediu a fost 2,01 mil. lei, se susŃine
ipoteza că anul viitor preŃul mediu va fi semnificativ mai mare? Se
utilizează o probabilitate de 95% de garantare a rezultatelor.

164

• Ipoteza: H0 : x0 = 2,01

H1 : x0 > 2,01

• Testul t: t = x1 − x2 = 2,63 − 2,01 = 1,96
S 0,72 5

n

S-a presupus că distribuŃia populaŃiei generale este aproximativ

normală.

• Nivelul de încredere: 1-α = 0,95, pragul de semnificaŃie 0,05.

tα ,n−1 = t0,05;4 = 2,132

• Regiunea de respingere: tcalc > t t,n−1.

Când tcalc < tt,n−1 (1,96 < 2,132), înseamnă că nu avem motive să

respingem ipoteza nulă i acceptăm ipoteza conform căreia preŃul

produsului va fi anul viitor semnificativ mai mare.

5.5.4. Verificarea normalităŃii unei distribuŃii cu testul χ2

Verificarea normalităŃii unei distribuŃii se poate face prin procedee
grafice: curba frecvenŃelor, histograma sau prin procedee numerice: testul χ2.

Verificarea normalităŃii prin procedee grafice constă în construirea

graficului pentru distribuŃia observată i compararea acestuia cu modelul

teoretic al clopotului Gauss-Laplace.
Testul χ2 este testul cel mai folosit pentru verificarea normalităŃii unei

distribuŃii, atât pe variabile discrete, cât i pentru cele continue. Testul face

compararea frecvenŃelor absolute ni, asociate valorilor xi ale variabilei

observate X, cu valorile teoretice pi.

Ipoteza nulă H0 admite normalitatea unei distribuŃii, presupune că nu

există diferenŃe semnificative între valorile comparate ni i pi.
Testul χ2 este definit de statistica χ2:

∑χ 2 = k (ni − npi )2 (5.36)
i=1 npi

∑unde: ni = frecvenŃa absolută a intervalului i, n = ni , i = 1, k ;

i

165

pi = probabilitatea ca valorile variabilei X să se încadreze în
intervalulul i i este definită de pi = F(xi) – F(xi-1), respectiv
pi = Φ(zi) – Φ(zi-1), unde F(x) este funcŃia de repartiŃie, iar Φ(z)
funcŃia Laplace.

Valoarea χ2, determinată pe baza datelor din serie, se compară cu
valoarea tabelară χ2α,v.

VariaŃia χ2 are v = k – (l+1) grade de libertate în care:
l = numărul parametrilor estimaŃi;
k = numărul de intervale de grupe;
α = riscul asumat pentru rezultate.

Dacă χ2calc ≤ χ2α,v , atunci se acceptă ipoteza H0, adică ipoteza de
normalitate.

Dacă χ2calc > χ2α,v, atunci se respinge ipoteza de normalitate (vezi figura 5.2).

α = 0,05

χ2α,v χ2v

Acceptăm H0 Respingem H0

Figura 5.2. Curba densităŃii χ2

Testul χ2 neparametric

Testul univariat χ2 (hi pătrat)
Testul compară o repartiŃie observată (reală) cu o repartiŃie teoretică
cunoscută i stabile te dacă există diferenŃe între ele.
Notăm: Qi = frecvenŃele observate; Ti = frecvenŃele teoretice.
Ipoteze: H0 : Qi = Ti i H1 : Qi ≠ Ti.

166

REMARCĂ! Testul χ2 este întotdeauna bilateral. RepartiŃia teoretică

Ti = n/k, unde: n = volumul e antionului; k = numărul de clase ale

∑ ( )repartiŃiei.
Atunci k Qi − Ti 2 se compară cu χ2 ,k −1 ,
Ti t,α
χc2 =

i=1

k = numărul de grade de libertate.

Criterii de decizie

χc2 > χ2t → respingem ipoteza nulă (H0);

χc2 ≤ χ2t → acceptăm ipoteza nulă (H0).

Testul χ2 bivariat

Ipotezele de cercetare: H0 : Qij = Tij i H1 : Qij # Tij
∑ ∑Qij Qij
FrecvenŃele teoretice: Tij =
ji

∑ ∑ Qij

ij

Remarcă! Ipoteza nulă va fi respinsă dacă frecvenŃele teoretice Tij

diferă semnificativ de frecvenŃele observate (reale) Qij.
( )∑ ∑ Qij − Tij 2
Valoarea calculată a lui χc2 va fi: χc2 =

ij Tij

Valoarea tabelară a lui χ 2 va fi: χ2
t
t ,α ,(L −1)(c −1)

unde: L = numărul de linii; c = numărul de coloane ale tabelului de

contingenŃă format.

Regula de decizie: χ 2 > χ 2 respingem ipoteza nulă
c t

χ 2 < χ 2 acceptăm ipoteza nulă.
c t

Testul χ2 poate fi folosit ca un test χ2 univariat, care ne ajută
să răspundem la o întrebare a utilizatorului. Testul compară o
repartiŃie reală (observată) cu o repartiŃie teoretică cunoscută i
stabile te dacă între cele două repartiŃii există diferenŃe semnificative.

Ipotezele de cercetare ale testului χ2 vor fi:
H0 : Qi = Ti
H1 : Qi ≠ Ti
unde, Qi = frecvenŃele observate;
Ti = frecvenŃele teoretice;

167

Testul χ2 este întotdeauna bilateral.

Dacă repartiŃia teoretică este o echirepartiŃie (adică o repartiŃie

egală a frecvenŃelor între clase), atunci frecvenŃele teoretice:

Ti = n
k

unde: n = volumul e antionului;

k = numărul de clase ale repartiŃiei.

Astfel, valoarea lui χ2 se calculează:

∑ ( )k
χ2 = Qi − Ti 2
calc Ti

i =1

Această valoare se compară cu cea din tabelele distribuŃiei χ2

pentru nivelul de încredere ales i (k − 1) grade de libertate. Criteriile

de decizie sunt următoarele:

χ2 > χ2t respingem ipoteza nulă;
calc

χ2 ≤ χ 2 acceptăm ipoteza nulă.
calc t

χ 2 = hi pătrat, valoarea teoretică.
t

EXEMPLUL 1: Studiem un sondaj vizând piaŃa detergentului,
pe un e antion 200 persoane privind marca preferată:

Tabelul 5.11

Marca Tide Omo Ariel verde Dero Ariel albastru Total
30 70 28 50 200
Nr. de cumpărători 22

Studiul de marketing se face pentru a testa dacă acest sondaj
arată preferinŃele reale ale consumatorilor de pe piaŃă. FrecvenŃele
teoretice Ti ne arată cum va arăta sondajul dacă nu ar exista o preferinŃă
deosebită pentru un anumit produs:

Tabelul 5.12

Marca Tide Omo Ariel verde Dero Ariel albastru Total
Nr. de 40 40 40 40 40 200
cumpărători

Ti = n = 200 = 40
k 5

168

Utilizând testul χ2 pentru a determina dacă există o diferenŃă
semnificativă între frecvenŃele teoretice Ti i frecvenŃele observate Qi.

Ipotezele: H0 : Qi = Ti
H1 : Qi ≠ Ti

∑χ2 = 5 (Qi − Ti )2 = (22 − 40)2 + (30 − 40)2 + (70 − 40)2 +
calc i =1
Ti 40 40 40

+ (28 − 40)2 + (50 − 40)2 = 39,2

40 40

χ2 = 9,488

t , 0 , 05, (5 −1)

Pentru χ2 > χ2t (39,2 > 9,488) vom respinge ipoteza nulă
calc

i concluzionăm că rezultatele sondajului arată preferinŃele reale ale

consumatorilor de pe piaŃă.

Dacă i altă societate de cercetare a pieŃei realizează acela i fel

de studiu asupra pieŃei detergentului, în care preferinŃele cumpărătorilor

indică următorul clasament:

− Tide preferat de 15% din cumpărători
− Omo preferat de 18% din cumpărători
− Ariel verde preferat de 38% din cumpărători
− Dero preferat de
− Ariel albastru preferat de 9% din cumpărători
20% din cumpărători

Atunci repartiŃia teoretică devine:

Tabelul 5.13

Marca Tide Omo Ariel Dero Ariel Total
30(200×0,15) (200×0,4)36 verde 18 albastru 200
Nr. de
cumpărători 76 40

χ2 = 9,488

t , 0,05, (5 −1)

χ2 = (22 − 30)2 + (30 − 36)2 + (70 − 76)2 + (28 −18)2 + (50 − 40)2 = 11,66
calc
30 36 76 18 40

169

χ2 > χ 2 (11,66 > 9,488 ) vom respinge ipoteza nulă, iar
calc t

rezultatele sondajului rămân în continuare să reflecte preferinŃele reale ale

consumatorilor.

OBSERVAłIE! Între cele două studii nu există diferenŃe

semnificative.
EXEMPLUL 2: Testul χ2 neparametric se poate utiliza ca un test

bivariat, care poate arăta relaŃia de interdependenŃă între două variabile

nominale. Dacă până acum am studiat preferinŃa consumatorilor pentru o

anumită marcă de detergent, acum asociem o a doua variabilă nominală –

vârsta cumpărătorilor.

Sondajul cu cele două variabile va fi:

Tabelul 5.14

Grupa de Omo Detergent Ariel Total
vârstă Tide Ariel Dero albastru
5 verde 75
sub 35 ani 10 20 23 125
peste 35 17 30 7 25
25 40 23 200
ani 27 48
TOTAL 70 30

Ipoteza nulă afirmă că nu e nicio diferenŃă legată de vârstă în ce

prive te preferinŃa pentru o anumită marcă de detergent. Acestei ipoteze îi

corespund frecvenŃele teoretice Tij, ce se calculează cu formula:

∑ ∑Qij × Qij

∑ ∑Tij = j i

Qij

ij

unde: i = 1,2 , reprezintă variabila vârstă;

j = 1,5 , reprezintă marca de detergent.

Ipoteza nulă va fi respinsă dacă aceste frecvenŃe teoretice
diferă semnificativ de frecvenŃele observate Qij. Ipotezele de cercetare
în cazul testului χ2 (hi pătrat) bivariat vor fi:

H0 : Qij = Tij
H1 : Qij≠ Tij
FrecvenŃele teoretice Tij se vor calcula astfel:

170

∑∑ ∑∑Tij = Q1j × Qi1 27 × 75 = 10,125 ; T12 = 25 × 75 = 9,375 .a.m.d.
200 200
j i =

Qij

ij

Tabelul 5.15. FrecvenŃele teoretice

Grupa de Detergent
vârstă
Tide Omo Ariel Dero Ariel Total
albastru
9,375 verde 75
15, 625 18 125
sub 35 ani 10,125 26,25 11,25 30 200
peste 35 ani 16,875 25 48
43,75 18,75
Total 27
70 30

Valoarea testului χ2 calculat se stabile te astfel:

∑∑ ( )χ2
calc
= Qij − Tij 2
j Tij
i

Testul χ2 se compară cu valoarea teoretică (existentă în anexa 5:
calc

valorile funcŃiei de probabilitate χ 2 în funcŃie de probabilitatea
α

( )α = P χα2 i numărul gradelor de libertate f) – notată cu χ 2 pentru un
t

nivel de încredere ales i (l − 1)(c − 1) grade de libertate unde:

l = numărul de linii;

c = numărul de coloane ale tabelului.

Regula de decizie este aceea i.

χ2 > χ 2 respingem ipoteza nulă; χ2 ≤ χ 2 acceptăm ipoteza nulă.
calc t calc t

Astfel, valoarea teoretică a lui χ 2 pentru un α= 0,05 i
t

(2 − 1)(5 − 1) grade de libertate va fi: χ2 = 9,488 .

t , 0, 05, ( 2 −1)(5 −1)

Valoarea testului va fi:

χ2 = (10 −10,125)2 + (5 − 9,375)2 + (30 − 26,25)2 + (7 −11,25)2 +
calc
10,125 9,375 26,25 11,25
+ (23 − 18)2 + (17 −16,875)2 + (20 −15,625)2 + (40 − 43,75)2 +
18 16,875 15,625 43,75
+ (23 −18,75)2 + (25 − 30)2
18,75 30

χ2 = 8,92
calc

171

Deoarece se verifică inegalitatea: χ2 < χ 2 (pentru că
calc t

8,92 < 9,488) vom accepta ipoteza nulă. Astfel, putem observa pentru

un nivel de încredere de 95% că frecvenŃele teoretice nu diferă sem-

nificativ de cele observate – de unde rezultă că nu există diferenŃe

semnificative între preferinŃele consumatorilor de o anumită vârstă

pentru marca de detergent utilizată.

EXEMPLUL 3: Dacă am vrea să studiem lansarea unui nou tip
de detergent Ariel, care scoate mult mai bine petele de pe lucrurile
colorate, trebuie să studiem preŃul la care îl putem lansa, cât i vârsta
cumpărătorilor care ar intenŃiona să-l cumpere.

Aceasta ar da posibilitatea unei firme să cunoască anticipat
nivelul maxim al preŃurilor ce pot fi practicate fără să afecteze nivelul
vânzărilor.

Prin urmare, firma este nevoită să mărească preŃul produsului
din cauza inflaŃiei. Astfel, se poate testa reacŃia cumpărătorilor fără a
a tepta cunoa terea vânzărilor de la sfâr itul perioadei.

Rezultatele cercetării pe un e antion de 1.000 persoane au fost:

Tabelul 5.16

INTENłIA PREł 9 TOTAL PREł 10 TO-
sub 35 peste TAL
Cumpără sub 35 ani peste 35 ani 775
Nu cumpără 225 ani 35 ani 700
TOTAL 600 175 1.000 550 150 300
150 75 200 100 1.000
750 250 750 250

Se studiază mai întâi dacă la preŃul de 9 lei apar diferenŃe
semnificative legate de vârsta cumpărătorilor. Astfel, pe baza datelor din
tabelul 5.16, referitoare la preŃul de 9 lei, se vor calcula frecvenŃele
teoretice pe grupe de vârstă (tabelul 5.17):

Tabelul 5.17. FrecvenŃele observate Tij

INTENłIA PREł 9 TOTAL
sub 35 ani peste 35 ani
775
cumpără 581,25 193,75 225
1000
nu cumpără 168,75 56,25

TOTAL 750 250

Unde: χ2 0,05,(2 −1)(2 −1) = 3,841.
t,

172

Valoarea calculată a lui χ2 va fi:
( )∑ ∑χ2
calc = (600 − 581,25)2 + (175 −193,75)2 + (225 − 262,5)2
= Qij − Tij 581,25 737,5 193,75
Tij
i j

+ (150 −168,75)2 + (75 − 56,25)2 = 10,75
168,75 56,25

Rezultă: χ2 > χ 2 (10,75 > 3,841), ceea ce înseamnă că vom
calc t

respinge ipoteza nulă. Se poate afirma că există diferenŃe sem-

nificative în atitudinea cumpărătorilor în funcŃie de vârstă. Analizând

sondajul pe baza tabelului 5.16, dar pentru preŃul de 10 lei, vom avea

următoarea repartiŃie a frecvenŃelor teoretice (tabelul 5.18):

Tabelul 5.18. FrecvenŃele observate Tij

INTENłIA PREł 10 TOTAL
sub 38 ani peste 38 ani
cumpără 700
nu cumpără 525 175 300
TOTAL 225 75 1.000
750 250

Valoarea calculată a lui χ2 va fi:

χ2 = (550 − 525)2 + (200 − 225)2 + (150 −175)2 + (75 − 56,25)2 = 15,87
calc
525 225 175 56,25

Se va compara cu : χ 2 , pentru un nivel de semnificaŃie 0,05 i
t

(2 – 1)(2 – 1) grade de libertate:

χ2 = 3,841

t , 0, 05,(2 −1)(5−1)

Deoarece χ2 > χ 2 (15,87 > 13,41), aici apar diferenŃe sem-
calc t

nificative în atitudinea cumpărătorilor faŃă de acest produs, în funcŃie

de vârstă.

Se poate analiza i efectul inflaŃiei asupra vânzărilor prin

studiul diferenŃelor ce se vor crea în intenŃiile de cumpărare a celor

testaŃi în funcŃie de nivelurile de preŃ. Studiu de opinie pe un e antion

de 2000 de persoane.

173

Tabelul 5.19. FrecvenŃele observate Qij

INTENłIA PREł 9 PREł 10 TOTAL
Cumpără 775 700 1.475
Nu cumpără 225 300 525
TOTAL 2.000
1.000 1.000

Tabelul 5.20. FrecvenŃele teoretice Tij

INTENłIA PREł 9 PREł 10 TOTAL
Cumpără 737,5 737,5 1.475
Nu cumpără 262,5 262,5 525
TOTAL 1.000 1.000 2.000

Valoarea calculată a lui χ2 va fi:
calc

χ2 = (775 − 737,5)2 + (700 − 737,5)2 + (225 − 262,5)2 + (300 − 262,5)2 =
calc
737,5 737,5 262,5 262,5
= 14,54

χ2 = 3,841

t , 0, 05, ( 2 −1)( 2 −1)

Dacă χ2 > χ2t se respinge ipoteza nulă, iar rezultatele
calc

vânzărilor acestui produs vor fi influenŃate semnificativ de modi-

ficarea preŃurilor, ceea ce va determina o scădere a vânzărilor.

În analiza statistică trebuie să se Ńină seama i de ceilalŃi factori

economici care influenŃează volumul vânzărilor, doar la nivelul firmei,
testul χ2 ne poate oferi informaŃiile necesare în anticiparea unei noi apro-

vizionări, cât i în lansarea deciziilor necesare continuităŃii activităŃii firmei.

CONCEPTE-CHEIE: sondaj; eroare medie; eroare limită;
volumul e antion; interval de încredere; sondaj tipic; selecŃie tipică
optimă; selecŃie tipică proporŃională; ipoteză; test; test unilateral; test
bilateral; test parametric; test neparametric; ipoteză nulă; ipoteză
alternativă; eroare de grad I; eroare de grad II.

ÎNTREBĂRI DE AUTOEVALUARE

1. De ce este preferat sondajul statistic în locul unei observări totale?
2. Prin ce se deosebe te sondajul statistic de celelalte cercetări parŃiale?
3. Care sunt modalităŃile de prelevare a unităŃilor din populaŃia generală

pentru a construi un nou e antion?

174

4. Ce condiŃii trebuie respectate pentru a asigura reprezentativitatea
e antionului?

5. De câte feluri sunt erorile de reprezentativitate?
6. Ce procedee de selecŃie cunoa teŃi?
7. Cum se realizează selecŃia aleatoare?
8. Care sunt explicaŃiile pentru diferenŃele de eroare între prelevarea

repetată i cea nerepetată a unităŃilor dintr-o populaŃie pentru constituirea
e antionului?
9. Ce tiŃi despre modalităŃile de prelevare a unităŃilor pentru alcătuirea
e antionului:

• despre procedeul „Loteriei”?
• despre procedeul tabelului cu numere aleatoare?
• despre procedeul mecanic?
10. Ce indicatori ai sondajului aleator simplu cunoa teŃi?
11. Intervalul de încredere pentru media colectivităŃii în cazul sondajului
nerepetat este mai mare sau mai mic ca cel al sondajului repetat?
12. Când se utilizează sondajul aleator simplu?
13. Când se utilizează sondajul stratificat?
14. Ce tipuri de sondaj stratificat cunoa teŃi?
15. Care sunt procedeele de repartizare a e antionului pe sube antioane?
16. Cum se formează e antionul în cazul sondajului tipic proporŃional? Dar
în cazul sondajului tipic optim?
17. MulŃimea unităŃilor statistice extrase aleatoriu dintr-o colectivitate
statistică este denumită i:
a) probă;
b) e antionare;
c) schemă probabilistică;
d) pas de numărare;
e) bază de sondaj.
18. Cum se calculează erorile în cazul sondajului tipic?
19. Cum este dimensiunea e antionului în cazul sondajului aleator simplu
faŃă de cazul sondajului stratificat, dacă se dore te aceea i precizie a
rezultatelor?
20. Când se utilizează sondajul de serii?
21. Cum se calculează erorile în cazul sondajului de serii?
22. Ce este o ipoteză statistică?
23. Care sunt problemele ce apar la testarea unei ipoteze statistice?

24. Ce teste se folosesc în verificarea ipotezelor statistice?

25. Când i cum se folosesc testele pentru media caracteristicilor?
26. Ce test folosiŃi pentru verificarea normalităŃii unei distribuŃii statistice?
27. Ce teste se folosesc atunci când nu sunt cunoscute formele de

distribuŃie a populaŃiilor comparate?
28. Ce teste parametrice cunoa teŃi? Cum le puteŃi descrie?

175

6. ANALIZA DE REGRESIE I CORELAłIE

6.1. Tipuri de legături între fenomenele social-economice.
NoŃiuni i clasificarea legăturilor statistice

Metoda corelaŃiei este tot mai frecvent utilizată în practică datorită
necesităŃii crescânde a reflectării într-o formă numerică adecvată a
interdependenŃei obiective dintre fenomenele social-economice.

Statistica studiază fenomenele de masă în interdependenŃă unele cu
altele. Astfel, datele sunt sintetizate sub formă de serii de repartiŃie
multidimensionale.

Fenomenele social-economice sunt rezultatul conjugării influenŃei
multor fenomene cauză, iar în sistemul acesta de legături nu toate
raporturile de dependenŃă sunt la fel de importante, acŃiunea unora dintre
ele compensându-se reciproc.

Astfel, în analiza statistică a raporturilor de dependenŃă dintre
fenomene, se pune problema măsurării relaŃiei care există între două sau
mai multe caracteristici, cuprinse în programul unei cercetări concrete. În
cadrul acesteia se studiază dependenŃa dintre o variabilă (caracteristică)
X – denumită caracteristică factorială, independentă sau cauză – i o
variabilă (caracteristică) Y – caracteristică rezultativă, dependentă sau efect.

Dacă această dependenŃă există, trebuie să se exprime printr-un
indicator simplu sau sintetic de corelaŃie, care ar arăta influenŃa variabilei X
asupra variabilei rezultative Y sub aspectul naturii, direcŃiei, formei de
legătură între ele.

O cerinŃă a legii numerelor mari presupune ca datele să se refere la un
număr mare de cazuri individuale concrete, diferite ca formă de
manifestare, în care distribuŃia abaterilor este aproximativ normală. Dacă
această condiŃie este nesatisfăcută, câmpul de acŃiune al legii numerelor
mari este limitat i concluziile desprinse pot da interpretări eronate.

176

De asemenea, trebuie să se folosească metoda abstractizării succesive
a factorilor, prin care să se poată studia atât legăturile simple, imediate
dintre două fenomene legate printr-o relaŃie de cauzalitate, cât i legăturile
parŃiale i multiple.

Sarcina statisticii este de a adopta modelele de calcul statistic la trăsă-
turile distincte ale fenomenelor cercetate, la baza de informaŃii folosite în
calcul i cu particularităŃile domeniului de cercetare. Formele de manifes-
tare ale relaŃiilor de interdependenŃă sunt extrem de variate i adesea greu
de sesizat.

Însă, în cea mai mare parte, legăturile dintre fenomene sunt legături de
cauzalitate, bazate pe relaŃia cauză-efect. Astfel, putem avea:

• legătură nulă, când nu există nicio influenŃă între variabilele
considerate, sunt independente;

• legătură funcŃională, când modificarea unei variabile cauză produce
variaŃia altei variabile efect într-o măsură ce rămâne constantă, indiferent de
timpul i locul de referinŃă. Această legătură se mai nume te i legătură de
tip determinist. RelaŃia matematică dintre variabila cauză i variabila efect
pentru legăturile de tip funcŃional este: y = f(x). Acest tip de legături se
întâlnesc în natură, în tehnică, mai rar în domeniul social-economic;

• legătură statistică sau stochastică, când modificarea unei variabile
efect este rezultatul combinării mai multor cauze, care pot acŃiona în acela i
sens sau în sensuri opuse, generând forme diferite de manifestare
individuală. Astfel, pentru fiecare valoare a variabilei efect vom avea o
distribuŃie de valori a variabilei cauză.

Legătura statistică se poate prezenta matematic prin ecuaŃia:
y = f (x1, x2, ..., xn)

unde: x1, x2, ..., xn sunt valorile fenomenului cauză;
y este valoarea fenomenului efect.

În domeniul social-economic, legăturile statistice sunt cele mai
frecvente, iar sarcina ce revine oricărei cercetări este de a depista i stabili
factorii cauză i de a măsura statistic gradul de dependenŃă a factorului efect
de factorii determinanŃi, cât i de a măsura intensitatea acestei dependenŃe.

Multitudinea legăturile statistice necesită o clasificare a lor după mai
multe criterii.

177

Clasificarea legăturilor statistice:
După numărul caracteristicilor independente luate în studiu:
• Legături simple – când se studiază dependenŃa dintre o caracteristică

rezultativă (y) numai în funcŃie de o singură caracteristică
independentă (x), considerată principală i variabilă.
RelaŃia matematică este: y = f (x).
EXEMPLU: Legătura dintre suprafaŃa comercială utilă (x) i valoarea
vânzătorilor (y).
• Legături multiple – când se studiază dependenŃa dintre o
caracteristică rezultativă (y) i două sau mai multe caracteristici
independente (x) pentru care se impune ierarhizarea lor în ordinea
influenŃei asupra caracteristicii rezultative. RelaŃia matematică este y =
f(x1, x2, ..., xn).
EXEMPLU: Legătura dintre capacitatea de cazare (x1), numărul de
înnoptări (x2) i valoarea încasărilor (y).
După direcŃia legăturilor:
• Legături directe – când caracteristica dependentă se modifică în
acela i sens cu caracteristica independentă: dacă x cre te i y cre te,
dacă x scade i y scade.
EXEMPLU: Cre terea cumpărărilor de ma ini de spălat de către
populaŃie determină cre terea vânzării de detergenŃi.
• Legături inverse – când caracteristica dependentă (y) se modifică în
sens invers modificării caracteristicii independente (x). Dacă x cre te,
y scade, iar dacă x scade, y cre te.
EXEMPLU: Cre terea gradului de calificare al muncitorilor, determină
scăderea rebuturilor din producŃie.
După exprimarea analitică a legăturilor:
• Legături liniare, acele dependenŃe care pot fi exprimate cu ajutorul
funcŃiei liniare.
• Legături neliniare (curbilinii) – acele dependenŃe care pot fi
exprimate cu ajutorul funcŃiilor neliniare (parabolă, hiperbolă, funcŃie
exponenŃiali etc.). Identificarea formei de realizare a legăturii se face
cu ajutorul unor metode simple (metoda grafică) i a unor metode
analitice (analiza dispersională).

178

După timpul în care se realizează:
• Legături sincrone (concomitente) – se realizează în acela i timp, se
pot urmări în dinamică pentru aceea i perioadă.
EXEMPLU: CorelaŃia dintre dinamica productivităŃii muncii i a
salariilor, astfel pe măsura cre terii productivităŃii muncii cre te i
mărimea salariilor încasate de muncitorii acelea i colectivităŃi statistice.
• Legăturile asincrone (cu decalaj) – apar atunci când caracteristicile
factoriale (x) încep să acŃioneze asupra variaŃiei caracteristicii
rezultative (y) după scurgerea unei perioade de timp.
EXEMPLU: Între dezvoltarea unei ramuri noi de producŃie i mărimea
exportului există un decalaj corespunzător asigurării competitivităŃii
produselor pe plan internaŃional.
NoŃiunile folosite în analiza de corelaŃie sunt:
Regresia1 este o metodă de cercetare a unei relaŃii predeterminate,
exprimând legătura dintre variabila rezultativă (y) i una sau mai
multe variabile independente (x).
CorelaŃia2 este o reflectare a legăturilor cu caracter complex,
existente între fenomenele de masă, iar în sens mai restrâns, este
măsura gradului de legătură între variabilele cantitative.
CovarianŃa exprimă variaŃia simultană a două variabile între care
există o dependenŃă.
Analiza de regresie este o metodă statistică care, pe baza unui
e antion, încearcă să estimeze relaŃia matematică dintre două sau
mai multe variabile, adică să estimeze valorile unei variabile în
funcŃie de valorile altei variabile.
Analiza de corelaŃie este o metodă statistică prin care se măsoară
intensitatea legăturilor dintre variabile.
Pentru aplicarea metodelor de analiză a legăturilor dintre fenomene

este necesară rezolvarea următoarelor probleme:
– identificarea i ierarhizarea factorilor de influenŃă a caracteristicilor
rezultative;
– identificarea existenŃei legăturii prin analiza logică a posibilităŃii de
existenŃă a legăturii între variabilele studiate;

1 Trebici V. (coord.), Mică enciclopedie de statistică, Editura
tiinŃifică i Enciclopedică, Bucure ti, 1985.

2 Ibidem.
179

– stabilirea sensului i formei legăturii în vederea aplicării metodei
specifice a analizei de regresie;

– determinarea gradului de intensitate a legăturii cu ajutorul analizei
de corelaŃie;

– testarea semnificaŃiei indicatorilor prin care am măsurat legătura
statistică.

6.2. Metode elementare de caracterizare a legăturilor dintre variabile

Metodele simple se folosesc pentru sistematizarea datelor, verificarea
existenŃei legăturilor, stabilirea direcŃiei legăturilor precum i aprecierea
funcŃiei analitice care exprimă legăturile studiate.

Principalele metode simple sunt:

1. Metoda seriilor paralele independente

De i este un procedeu simplu, prezintă o serie de avantaje i dă
posibilitatea aplicării în continuare a unor procedee analitice de calcul
statistic. Un avantaj al acestui procedeu este posibilitatea folosirii datelor
din diferite publicaŃii, constituite sub formă de serii statistice.

Pentru utilizarea acestei metode se porne te de la un set de observaŃii
ale caracteristicilor studiate (x, y), urmărind raportul de dependenŃă dintre
ele. Se ordonează crescător sau descrescător mai întâi valorile variabilei
independente, cauză (x), apoi în funcŃie de ele valorile variabilei rezultative,
efect (y). Prin acest procedeu se compară vizual cele două variabile,
observându-se legătura dintre ele i direcŃia ei.

Atunci când caracteristica independentă x este ordonată crescător,
există mai multe situaŃii:

• caracteristica y se ordonează aproximativ crescător – rezultă că
putem aprecia că între cele două variabile există o legătură directă;

• caracteristica y se ordonează aproximativ descrescător – rezultă că
putem aprecia că între cele două variabile există o legătură inversă;

• caracteristica y nu înregistrează o tendinŃă de ordonare – rezultă că
putem aprecia că, între cele două variabile nu există legătură.

2. Metoda grupărilor

Reprezintă un model de analiză calitativ, capabil să surprindă
aspectele esenŃiale dintre variabilele economice i sociale. Pentru analiza
legăturilor dintre fenomene, metoda grupării trebuie să se aplice cu mult
discernământ, astfel încât să se obŃină grupe suficiente pentru a se desprinde
corect forma de interdependenŃă dintre caracteristicile luate în studiu.

180

Pentru fenomenele social-economice se recomandă ca, în general, să
se folosească intervale de grupare egale pentru fiecare din caracteristicile
implicate în studiu.

Această metodă constă în repartizarea unităŃilor în grupe omogene în
funcŃie de caracteristica independentă. Pentru fiecare grupă astfel
constituită se centralizează datele numerice referitoare la caracteristica
rezultativă i se calculează medii pe fiecare grupă i mărimi relative. Prin
comparaŃia variaŃiei caracteristicii independente cu indicatorii calculaŃi
pentru caracteristica rezultată se poate aprecia existenŃa i forma legăturilor
dintre cele două variabile.

3. Metoda tabelului de corelaŃie

Tabelul de corelaŃie este un tabel ca dublă intrare i prezintă o grupare a
unităŃilor unei colectivităŃi în funcŃie de două caracteristici: una dependentă
(y) i una independentă (x). Se folose te, în general, în cadrul unui număr
mare de observaŃii. În funcŃie de modul de distribuŃie a frecvenŃelor în tabel
se apreciază existenŃa legăturii. În unele cazuri, direcŃia legăturii este dată de
poziŃia diagonală în jurul căreia se grupează frecvenŃele.

Concentrarea intensă a frecvenŃelor în jurul diagonalei indică existenŃa
unei legături strânse între caracteristici.

Dacă frecvenŃele se împră tie în reŃeaua tabelului fără nicio regu-
laritate, atunci nu există legături sau este foarte slabă.

Dacă grupele atât pentru caracteristica x, cât i pentru y sunt
prezentate în ordine crescătoare, aprecierea legăturii se face a a cum se
prezintă în figura 6.1.

Grupe după 1 2 . . . n nx Grupe după 1 2 . . . n nx Grupe după 1 2 . . . n nx
Grupe y Grupe y
Grupe y după x după x

după x 1 1
2 2
1 . .
. .
2 . .
n n
. ny ny

.

.

n

ny

a) legătură directă b) legătură inversă c) lipsa legăturii
între cele două variabile

Figura 6.1. Tipuri de legături dintre variabilele statistice într-un tabel de corelaŃie

181

4. Metoda grafică
Este o metodă elementară cu largă aplicabilitate în statistică datorită su-
gestivităŃii ei. Pentru a obŃine graficul de corelaŃie – denumit corelogramă –
valorile caracteristicii factoriale (x) se trec pe abscisă, iar pe ordonată se
trec valorile caracteristicii rezultative (y). Fiecare unitate observată
purtătoare a celor două caracteristici corelate se reprezintă pe grafic printr-un
punct. Reprezentarea grafică în câmpul de corelaŃie are aspectul unui nor de
puncte de unde se nume te i diagrama norului de puncte. Această metodă
se folose te pentru alegerea funcŃiei analitice care se va studia.
Dacă punctele sunt dispersate la întâmplare (figura 6.2a)) rezultă că
între cele două variabile nu există o legătură semnificativă. În acest caz,
putem considera că punctele se concentrează în jurul unei drepte paralele cu
OX.
Dacă punctele se concentrează în jurul unei anumite linii care nu este
paralelă cu axa OX, rezultă că între cele două variabile există o anumită
legătură (directă sau inversă) (figura 6.2 b) i c)).

x x xx xx x x x xx
x xx x xx x xxx
xxx xxx
x x xx xx x xx x
xxx xx
x
aa))lliippssăălleeggăăttuurrăăinversă x
inversă
0 x0

bb)) lleeggăăttuurrăă lliinniiaarrăă ddiirreeccttăă cc)) lleeggăăttuurrăă lliinniiaarrăă

Figura 6.2. Diverse tipuri de legături

6.3. Metode analitice (parametrice) de analiză a legăturilor statistice

Posibilitatea de aplicare a metodelor analitice depinde:
– de natura specifică a fenomenelor cercetate;
– de volumul datelor de care se dispune;
– de numărul caracteristicilor luate în studiu din colectivitatea
generală sau dintr-un e antion reprezentativ.
În continuare, vom analiza prin mai multe metode parametrice legătura
dintre două variabile, în scopul de a o exprima cu ajutorul unei funcŃii liniare.

182

6.3.1. Regresia liniară simplă

Metoda regresiei este o metodă de cercetare a legăturilor statistice cu
ajutorul unor funcŃii, denumite funcŃii de regresie. Această metodă este o
generalizare a analizei dispersionale. Alegerea funcŃiei de regresie se poate
face cu ajutorul corelogramei printr-o examinare atentă i care va fi
confirmată de testul F de analiză dispersională.

FuncŃia de regresie exprimă modificarea cantitativă a
caracteristicii rezultativă (y) ca urmare a influenŃei exercitate de
caracteristica factorială (x), ceilalŃi factori fiind consideraŃi neesenŃiali i
cu acŃiune constantă asupra tuturor unităŃilor.

Legătura dintre variabile se manifestă sub formă de tendinŃă – deci

funcŃia de modelare este o ecuaŃie medie de tendinŃă identificată prin grafic

i confirmată prin testul F.

Regresia ne arată cum o variabilă este dependentă de o alta.

În cazul regresiei simple liniare vom considera o funcŃie liniară pentru

exprimarea legăturii dintre cele două variabile:

y = a + bx (6.1)

EcuaŃia de regresie y are caracter de medie, pentru că mărimea sa

exprimă tendinŃa de realizare a corelaŃiei dintre cele două variabile x i y.

Astfel, cei doi parametrii au i ei conŃinut de valori medii i trebuie să

fie reprezentativi pentru cele mai multe unităŃi observate.

Parametrul „a” arată la ce nivel ar fi ajuns variabila y dacă toŃi

factorii de influenŃă, exceptând variabila x inclusă în modelul de corelaŃie,

ar fi influenŃat în mod constant asupra formării ei.

În sens geometric, parametrul „a”, exprimă valoarea lui y când x = 0,

deci este intersecŃia dreptei cu axa OY – de aceea se mai nume te

„ordonata la origine”.

Interpretarea economică a lui „a” se realizează în legătură cu problema

analizată.

Parametrul „b” este panta dreptei, numit i „coeficient unghiular de

regresie” i are mare importanŃă în analiza de regresie.

Dacă b = 0 → cele două variabile sunt independente, iar variaŃia lui y

depinde de alŃi factori care iniŃial au fost consideraŃi constanŃi.

183

Dacă b ≠ 0 , cele două variabile sunt dependente astfel:

–dacă b > 0, legătura este directă, pozitivă;

–dacă b < 0, legătura este inversă, negativă.

Mărimea coeficientului „b”, panta dreptei în sens geometric, arată cu

cât se modifică y când variabila x se modifică cu o unitate.

În practică, estimarea parametrilor a i b se realizează în mod obi nuit

cu ajutorul metodei celor mai mici pătrate (MCMMP) pe baza valorilor

(x,y) observate într-un e antion de volum n.

MCMMP presupune îndeplinirea următoarelor ipoteze:

–valorile x i y s-au obŃinut fără erori de observare sau măsurare;

–variabilele x sunt independente între ele.

Pentru a determina valorile ecuaŃiei de regresie, trebuie să se calculeze

parametrii a i b din sistemul de ecuaŃii normale, obŃinut prin metoda celor

mai mici pătrate.

Dacă y depinde de x, atunci trebuie să se îndeplinească i condiŃia ca

suma pătratelor abaterilor valorilor empirice de la valorile ecuaŃiei de

regresie să fie minimă:

∑S = [yi − ]yxi 2 = minim (6.2)

Pentru tendinŃa liniară această ecuaŃie este:

∑[yi − (a + bx)]2 = minim (6.3)

Se îndepline te condiŃia de minim când derivatele parŃiale în raport cu

a i b sunt nule:

δS = 2∑ (yi − a − bxi )(− 1) = 0 (6.4)
δa

δS = 2∑ ( yi − a − bxi )(− xi ) = 0
δb

Sistemul se simplifică cu 2 i separând cunoscutele de necunoscute se

un obŃine sistem de ecuaŃii normale sub forma:

na + b∑xi = ∑yi (6.5)
a∑xi+ b∑xi2 = ∑ xi yi

184

Astfel, cu ajutorul determinanŃilor aflăm valorile parametrilor a i b:
∑ yi ∑ xi
∑ ∑ ∑ ∑ ∑ ∑a = ∆a =
∑ ∑ (∑ )∆pxi2 =
xi yi xi yi xi2 − xi xi yi (6.6)
n n xi2 − xi 2

∑ ∑xi xi2

n ∑ yi
∑ ∑ ∑ ∑ ∑b = ∆b =
∑ ∑∑ ∑ (∑ )∆pxixi yinxi yi −xi yi (6.7)
n = xi 2
xi xi n xi2 −

xi2

Cu ajutorul coeficienŃilor a i b se calculează valorile ecuaŃiei de
regresie pentru fiecare mărime a lui x. Aceste valori ale ecuaŃiei de regresie
se mai numesc i valori teoretice ale caracteristicii y în funcŃie de x, iar
operaŃia de înlocuire a termenilor reali y cu valorile ecuaŃiei de regresie se
nume te ajustare.

EcuaŃia funcŃiei de regresie devine: yˆ = a + bxi.

OBSERVAłII!
• FuncŃia de regresie este numai o ipoteză statistică, care exprimă
regularitatea, tendinŃa medie de manifestare a legăturii dintre cele două
variabile, considerând ca variabil numai factorul înregistrat.
• Valorile ecuaŃiilor de regresie permit o apreciere a modului de
realizare a legăturilor dintre cele două variabile prin interpretarea mărimii
abaterilor lor faŃă de valorile empirice, însă ele nu reprezintă decât un prim
pas pentru măsurarea corelaŃiei dintre fenomene.

6.3.2. CorelaŃia liniară simplă

CorelaŃia ne arată gradul în care o variabilă este dependentă de altă
variabilă.

Analiza de corelaŃie ne arată gradul de concentrare sau de împră tiere
a valorilor empirice (yi) în jurul liniei de regresie teoretică date de valorile
lui yˆ. Astfel, intensitatea legăturilor se poate măsura cu ajutorul:

• coeficientului de corelaŃie;
• raportului de corelaŃie;

185

• metodelor neparametrice – care dau o apreciere aproximativă a
legăturii dintre variabile.

Raportul de corelaŃie (R) măsoară gradul de intensitate dintre

caracteristica factorială (x) i cea rezultativă (y) după aplicarea metodei

regresiei. Calculul său porne te de la descompunerea dispersiei totale σ 2
y

pe factori de influenŃă:

• dispersia valorilor empirice faŃă de valorile teoretice:

σ 2 yˆ = ( yi − yˆx )2 ;
y/

( )•
dispersia valorilor teoretice faŃă de medie: σ 2 y = yˆx − y 2 .
yˆ /

RelaŃia dintre dispersii va fi:

σ 2 = σ 2 yˆ +σ 2 y , (6.8)
y y/ yˆ /

∑ ∑sau ( y − y)2 = ∑( y− yˆx ) 2 + ( yˆx − y)2 (6.9)

nn n

unde:

–σ 2 = dispersia totală, arată influenŃa variaŃiei tuturor factorilor
y

asupra variabilei rezultative (y);

– σ 2 / yˆ = dispersia reziduală, arată influenŃa factorilor ce au fost
y

consideraŃi constanŃi;

– σ 2 y = dispersia sistematică, arată influenŃa factorului (x) asupra
yˆ /

variabilei rezultative y. Cu cât această dispersie are o pondere mai mare în

dispersia totală, cu atât legătura dintre variabile este mai puternică.

Gradul de intensitate al corelaŃiei dintre fenomene se obŃine stabilind

greutatea specifică a dispersiei formată pe baza factorului înregistrat faŃă de

dispersia totală. Indicatorii care se formează sunt:

Coeficientul de determinaŃie (R 2 / y ) se obŃine cu relaŃia:


(( )) ( )∑∑ ∑∑Ry2ˆ / y=σ2/ y = yˆx − y 2 =1− (y − yˆx )2 (6.10)
yˆ y− y 2
y−y 2
σ 2
y

186

Coeficientul de nedeterminaŃie (K 2 / yˆ ) se obŃine cu relaŃia:
y

2∑∑( )K = σ 2 / yˆ = (y − yˆx )2 (6.11)
y y
y− y 2
/ yˆ σ 2
y

Suma celor doi coeficienŃi este 1, ei fiind consideraŃi ca mărimi
relative de structură.

Ry2ˆ / y + K 2 yˆ =1 (6.12)
y/

Coeficientul de determinaŃie se mai poate calcula:

R2 = 1 − K 2 =1− σ2 (6.13)
yˆ / y y y / yˆ

/ yˆ σ 2
y

Dacă extragem rădăcina pătrată din coeficientul de determinaŃie
pentru a se aduce la acela i grad valorile empirice i cele teoretice, se obŃine
raportul de corelaŃie.

Raportul de corelaŃie (R) care se obŃine cu formula:

− ∑ (y − yˆ x )2
∑ y−y
( )R = 1 2 (6.14)

OBSERVAłII!

• R ∈ [0,1], semnul lui R este dat de semnul coeficientului b din

funcŃia de regresie;
• Cu cât R se apropie mai mult de +1 sau -1, cu atât legătura este

mai puternică.

Coeficientul de corelaŃie (rxy). Este un indicator sintetic care
măsoară intensitatea legăturii dintre două variabile xi i yi. Se calculează ca
o medie a produselor abaterilor normale normate. Notând abaterile

normale normate zx i zy, obŃinem:

zx = xi − x ; zy = yi − y , relaŃia de calcul a coeficientului de
σx σy

corelaŃie fiind:

187

( )( )∑rxy =
xi − x yi − y (6.15)
nσ xσ y

În practică este mai folosită relaŃia:
[ ][ ]∑ ∑(∑ ) ∑∑∑ (∑ )rxy =
n xi yi − xi yi (6.16)

n xi2 − xi 2 n yi2 − yi 2

Altă relaŃie pentru calculul coeficientului de corelaŃie este cea care

utilizează covarianŃa cov(x,y). CovarianŃa este o metodă ajutătoare pentru

măsurarea legăturilor statistice i se obŃine ca o medie aritmetică a

produselor abaterilor variabilelor faŃă de media lor:

( )( )cov(x, y) = 1 ∑n x − x y − y (6.17)
n i=1

OBSERVAłII!

• CovarianŃă nulă: lipse te legătura de corelaŃie, variabilele sunt

independente.

• Semnul covarianŃei arată direcŃia legăturii:

– plus pentru legătură directă;

– minus pentru legătură inversă.

• Pe măsură ce intensitatea cre te, cre te i covarianŃa.
Folosind covarianŃa, coeficientul de corelaŃie are expresia:

rxy = cov(xi , yi ) (6.18)
σ σxi yi

ProprietăŃile coeficientului de corelaŃie:
• ia valori în intervalul [-1,1] i indică sensul i intensitatea legăturii;

• dacă rxy ∈ [0,1] legătura este directă;
• dacă rxy ∈ [−1,0] legătura este indirectă, inversă;

• dacă rxy → 0 variabilele sunt independente sau necorelate;

• dacă rxy → ±1 corelaŃia este puternică, iar valorile yi se grupează

în jurul dreptei de regresie;

188

• dacă legătura este liniară rxy = R i se va calcula numai rxy pentru
exprimarea intensităŃii legăturii;

• dacă rxy # R , atunci legătura este neliniară i se va calcula numai R;
• dacă ne interesează doar intensitatea într-o legătură liniară se poate

calcula doar rxy , fără a mai calcula funcŃia de regresie.

6.4. InferenŃă statistică în cadrul modelului liniar

Parametrii modelului, i deci modelul în ansamblu, sunt obŃinuŃi pe
baza datelor dintr-un e antion de observaŃii. De aceea este necesară
verificarea rezultatelor obŃinute prin teste statistice.

6.4.1. Validarea modelului de regresie cu testul F

Pentru a verifica, din punct de vedere statistic, modalitatea în care
modelul specificat reu e te să conducă la reconstituirea valorilor empirice
yi prin valorile teoretice yˆi se folose te testul F3.

Construirea testului se bazează pe descompunerea abaterii (yi − yˆ ) .

Rezultatele sunt sintetizate în tabelul 6.1.

Tabelul 6.1

VariaŃia Suma pătratelor Grade de Dispersia
libertate
∑ ( )Explicată prin ( )∑S
k-1
model
yˆ x − y 2 2 = yˆ x − y 2
y k −1

∑Neexplicată (y − yˆx )2 n-k ∑(y − yˆ x )2
−k
S 2 = n
r

∑ ( )Total n-1 -
yi − y 2

3 Isaic-Maniu A., Korka M., Voineagu V., MitruŃ C., Statistică, Editura
IndependenŃa Economică, Brăila, 1998.

189

Testul F pentru regresia liniară:

K = numărul parametrilor modelului;

n = numărul de valori perechi.

Variabila F se define te ca raport de dispersii: Fcalc = S 2 (6.19)
y

S 2
r

i urmează o distribuŃie F cu (k-1) i (n-k) grade de libertate.

Pentru un anumit nivel de semnificaŃie, corespunzător gradelor de

libertate se determină, din tabelul funcŃiei F, valoarea teoretică Fα;k-1;n-k
(în tabel va fi Fα, f1,f2).

Dacă:

– Fcalc > Fα;k-1;n-k modelul este validat;
– Fcalc < Fα;k-1;n-k modelul este invalidat.

6.4.2. Verificarea semnificaŃiei coeficientului corelaŃiei simple
cu testul t

Verificarea coeficientului de corelaŃie simplă, care s-a utilizat pentru

aflarea intensităŃii legăturii, se face cel mai frecvent prin utilizarea testului t:

tcalc = rxy n−2 (6.20)
1 − rx2y

unde: n = volumul e antionului;

rxy = coeficientul de corelaŃie liniară simplă.
Valoarea calculată se compară cu cea tabelară stabilită probabilistic

pentru un nivel de semnificaŃie α i cu n-2 grade de libertate. Dacă:

– tcalc > ttabelar se verifică ipoteza semnificaŃiei relaŃiei de corelaŃie;
– tcalc < ttabelar legătura este nesemnificativă i trebuie căutat un alt
factor esenŃial cu care să se studieze corelaŃia.

6.5. Regresia i corelaŃia curbilinie simplă

În acest caz, legătura dintre o variabilă dependentă (y) i una

independentă (x) se exprimă printr-o funcŃie neliniară: (6.21)
Parabolă de gradul II: yx = a + bx + cx2

190

Pentru determinarea parametrilor funcŃiei de regresie se utilizează

metoda celor mai mici pătrate:
∑(yi – (a + bx + cx2)) 2 = minim

care conduce la sistemul de ecuaŃii normale:

na + b∑x + c∑x2 = ∑y (6.22)
a∑x + b∑x2 + c∑x3 = ∑ xy
a∑x2 +b∑x3 + c∑x4 = ∑ x2y

Se rezolvă sistemul de ecuaŃii normale prin metoda determinanŃilor i

se calculează valoarea celor trei parametrii, iar în funcŃie de valoarea

individuală a lui x se ajustează valorile caracteristicii rezultative.

Hiperbola: yx = a + 1 ⋅b (6.23)
x

Prin aplicarea metodei celor mai mici pătrate se ajunge la sistemul de

ecuaŃii necesar aflării parametrilor funcŃiei:

na + b∑1/x= ∑y

a∑1/x + b∑1/x2 = ∑ 1 ⋅ y (6.24)
x (6.25)

FuncŃia exponenŃială: yx = a . bx

În acest caz, mai întâi se logaritmează funcŃia:
log y = log a + x .log b

Astfel, s-a ajuns la o ecuaŃie de estimare de forma unei linii drepte,

calculată pe baza logaritmilor lor.

Utilizând metoda celor mai mici pătrate, se obŃine sistemul:

n log a + logb∑x = ∑log y (6.26)
log a∑x + log b∑x2 = ∑ (xlog y)

Prin rezolvarea sistemului se obŃine log a i log b, iar prin
antilogaritmare, cei doi parametrii a i b.

191

Intensitatea legăturii pentru corelaŃia neliniară se calculează cu
ajutorul raportului de corelaŃie:

( )R =1−∑( y− yˆ x )2
∑ y− y
2

Reprezentarea grafică a acestor funcŃii neliniare se face în figura 6.4.

a) funcŃia b) funcŃia c) funcŃia
exponenŃială hiperbolică parabolică

Figura 6.3. Modelul matematic al funcŃiilor de regresie neliniare

6.6. Regresia i corelaŃia multiplă

Regresia multiplă poate fi exprimată printr-o funcŃie liniară sau o

funcŃie curbilinie. În cazul regresiei liniare multiple se porne te de la

ipoteza dependenŃei variabilei y de variabilele factoriale x1, x2,…, xn i
independenŃa reciprocă a acestora din urmă. Stabilirea ecuaŃiei de regresie

multiplă se face pe baza analizei existenŃei i a formei de legătură dintre

variabilele incluse în modelul de corelaŃie luate două câte două folosind

corelograma. FuncŃia de regresie are forma generală:

yˆ x1...xn = a0 + a1 x1 + ... + an xn (6.27)
SemnificaŃia parametrilor:

a0 = termenul liber cu caracter de medie, exprimă influenŃa factorilor

neînregistraŃi consideraŃi cu acŃiune constantă cu excepŃia caracteristicilor

factoriale x1, x2,…, xn, incluse în modelul de regresie.

192

a1, a2 ,..., an = sunt denumiŃi coeficienŃi de regresie; arată cu cât se

modifică variabila y, când variabila factorială respectivă x1, x2,…, xn se
modifică cu o unitate.

Parametri se determină cu sistemul:

∑ ∑ ∑na0 + a1 x1 + ... + an xn = y

∑ ∑ ∑ ∑a0 x2
x1 + a1 11 + ... + an x1xn = x1 y (6.28)

∑ ∑ ∑ ∑a0 xn + a1 x1xn + ... + an xn2 = xn y

Intensitatea legăturii se calculează cu ajutorul raportului (coeficientului)
de corelaŃie multiplă.

Coeficientul de corelaŃie multiplă se determină cu ajutorul
coeficienŃilor de corelaŃie simplă dintre variabilele perechi. Astfel, în cazul
corelaŃiei dintre o variabilă rezultativă y i două variabile independente x1 i
x2, coeficientul de corelaŃie multiplă, notat cu ryx1x2 , se poate calcula la

nivelul unui e antion după relaŃia:

R yx1x2 = ry2x1 + ry2x2 − 2ryx1ryx2 ⋅ rx1x2 (6.28.a)
1− rx21x2 (6.28.b)

unde: ryx1 = n∑x1y−∑x1∑ y

 ∑ x12 − ∑ x1 2   n ∑ y2 −(∑ y)2 
   
n    



ryx2 = n ∑ x 2y−∑ x 2 ∑ y

 ∑ x 2 − ∑ x2 2   ∑ y2 −(∑ y)2 
2   
n   n 

 

rx1x2 = n ∑ x1x 2 −∑ x1∑ x 2

 ∑ x12 − ∑ x1 2   ∑ x 2 − ∑ x 2 2 
  2 
n   n 
 
  


Dacă , ryx1x 2 = 0 atunci R yx1x2 = ry2x1 + ry2x2 .

193

Raportul de corelaŃie multiplă se poate calcula cu relaŃia:

( ( ) )R yx1x2 =∑ 2
yi − yx1 yx2
1− ∑ yi − y 2 (6.28.c)

Raportul de corelaŃie multiplă se poate calcula pe baza estimaŃiilor

parametrilor ecuaŃiei de regresie multiplă, formula stabilindu-se după

modelul regresiei multiple aplicat.

Pentru o corelaŃie multiplă liniară dintre y i x1 x2:

yx1x2 = a + a1x1 + a2 x2

raportul de corelaŃie devine:

(∑ )an∑y + a1n ∑ + a ∑ x 2y − 1 y2
x1y 2n n (6.28.d)

R yx1x2 = ∑ y2 − 1 (∑ y)2
n

6.7. Metode neparametrice de măsurare a intensităŃii legăturilor
dintre fenomene

Dacă distribuŃiile caracteristicilor corelate nu sunt de tip normal sau
dacă caracteristicile nu se exprimă numeric, pentru măsurarea intensităŃii
corelaŃiei se folosesc metode neparametrice.

Metodele neparametrice se folosesc:
– dacă variabilele se exprimă prin cuvinte, sau o variabilă este
calitativă i alta cantitativă, sau ambele sunt cantitative, dar nu există
suficiente date pentru a se cunoa te forma de distribuŃie;

–sunt asimetrice;
–nu au o distribuŃie normală sau asimptotic normală.

6.7.1. Coeficientul de asociere

Această metodă se utilizează, în special, când unităŃile purtătoare ale
caracteristicilor sunt separate în două grupe sau sunt de forma unor
caracteristici alternative (de tipul da-nu).

Coeficientul se asociere se calculează pe baza tabelului de asociere,
care permite analiza nu numai a caracteristicilor exprimate numeric, dar i a
celor calitative.

194

Tabelul de asociere este format din 2 rânduri i 2 coloane. În capetele
rândurilor i coloanelor se trec variantele celor două caracteristici care se
supun asociaŃiei, iar în interiorul tabelului se trec frecvenŃele cores-
punzătoare (tabelul 6.2).

Tabelul 6.2

x \ y y1 y2 Total

x1 a b a+b

x2 c d c+d

Total a+c b+d a+b+c+d

Produsul ad arată gradul de realizare a legăturii directe dintre x i y.

Produsul bc arată gradul de legătură inversă între aceste două

caracteristici cercetate.

Coeficientul de asociere se calculează cu formula lui Yulle:

Q = ad − bc , ∈ [−1,1] (6.29)
ad + bc

OBSERVAłII4!
• Când ad-bc = 0, înseamnă independenŃă de asociere.
• Asocierea completă poate apărea astfel:

1) asociere completă absolută (Q=1)
a0
0d

2) asociere completă cu sens pozitiv (Q=1)
ab
0d

3) asociere completă absolută (Q= -1)
ab
c0

4. asociere completă cu sens negativ (Q = -1)
0b
cd

4 Interpretări ale coeficientului de asociere fundamentate din lucrarea
Statistică, Biji E., Wagner P., Lilea E., Vătui M., Petcu N., Editura Didactică
i Pedagogică, Bucure ti, 1999.

195

• Interpretarea coeficientului Q, ce aparŃine intervalului [−1,1], este

la fel ca la coeficientul de corelaŃie rxy.
• Avantajul coeficientului Q este că se poate calcula cu rapiditate,

chiar i când datele provin din unităŃi statistice cu forme diferite de
distribuŃie în interiorul lor.

6.7.2. CoeficienŃii de corelaŃie ai rangurilor

Ace ti coeficienŃi nu se calculează pe baza valorilor individuale ale
variabilelor, ci pe baza numărului lor de ordine, numit rang. Rangurile se
obŃin după ce s-au ordonat datele individuale (crescător, descrescător),
astfel încât va trebui să vedem în ce măsură există, la nivelul fiecărei
unităŃi, concordanŃă între rangurile caracteristicii factoriale de la 1 la n cu
rangurile caracteristicii rezultative tot de la l la n.

Pentru calculul coeficientului de corelaŃie a rangurilor se pot folosi
formulele lui Spearman i Kendall.

Coeficientul lui Spearman se determină cu relaŃia:
(∑ )rs
=1− 6 d 2 ∈ [− 1,1] (6.30)
n n2 i

−1

unde: di = este diferenŃa de rang între variabilele corelate pentru
aceea i unitate de observare;

n = numărul perechilor de valori corelate.

Pentru calculul lui se parcurg două etape:
–se stabilesc rangurile pentru cele două caracteristici Rx i Ry
– se calculează diferenŃele de rang: di = Rx - Ry.

Interpretarea coeficientului lui Spearman ce aparŃine intervalului

[−1,1] este la fel cu a coeficientului de corelaŃie rxy.

Coeficientul de corelaŃie Kendall se calculează în felul următor:
–se ordonează perechile de valori (crescător, descrescător) după

caracteristica independentă (x);
–se stabilesc ranguri pentru cele două caracteristici: Rx i Ry
–pentru fiecare Ry se calculează 2 indicatori:
• Pi numărul de ranguri superioare lui Ry
• Qi numărul de ranguri inferioare lui Ry
• se calculează scorul Si= Pi - Qi i S = ∑ Si.

196

Coeficientul de corelaŃie Kendall se calculează cu relaŃia:

= 2S ∈ [− 1,1] (6.31)
n −1
( )rkn

OBSERVAłIE!
• Interpretarea intervalului de variaŃie al coeficientului Kendall

∈[−1,1] este la fel ca a coeficientului de corelaŃie rxy;

• Coeficientul lui Kendall este de obicei mai mic decât cel calculat
după formula lui Sperman.

CONCEPTE-CHEIE: regresia; corelaŃia; corelogramă; coeficient
de corelaŃie (rxy); raport de corelaŃie (Rxy); coeficient de asociere (Q);
coeficienŃii rangurilor Spearman i Kendall.

ÎNTREBĂRI DE AUTOEVALUARE

1. Care sunt tipurile de legături statistice dintre variabilele ce descriu
fenomene economico-sociale?

2. Prin ce se caracterizează legăturile statistice?
3. Ce legături statistice avem după numărul de caracteristici independente

luate în calcul? DescrieŃi aceste legături.
4. Ce legături statistice cunoa teŃi în funcŃie de direcŃia legăturilor?

Exemple.
5. Cum definiŃi legăturile statistice după exprimarea lor analitică? DefiniŃi

i exemplificaŃi aceste legături.
6. Ce noŃiuni de bază folosite în analiza de corelaŃie cunoa teŃi? DefiniŃi

aceste noŃiuni.
7. DescrieŃi metodele simple utilizate pentru verificarea existenŃei

legăturii. Exemple.
8. Cum se reprezintă grafic legătura dintre două variabile statistice? Ce se

poate analiza cu ajutorul graficului?
9. Când utilizăm metoda regresiei?
10. Care este semnificaŃia (statistică, geometrică) a parametrilor mode-

lului de regresie?
11. Cum se măsoară intensitatea legăturii:

− cazul legăturii liniare;
− cazul legăturii neliniare.

197

12. Între ce limite ia valori coeficientul de corelaŃie? Ce semnificaŃie are
intervalul de variaŃie rxy?

13. Ce semnificaŃie are raportul de corelaŃie?
14. Cum se poate verifica ipoteza liniarităŃii legăturii?
15. Când se utilizează metodele parametrice pentru analiza legăturilor

dintre variabilele statistice?
16. Cum verificăm validitatea modelului de regresie folosit?
17. Cu ce verificăm semnificaŃia coeficientului corelaŃiei simple?
18. Când se utilizează metode neparametrice pentru analiza legăturilor

dintre variabilele statistice?
19. Care sunt cele mai folosite metode neparametrice?
20. Când se utilizează coeficientul de asociere propus de Yulle?
21. Ce înŃelegeŃi prin ranguri i care sunt cei mai folosiŃi indicatori ai

rangurilor?
22. Ce înŃelegeŃi prin elasticitate? Dar prin coeficientul de elasticitate?
23. ComentaŃi situaŃiile rezultate din valorile limită ale coeficienŃilor de

elasticitate.
24. Coeficientul de corelaŃie liniară se află în relaŃie de directă

proporŃionalitate cu:
a) covarianŃa;
b) abaterea standard calculată pentru variabila factorială;
c) abaterea standard calculată pentru variabila rezultativă;
d) volumul datelor studiate ;
e) este un indicator independent.
25. Atunci când coeficientul de corelaŃie ia valoarea 1:
a) legătura este de tip funcŃional;
b) variabilele sunt independente;
c) corelaŃia este puternică;
d) legătura este liniară.
26.Coeficientul de corelaŃie, calculat pentru o legătură liniară, poate lua
valori în mulŃimea:
a) (-1,0);
b) (0,1);
c) mulŃimea numerelor întregi pozitive;
d) mulŃimea numerelor reale pozitive.

198


Click to View FlipBook Version