The words you are searching are inside this book. To get more targeted content, please make full-text search by clicking here.

LIBRO COMPLETO - ESTADISTICA DESCRIPTIVA BASICA ed_1 libro ok 4

Discover the best professional documents and content resources in AnyFlip Document Base.
Search
Published by LUIS ARTURO, 2021-02-26 22:11:05

LIBRO COMPLETO - ESTADISTICA DESCRIPTIVA BASICA ed_1 libro ok 4

LIBRO COMPLETO - ESTADISTICA DESCRIPTIVA BASICA ed_1 libro ok 4

Docenas acopiadas fi Fi Medidas de tendencia central
2016
9 3 3 Información adi-
9+C 10 13 cional
9+2C 17 30
12 42 C:constante
9+3C 23 65
88 153
9+4C = 25
153
Totales

Entonces:

9+4C=25

Despejando obtenemos C=4

Docenas acopiadas fi Fi Información
2016 adicional

9 33

13 10 13

17 17 30 C:constante
21 12 42

25 23 65

Totales 88 153

153

b) Si la docena de bufandas tuvo un precio permanente de S./ 60.00 durante
todo el periodo (2015 -2016), ¿Cuánto dinero debió asignar aproximadamente
para cada año de acopio de bufandas?

Solución:

Para el año 2015

Estadística Descriptiva Básica ~ 89 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

K

 fiX i =total docenas de bufandas en el 2015

i=1
K

 fiX i =(3) 12.5 +(12)(17.5)+(13)(22.5)+(13)(27.5)+...+(3)(37.5)

i=1
K

 fiX i =1400

i=1

Entonces:
Dinero asignado para el año 2015 en el acopio de bufandas:
=(1400)(60)=S/84000

Para el año 2016

K

 fi X i  total docenas de bufandas en el 2016

i 1
K

 fi X i  (3) 9   (10)(13)  (17)(17)  (12)(21)  (23)(25)

i 1
K

 fi X i  1273

i 1

Entonces :
Dinero asignado para el año 2016 en el acopio de bufandas :
 (1273)(60)  S/ 76380

c) Si también durante el mismo periodo (2015-2016) el acopio promedio total
de docenas chompas fue de 55 docenas más que el promedio total de doce-
nas de bufandas a un precio de S/. 75 y el promedio total de docenas de gorras
acopiadas fue 30% menos del promedio total de docenas de chompas a un
precio de S/ 45. Determinar el costo promedio total global entre docenas de
gorras, bufandas y chompas acopiadas durante dicho periodo.
Solución:
Promedio total de chompas = Promedio total de bufandas + 55
Promedio total de bufandas (2015-2016) = media ponderada de los 2 años por
ser sub-promedios con tamaños de grupos distintos.

Estadística Descriptiva Básica ~ 90 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

Se representar como: X p  (xi )(ni )
ni

Siendo ni tamaño o peso de cada sub grupo de la Variable X y x i el promedio
parcial de cada grupo.

Xp  (X 2015 ).(n2015 )  (X 2016 ).(n2016 )
n2015  n2016

Para resolver primero determinamos los promedios en cada tabla.

Promedio de bufandas para el año 2015

X 2015 =
Promedio de bufandas para el año 2016

K
X 2016 fi Xi
=  1273  8.32
i 1 153

n

Ahora reemplazamos en:

X p  (X2015 ).(n 2015 )  (X2016 ).(n 2016 )
n2015  n2016

X p  (25).(56)  (8.32).(153)  1400 1273
25 153 178

X p  15.01  15

Entonces el promedio total de bufandas en dicho periodo = 15

Entonces el promedio total de chompas en dicho periodo =15+55 = 70

También el promedio total de docenas de gorras acopiadas fue 30% menos
del promedio total de docenas de chompas.

Entonces el promedio total de gorras en dicho periodo = 70-21=49.

Estadística Descriptiva Básica ~ 91 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

Costo promedio total global= (15).(60)+(70).(55)+(49)(45) = 6955
60+55+45 160

Costo promedio total global=S/43.46875

Cuartiles(ci)

Se denomina a si a los puntos que dividen a la información en cuatro partes
iguales, representados por Cuartil1 (C1), Cuartil2 (C2), Cuartil3 (C3). Cada uno
se ubica en una parte específica de la información. Es importante indicar que
el C2 se ubica justo donde se encuentra la mediana (punto medio de la distri-
bución).

Cuartil 1 (C1): deja el 25% de la información atrás y tiene por delante el 75%
de la información, se representa gráficamente de la siguiente forma:

25 %
C3 Cuartil 3 (Límite Superior)

25 %

C2 Cuartil 2
25 %
Centro de la Distri-
bución

C1 Cuartil 1 (Límite Inferior)

25 %

Para determinar su valor usamos la siguiente formula:

 n  FK 1 
. 4 
C1  Linf  A  
FK  FK 1 

Estadística Descriptiva Básica ~ 92 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

Dónde:
Linf = Límite inferior de la clase que contiene al C1
n = representa al número total de datos
Fk = Frecuencia absoluta acumulada que contiene al C1
Fk 1 = Frecuencia absoluta acumulada anterior a la que contiene al C1
A = Amplitud de la clase que contiene al C1
En situaciones en que no se conoce “n”, aplicamos la siguiente formula:

 1  HK 1 
. 4 
C1  Linf  A  
H K  H K 1 

Dónde:

Linf = Límite inferior de la clase que contiene al C1

n = representa al número total de datos

Hk = Frecuencia relativa acumulada que contiene al C1

H k 1 = Frecuencia relativa acumulada anterior a la frecuencia relativa que

Contiene al C1

A = Amplitud de la clase que contiene al C1

Cuartil 2 (C2): el cuartil 2 se ubica al centro de la distribución, por tanto este
tiene el valor de la Mediana. Interpretativamente se puede decir que deja el
50% de la información atrás y tienen por delante el otro 50% de la información,
se representa gráficamente de la siguiente forma:

Estadística Descriptiva Básica ~ 93 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

25 %
C3 Cuartil 3 (Límite Superior)

25 %

C2 Cuartil 2
25 %
Centro de la Distri-
bución

C1 Cuartil 1 (Límite Inferior)

25 %

Para determinar su valor usamos la siguiente formula:

 n  FK 1 
. 2 
C2  Linf  A  
FK  FK 1 

Dónde:

Linf = Límite inferior de la clase que contiene al C2
n = representa al número total de datos
Fk = Frecuencia absoluta acumulada que contiene al C2
Fk 1 = Frecuencia absoluta acumulada anterior a la clase que contiene C2
A = Amplitud de la clase que contiene al C2

Estadística Descriptiva Básica ~ 94 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

En situaciones en que no se conoce “n”, aplicamos la siguiente formula:

 1  H K 1 
.  2 
C2  Linf  A  
H K  FK 1 

Dónde:
Linf = Límite inferior de la clase que contiene al C2

n = representa al número total de datos

Hk = Frecuencia relativa acumulada que contiene al C2

H k 1 = Frecuencia relativa acumulada anterior a la frecuencia relativa

Acumulada que contiene al C2

A = Amplitud de la clase que contiene al C2

Cuartil 3 (C3): Se denomina cuartil 3 al valor que deja atrás las tres cuartas
partes de la información es decir el 75% atrás y tiene por delante el 25% de la
información del total, se representa gráficamente de la siguiente forma:

25 %
C3 Cuartil 3 (Límite Superior)

25 %

C2 Cuartil 2
25 % Centro de la Distri-
bución

C1 Cuartil 1 (Límite Inferior)

25 %

Estadística Descriptiva Básica ~ 95 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

C3  Linf  A  3n  FK 1 
.  FK 1 
 4 
FK 

Dónde:

Linf = Límite inferior de la clase que contiene al C3
n = representa al número total de datos
Fk = Frecuencia absoluta acumulada que contiene al C3
Fk 1 = Frecuencia absoluta acumulada que contiene al C3
A = Amplitud de la clase que contiene al C3
En situaciones en que no se conoce “n”, aplicamos la siguiente formula:

 3  H K 1 
 4 
C3  Linf  A .  
H K  H K 1 


Dónde:
Linf = Límite inferior de la clase que contiene al C3
n = representa al número total de datos
Hk = Frecuencia relativa acumulada que contiene al C3
H k 1 = Frecuencia relativa acumulada anterior a la frecuencia relativa

Acumulada que contiene al C3
A = Amplitud de la clase que contiene al C3

Estadística Descriptiva Básica ~ 96 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

Deciles(Di).- El concepto de decil se refiere a los valores que dividen un grupo
de datos en diez partes iguales, y de manera que cada parte representa un
décimo del total de la información. En resumen, los deciles son cada uno de
los nueve valores que dividen un conjunto de datos en diez partes iguales. Por
tanto se tendrá Dc1, Dc2, Dc3, Dc4, Dc5, Dc6, Dc7, Dc8, Dc9, a continuación se
representa gráficamente los deciles.

Dc9 10 % Decil 5
Dc8 10 % Centro de la dis-
Dc7 10 % tribución

Dc6 10 % 0%
Dc5 10 %
Dc4 10 %
Dc3 10 %

Dc2 10 %

Dc1 10 %

10 %

 (i)(n)  FK 
 10 
Di Linf A.  1 

  FK  FK 1



Dónde:

Linf = Límite inferior de la clase que contiene al Di

n = representa al número total de datos

Fk = Frecuencia absoluta acumulada que contiene al Di

Fk 1 = Frecuencia absoluta acumulada que contiene al Di

A = Amplitud de la clase que contiene al Di

Estadística Descriptiva Básica ~ 97 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

En situaciones en que no se conoce “n”, aplicamos la siguiente formula:

 i  H K 1 
 10 
Di  Linf  A .  
H K  H K 1 


Dónde:
Linf = Límite inferior de la clase que contiene al Di
n = representa al número total de datos
Hk = Frecuencia relativa acumulada que contiene al Di
H k 1 = Frecuencia relativa acumulada anterior a la frecuencia relativa

Acumulada que contiene al Di
A = Amplitud de la clase que contiene al Di

Percentiles(pi)

Los percentiles (Pi) dividen la información en 100 partes iguales cada valor Pi
indica el punto de división en una escala de 0 – 100, donde i es el i-ésimo
percentil. Este se usa para la interpretación porcentual unitaria de la distribu-
ción de datos siguiendo la siguiente secuencia:

El percentil 1 (P1) deja en 1% de la información atrás y tiene por delante el
99% de la información del total

El percentil 2 (P2) deja en 2% de la información atrás y tiene por delante el
98% de la información del total

El percentil 25 (P25) deja en 25% de la información atrás y tiene por delante el
75% de la información del total (importante indicar que este P25) se ubica en
la misma posición del cuartil 1)

(…)

El percentil 50 (P1) deja en 50% de la información atrás y tiene por delante el
50% de la información del total (importante indicar que este P50 se ubica en la
misma posición de la mediana, cuartil 2, decil 5)

Estadística Descriptiva Básica ~ 98 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

El percentil 51 (P51) deja en 51% de la información atrás y tiene por delante el
49% de la información del total

El percentil 60 (P60) deja en 60% de la información atrás y tiene por delante el
40% de la información del total (importante indicar que este P60 se ubica en la
misma posición del decil 6)

El percentil 99 (P99) deja en 99% de la información atrás y tiene por delante el
01% de la información del total.

P99 1%

P75

P50 este percentil se ubica también en D5 ; C2

P25

P1

 (i)(n)  FK 1 
.  100 
Pi  Linf  A  
FK  FK 1 

Dónde:

Linf = Límite inferior de la clase que contiene al Pi

n = representa al número total de datos

Fk = Frecuencia absoluta acumulada que contiene al Pi

Fk 1 = Frecuencia absoluta acumulada que contiene al Pi

Estadística Descriptiva Básica ~ 99 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

A = Amplitud de la clase que contiene al Pi
En situaciones en que no se conoce “n”, aplicamos la siguiente formula:

Pi  Linf  A .  i  H K 1 
  H K 1 
 100 
 HK 

Dónde:

Linf = Límite inferior de la clase que contiene al Pi
n = representa al número total de datos
Hk = Frecuencia relativa acumulada que contiene al Pi
H k 1 = Frecuencia relativa acumulada anterior a la frecuencia relativa

Acumulada que contiene al Pi
A = Amplitud de la clase que contiene al Pi

Quintiles(qi)

Los quintiles (Qi) dividen la información en 5 partes iguales; Q1, Q2, Q3, Q4 el
quintil 1(Q1) deja el 20% de la información y tiene por delante el 80% del total
de la información, de la misma manera el quintil 2(Q2) deja el 40% de la infor-
mación y tiene por delante el 60% del total de la información, análogamente
con Q3 y finalmente el Q4 deja el 80% de la información y tiene por delante el
20% del total de la información.

 (i)(n)  FK 
 5 
Qi Linf A .  1 

  FK  FK 1



Dónde:

Linf = Límite inferior de la clase que contiene al Q i
n = representa al número total de datos

Estadística Descriptiva Básica ~ 100 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

Fk = Frecuencia absoluta acumulada que contiene al Q i

Fk 1 = Frecuencia absoluta acumulada que contiene al Q i

A = Amplitud de la clase que contiene al Q i

Ejemplo 1:
Dada la siguiente distribución de edades del cuarto semestre de la escuela
profesional de Derecho de la UNAP.

Edades xi fi
[18 – 19> 18.5 2
[19 – 20> 19.5 5
[20 – 21> 20.5 7
[21 – 22> 21.5 3
[22 – 23> 22.5 1
Total
18

Se pide determinar:

a) La Media aritmética, Moda y Mediana

b) Se pide determinar el Cuartil 1, Cuartil 3, Percentil 10, Percentil 90

Solución

a) La Media aritmética, Moda y Mediana.

Para calcular la asimetría requerimos calcular la media, mediana, moda, cuar-
tiles y desviación estándar.

Primero calculamos la Media.

 f xk . i.
X  i1
i

n

Estadística Descriptiva Básica ~ 101 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

X  (18.5)(2)  (19.5)(5)  (20.5)(7)  (21.5)(3)  (22.5)(1)  365
18 18

X  20.277777778

X  20.27

Ahora calculamos la Moda, para lo cual identificamos la clase modal, bus-
cando la frecuencia relativa más alta en la distribución.

Edades xi fi
[18 – 19> 18.5 2
[19 – 20> 19.5 5 (f1)
[20 – 21> 20.5 7 (fmo)
[21 – 22> 21.5 3 (f2)
[22 – 23> 22.5 1
Total
18

L AUXU + U . 1 
 1  2 
X X 

Reemplazando tenemos: U  20 + 1 . ( 2 4 )
2
X

U

X  20.33

Calculamos la mediana X

Edades xi fi Fi P10
[18 – 19> 18.5 2 2 Q1
5 7
[19 – 20> 19.5 X~ ; Q3
7 14 P90
[20 – 21> 20.5
3 17
[21 – 22> 21.5 1 18
22.5 18
[22 – 23>
Total

Estadística Descriptiva Básica ~ 102 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

L A F FFX~   n   18
. 2 K 1  2
X~ + X  ; Entonces tenemos: 9
K 
 K 1 

X~  20 + 1.  97 
 14  7 

X~  20.2857
b) Se pide determinar el Cuartil 1, Cuartil 3, Percentil 10, Percentil 90
Calculamos el C1

L A F FFC1   n 4   18
C1.  K1  4
C1 + K K1  ; Entonces tenemos:  4.5


C1  19 + 1.  4.5  2 
 7  2 

Q1  19.5
Calculamos el C3

L A F FFC3  C3 +  3n 4   (3)(18)
.  K 1  4
C 3  K K 1  ; Entonces tenemos:  13.5 ;

C3  20+ 1.  13.5  7 
14  7 

C3  20.9285

Estadística Descriptiva Básica ~ 103 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

Calculamos el P10

L A F FFPi  Pi +  (i)(n)   (10)(18)
. 100 K1  100
P  ; Entonces tenemos:  1.8 ;
i K 
K1 

P10  18 + 1.  1.8  2 
 22 

P10  18

Calculamos el P90

L A F FFPi   (i)(n)   (90)(18)
. 100 K1  100
Pi + P  ; Entonces tenemos:  16.2 ;
i K 
K1 

P90  21 + 1.  16.2 14 
 17 14 

P90  21.7333333

Estadística Descriptiva Básica ~ 104 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

EJERCICIOS PROPUESTOS

01.- Dada la siguiente distribución de edades de un grupo de 30 estudiantes de la
carrera profesional de Ingeniería en energías renovables de la UNAJ, deter-
minar (C1), (C2), (C2). A continuación los datos.

21, 18, 19, 19,20, 24, 18, 18, 24, 19, 19, 23, 19, 19, 18,
23, 20, 20, 19, 23, 21, 22, 23, 18, 24, 21, 20, 20, 18, 27.

02.- Según fuente del INEI el departamento de Puno tuvo en el año 2000 una
población de 1223955 habitantes y en el año 2015 tuvo 1415608 habitantes,
determinar la población promedio del referido periodo.

03.- Durante un trabajo de investigación se han realizado múltiples mediciones
(temperatura en grados centígrados máximos y mínimos) registrados durante
100 días, con el propósito de buscar algún cambio brusco, producto del fenó-
meno el niño, en comparación a años posteriores. Del cual se pide:

a) Determinar el promedio entre las máximas y mínimas temperaturas.
b) Determinar la temperatura que es excedido por el 75% de las temperaturas
c) Determinar la temperatura que es excedido por el 90% de las temperaturas
d) Determinar la temperatura que excede al 10% de las temperaturas
e) Determinar la temperatura que excede al 97% de las temperaturas

Temperaturas Mínimas en C°

-08 -08 -07 -07 -07 -06 -05 -08 -08 -05 -07 -04 -06 -05 -08 -08 -04 -07 -05 -06
-07 -07 -07 -08 -07 -06 -05 -06 -08 -08 -05 -07 -06 -05 -08 -08 -07 -08 -08 -06
-08 -08 -08 -08 -07 -06 -06 -07 -07 -07 -07 -07 -06 -05 -06 -05 -06 -06 -07 -06
-06 -06 -06 -05 -05 -06 -05 -08 -06 -07 -07 -07 -07 -08 -08 -08 -08 -08 -06 -07
-05 -05 -07 -06 -05 -06 -07 -08 -07 -05 -06 -07 -08 -08 -08 -08 -07 -06 -06 -06

Temperaturas Máximas en C°

22 21 21 21 21 21 20 22 19 23 22 20 21 20 20 20 20 20 21 22
21 20 21 20 22 21 22 22 20 22 22 20 21 22 23 20 24 19 21 23
19 20 20 22 21 21 21 22 22 22 22 21 21 21 21 20 20 20 20 20
20 20 21 20 20 21 21 21 21 22 22 22 20 20 20 20 20 20 20 21
22 20 22 20 21 21 21 22 22 22 22 20 20 21 21 21 21 22 22 22
20 20 20 20 20 21 22 22 22 23 23 20 19 20 22 20 22 19 20 21

Estadística Descriptiva Básica ~ 105 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

04.- Un corredor de bolsa en mayo del 2016 requiere hacer un análisis sobre el
estado actual del tipo de cambio del dólar (compra y venta), para lo cual se-
gún Sunat dispone de los datos del mes de abril. Se pide determinar:

a) El tipo de cambio que excede al 99% del total de tipos de cambios Registra-
dos

b) El tipo de cambio medio del total de tipos de cambio registrados
c) El tipo de cambio promedio para la compra y tipo de cambio promedio para

la venta.
d) Determine el tipo de cambio que prevalece más en el periodo, el cual excede

al 90% del total de registros.
e) Determine el tipo de cambio que tiene mayor presencia en el periodo.

Día Compra Venta Día Compra Venta

1 3.323 3.328 16 3.274 3.276

2 3.338 3.344 17 3.274 3.276

3 3.338 3.344 18 3.274 3.276

4 3.338 3.344 19 3.276 3.278

5 3.349 3.352 20 3.249 3.254

6 3.358 3.36 21 3.248 3.25

7 3.374 3.376 22 3.253 3.256

8 3.402 3.403 23 3.267 3.272

9 3.379 3.392 24 3.267 3.272

10 3.379 3.392 25 3.267 3.272

11 3.379 3.392 26 3.277 3.279

12 3.321 3.326 27 3.281 3.285

13 3.274 3.277 28 3.287 3.29

14 3.268 3.271 29 3.277 3.28

15 3.272 3.275 30 3.271 3.274

Estadística Descriptiva Básica ~ 106 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

05.- Dada la siguiente distribución de frecuencias simétrica.

Intervalos de Frecuencias Relativas Frecuencia Relativa
Clase acumulada

[ 0,10 - 0,20>

[ 0,20 - 0,30>

[ 0,30 - 0,40>

[ 0,40 - 0,50> 0,40

[ 0,50 - 0,60> h5 0.95
[ 0,60 - 0,80>
h6

[ 0,80 - 1,00>

Determinar los valores que faltan si la media aritmética de la distribución es
0,4625.

06.- Durante un trabajo de investigación se han realizado múltiples mediciones
referente a las temperaturas en Cº durante 60 días, con el propósito de bus-
car algún cambio brusco producto del fenómeno el niño.

23 18 34 37 36 36 31 32 24 22 34 31 32 24 27 31 20 31 35 31
21 34 34 17 36 35 32 30 24 21 34 31 37 24 29 31 28 35 37 30
27 35 34 37 37 36 33 32 34 31 34 36 32 31 27 16 33 36 36 34

Se pide determinar:

a) La distribución de frecuencias univariado
b) Interprete la distribución de frecuencias
c) Realice el histograma y grafico de sectores.

07.- Según fuente del INEI el departamento de Puno tuvo en el año 2000 una
población de 1223955 habitantes y en el año 2016 tuvo 1415608 habitantes,
se pide determinar:

a) La población que es excedido por el 75% del total poblacional del periodo
2000 - 2016

b) La población que excede al 75% del total poblacional del periodo 2000 - 2016
c) La población estimada para el año 2001. 2000 – 2016
d) La población promedio del referido periodo

Estadística Descriptiva Básica ~ 107 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de tendencia central

08.- Dada la siguiente tabla de frecuencias sobre notas de egresados de la uni-
versidad de Lima. Determinar los valores que faltan, sabiendo que la
distribución es simétrica y su amplitud es constante.

Intervalos Xi (Marca de clase) fi Fi Información adicional

[->

[ - > 30 8
[-> El número total de no-
[-> tas es 30

28

[ - > 90

Donde:
Marca de clase = (Ls + Li ) / 2
Ls: límite superior de la clase i
Li: límite inferior de la clase i

Estadística Descriptiva Básica ~ 108 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

CAPITULO III

MEDIDAS DE DISPERSIÓN DE DATOS

Varianza

La varianza se representa como una variable aleatoria en una distribución de
datos cuantificable, es una medida de dispersión con referencia a su media,
se define como el cuadrado de la desviación estándar, típica o error típico de
dicha variable respecto a su media.

La varianza está medida en unidades distintas de la variable, Por ejemplo, si

la variable mide distancias en metros, la varianza se expresa en metros al

cuadrado. La varianza tiene como valor mínimo 0, lo que significa que en la
distribución no existe heterogeneidad de datos, es decir no existe variación

alguna en los datos, por tanto varianza(constante) = 0, para su cálculo usamos

las siguientes formulas:

 k 2  k 2

f i xi  x f i xi  x
δ2  i1 ; S2  i1 n 1
n

Hacemos uso de n-1, cuando en el estudio se considera al grupo de datos
como muestral, de ser el caso poblacional tomar en cuenta n.

Desviación estándar o desviación típica

La desviación estándar es la raíz cuadrada de la varianza, es una medida de
dispersión alternativa expresada en las mismas unidades de los datos de la
variable objeto de estudio.

k 2 k  2
i1
i1 i  i  ;
n
f x x f x xδ = i  i 
S n 1

Estadística Descriptiva Básica ~ 109 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de dispersión de datos

Coeficiente de variación
También denominado coeficiente de dispersión, es medida relativa de disper-
sión, es útil para la comparación en términos relativos del grado de
concentración en torno a la media de dos distribuciones distintas, (se repre-
senta en valores porcentuales). Este esta dado por:
Coeficiente de variación = CVX = S x . 100

X

Nota:
CVX > 0.5 ;Indica alto grado de dispersión(significa:baja concentración de da-
tos )
CVX < 0.5 ; Indica bajo grado de dispersión(significa:alta concentración de
datos)
Nota: es importante precisar que en el CVx otros autores toman como
parámetro de comparación 0.3, en el presente texto se usara 0.5 por cri-
terio técnico.
Utilidad del coeficiente de variación
El coeficiente de variación sólo se debe calcular para variables con todos los
valores positivos. Todo índice de variabilidad es esencialmente no negativo.
Debemos trabajar con variables positivas para asegurarnos de que la media
es mayor a cero (recuerda que una división entre cero es una indetermina-
ción).

Estadística Descriptiva Básica ~ 110 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de dispersión de datos

El coeficiente de variación también es muy útil al comparar dos o más conjun-
tos de datos que son medidos en las mismas unidades pero difieren hasta tal
punto que una comparación discreta de las respectivas desviaciones estándar
no es muy útil.

Ejemplo 1.- Se tiene dos grupos de datos tabulados previamente, de los cua-

les se sabe que X = 140 y σ = 28.28 y otra Y = 150 y σ = 24.

¿Cuál de las dos presenta mayor dispersión de datos?

¿Cuál de las dos presenta mayor Homogeneidad de datos?

CV1  28.28 .100  20.2%
140

CV2  24 .100  16%
150

Por tanto, la primera distribución representa mayor dispersión.

Ejemplo 2.- Dada la distribución de edades de un grupo de estudiantes de la
escuela profesional de Ingeniería de Textil correspondiente al I-SEM-2013 de
la UNAJ, se pide calcular la desviación típica de las edades.(tomar en cuenta
que estos datos son datos muéstrales tomados de la facultad de Ingenierías)

Edades xi fi
[16 - 17> 16.5 5
[16 – 18> 17.5 8
[18 – 19> 18.5 12
[19 – 20> 19.5 2
[20 – 21> 20.5 3
Total
30

Solución

Primero calculamos la Media.

k

f xi. i.

X= i=1 n

Estadística Descriptiva Básica ~ 111 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de dispersión de datos

X= (16.5)(5)+(17.5)(8)+(18.5)(12)+(19.5)(2)+(20.5)(3)
30

X=18.166666666667

X=18.17
Ahora calculamos la Varianza

 k fi xi - x 2
S2 = i=1
n-1

S2=

(5)(16.5-18.17)2 +(8)(17.5-18.17)2 +(12)(18.5-18.17)2 +(2)(19.5-18.17)2 +(3)(20.5-18.17)2

30-1

S2= 38.667  1.33 ; S= 1.153
29

Ahora calcular el coeficiente de variación de la distribución.

C.V. = S x .100 = 1.153 .100  6.3% , Esto nos indica bajo grado de disper-
18.17
X

sión, por tanto alto grado de concentración.

Varianza para n grupos de una población

Cuando se tiene n grupos de datos tabulados y además se dispone de n des-
viaciones, entonces es posible determinar la varianza total de los n grupos o
n sub-muestras (se determina la varianza de varianzas parciales), para su
cálculo se aplica la siguiente formula.

kk (ni ) (xi  X )2
 (si )2 (ni 1)
S 2  i1 N 1  i1 N 1 ... (I )

Los “n” grupos pueden tener tamaños diferentes, por tanto promedios parcia-
les y varianzas en cada grupo o sub-muestras, para aplicar este procedimiento

Estadística Descriptiva Básica ~ 112 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de dispersión de datos

se previamente determinar la media ponderada de todos los n grupos. A con-
tinuación se presenta las fórmulas para determinar la varianza de 2 grupos y
para 3 grupos.

Para 2 grupos:

S2  (S12 )(n1 1)  (S22 )(n2  1)  (n1 )( x1  X )2  (n2 )( x2  X )2
N 1 N 1

Para 3 grupos:

S2  (S12 )(n1  1)  (S22 )(n2  1)  (S32 )(n3  1)  (n1 )(x1  X )2  (n2 )(x2  X )2  (n3 )( x3  X )2
N 1

S2  (S12 )(n1  1)  (S22 )(n2 1)  (S32 )(n3  1)  (n1 )( x1  X )2  (n2 )(x2  X )2  (n3 )( x3  X )2
N 1 N 1

Dónde:

n1 ,n 2 ,n 3,...n k son los tamaños de los n grupos.

k

N= ni:la sumatoria de los n subgrupos.
i=1

x1, x 2, x 3, ... x k,: son las medias aritmeticas de cada subgrupo.

S12 , S 2 , S32 ,...Sk2 : son las varianzas de cada subgrupo.
2

k
 (ni )(xi )
X  X p  i1 k ; media aritmetica ponderada

 ni
i 1

La media ponderada Para 2 grupos:

X  X p  n1 x1  n2 x2
n1  n2

La media ponderada Para 3 grupos

X  X p  n1 x1  n2 x2  n3 x3
n1  n2  n3

Estadística Descriptiva Básica ~ 113 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de dispersión de datos

Nota:

- la formula presentada en (I) es recomendable usar cuando los grupos son
tomados muestralmente; Si se considerase poblaciones enteras y se busca
obtener la varianza global quitamos de la formula el “n-1”. Quedando resumida
la formula así:

kk
 (si )2 (ni ) (ni ) (xi  X )2

S 2  i1 N  i1 N

- la varianza global se descompone en intravarianza e intervarianza siendo la
suma de estos igual a la varianza global.

Varianza global = intravarianza + intervarianza

Intravarianza.- representa la variabilidad dentro de cada muestra.

S2  (S12 )(n1 1)  (S22 )(n2 1)
Intra var ianza N 1

Intervarianza.- representa la variabilidad entre las muestras.

S2  (n1 )(x1  X )2  (n2 )(x2  X )2
Inter var ianza N 1

De acuerdo a lo explicado nos encontramos con el término variabilidad, por
tanto es importante puntualizar dicho término. Por lo que se hace las siguien-

tes interrogantes.

¿Qué es variabilidad?, ¿Que es precisión? y ¿Que es exactitud?, en es-
tadística son términos muy usados al momento de especificar en el
planteamiento de problemas e indicar el margen de error.

Exactitud. - es la distancia de un indicador muestral al indicador poblacional,
en el contexto de inferencia estadística, si esta distancia es cero o mínima,
podemos considerar exacto nuestro resultado. Ver Figura 01 (el grupo de 05
datos dista del punto central)

Precisión. - se entiende por precisión a la variabilidad de la información de
un grupo de datos, mientras esta sea más homogénea (baja dispersión), se

Estadística Descriptiva Básica ~ 114 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de dispersión de datos

considera que el indicador ya sea muestral o poblacional tiene mayor preci-
sión. Sin embargo si existe alta variabilidad de los datos se considera al grupo
con baja precisión. Ver Figura 02 (ver la dispersión o esparcimiento de los 05
datos).
Sin embargo se considera más adecuado los resultados de cierto grupo de
datos cuando se cumpla con la exactitud y la precisión simultáneamente. Ver
la Figura 03.

PRECISIÓN Y EXACTITUD

Gráficamente se ilustra las diferencias en lo que se refiere a exactitud, preci-
sión y variabilidad. En distintas área del conocimiento como: en ciencias de
naturales, ciencias sociales, ciencias del comportamiento, ciencias de la salud
y ciencias exactas es usual mencionarlos en los planteamientos y descripción
de problemas. Por lo que se debe estar familiarizado con esta terminología.
A continuación desarrollamos ejemplos asociados a la varianza total
Ejemplos 01.- Los trabajadores de una empresa de importaciones y exporta-
ciones en el rubro textil, se agruparon en dos categorías, trabajadores
permanentes y trabajadores eventuales. De los cuales se extrajo la siguiente
información: 60 Trabajadores permanentes que tienen una compensación
económica media de S/. 1900, con una varianza de S/. 22500; 100 trabajado-
res eventuales que tienen una compensación económica media de S/. 1200,
con una desviación estándar de S/. 100. Calcule la varianza de todos los tra-
bajadores permanentes y eventuales.

Estadística Descriptiva Básica ~ 115 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de dispersión de datos

Solución.

Creamos un cuadro para resumir la información que nos proporcionan.

Grupo Tamaño Media de Desviación Varianza
de cada cada Grupo estándar de cada
Trabajadores grupo Grupo
permanentes 60 1900 150 22500
Trabajadores
eventuales 100 1200 100 10000

Entonces la varianza total cuando se dispone de varios grupos o sub muestras
es:

kk (ni ) (xi  X )2
 (si )2 (ni )
S 2  i1 N  i1
N

A continuación reemplazamos los datos(para el lector).

Ejercicios resueltos:

01.- El Gobierno regional de Puno plantea realizar 2 paquetes de proyectos
denominados paquete A y paquete B, el paquete A esta conformado por
7 proyectos de inversión los cuales se financiaran en promedio con 90
millones de soles; si se sabe que el presupuesto para el paquete B es el
triple del paquete A. además si sabe que el presupuesto promedio para
cada proyecto de los dos paquetes es de 20 millones de soles. Deter-
mine la cantidad total de proyectos.

Estadística Descriptiva Básica ~ 116 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de dispersión de datos

Solución.

Paquete A:

inversion total para el paquete A A = 630 =90
numero de proyectos del paquete 7

630+1890 =20 ; (presupuesto promedio del total para cada proyecto)
7+B

2520=(20)(7+B)

2520=140+20B

2520-140=20B

2380=20B

B= 2380
20

B=119 ; entonces el total de proyectos es: 7+119=126 proyectos

02.- El aeropuerto Inca Manco Cápac de Juliaca tiene 3 horarios de salida y
arribo de vuelos a horas: 8 am, 10 am y 2 pm. Durante la 1ra, 2da y 3ra
semana se registró el número de pasajeros ausentes siendo en la pri-
mera semana 6, en la segunda 4 y en la tercera 2 pasajeros, Los cuales
a último momento realizaron una reprogramación para sus vuelos. Estos
cambios de última hora generaron perdidas por semana de 600, 440 y
210 dólares. Determine la pérdida total en promedio de la línea aérea en
las tres semanas registradas, si en las tres semanas se tuvo una utilidad
adicional en equipajes del 20% de las pérdidas totales, por concepto de
transporte de equipajes en bodegas de las naves.

Solución.

Por la forma como se enuncia el problema se puede ver claramente que se
tienen varios promedios parciales, por tanto para este caso es recomendable
utilizar el cálculo del promedio a través de la media ponderada.

Estadística Descriptiva Básica ~ 117 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de dispersión de datos

k
 (ni )(xi )
X p  i1 k ; reemplazando tenemos:

 ni
i 1

X p  (n1 )(x1 )  (n2 )(x2 )  (n3 )(x3 ) ; X p  (6)(600)  (4)(440)  (2)(210)
n1  n2  n3 642

X p  5780  481.667 ; ahora el 20% de 481.667 es 96.3334(utilidad adicional )
12

por tan to la perdida total en promedio durante las tres semanas es :
481.667  96.3335  ?

Perdida Total en promedio  385.332

3.- Dada la siguiente distribución simétrica con n=20, completar los datos que
faltan y determinar la media aritmética, sabiendo que las clases son de
amplitud constante, f2.x2=15 y Límite inferior del 5to intervalo de clase 10.

Notas de estudiantes Xi fi
[;>

[;>

[;>

[;>

[;> 3

[;> 5

Solución.

Primero completamos la información que nos da el problema, a continuación
formulamos las ecuaciones para determinar la Amplitud interválica, teniendo
C constante completamos el cuadro de distribución de frecuencias.

Representamos como a al límite inferior del primer intervalo de clase y b como
límite superior del primer intervalo de clase, además por propiedad de la
marca de clase se sabe que:

a  x1  c ; b  x2  c ; c  x3  c
2 2 2

Estadística Descriptiva Básica ~ 118 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Notas de estudiantes Xi Medidas de dispersión de datos
[a b> 5
[b +C c> fi
[ +C > 5
[ +C 10> 3
[10 > f3=2
[> f4=2
Total 3
5
20

Por ser simétrica la distribución f3=f4 entonces hacemos que f3 = f4
Por propiedad se sabe que:

k

n   fi ; ahora reemplazamos :
i 1

20  5  3  f3  f4  3  5 Sabiendo que f2 x2  15
f3  f4  20 16 3x2  15 ; x2  5
f3  f4  4 ; por simetria : f3  f4  2

Generamos las ecuaciones a fin de determinar la amplitud C

b  x2  C ; b  3C 10 ; 3C 10 b
2
C  10  b ...(II )
C 3
b  5  2 .....(I )

reemplazando I en II tenemos:

10   5  C  10 C 10  C
 2  2 2 2
C   3C  10    3C 
3

6C  10  C  6C  C  10  5C  10

C  10
5

C2

Estadística Descriptiva Básica ~ 119 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de dispersión de datos

Ahora teniendo C podemos completar el cuadro de distribución de frecuen-
cias.

Notas de estudiantes Xi fi
[2 +C 4> 3 5
[4 +C 6> 5 3
[6 +C 8> 7 f3=2
[8 +C 10> 9 f4=2
[10 +C 12> 11 3
[12 +C 14> 13 5
Total 20

Ahora podemos determinar la media aritmética, reemplazando tenemos:

k
 fi xi
X i1

n

k
X fi xi
  (5)(3)  (3)(5)  (2)(7)  (2)(9)  (3)(11)  (5)(13)
i 1 20

n

 160  8
20

04.- Dada la siguiente información completar los datos que faltan y determi-
nar la Mediana, Si C es constante, K=6, x4=15, el límite superior del 6to
intervalo de clase es 20, h1=h6=0.10, h2=h5=0.15 y la media es de 14.1.

Estadística Descriptiva Básica ~ 120 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Solución. Medidas de dispersión de datos

Intervalos xi hi
[a b> 0.10
[b c> 0.15
[c d> h3
[d +C e>
[e +C f> 15 h4
[f +C 20> 0.15
total 0.10
1

Se sabe que por propiedad de las marcas de clase: se tiene

a  x1  c d  x4  c
2 2

b  x2  c e  x5  c
2 2

c  x3  c f  e  C ; donde C : amplitud
2

y a, b ,c ,d ,e y f son límites de clase.

Determinamos los límites de clase

d  x4  c  d  15  c ....(I)
2 2

d  3C  20...(II )
De I y II tenemos :

15  C  3C  20  3C  C  20 15
2 2

2.5C  5  C  5  2
C =2 2.5

Completamos la distribución

Estadística Descriptiva Básica ~ 121 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de dispersión de datos

Intervalos xi hi
[08 - 10> 9 0.10
[10 - 12> 11 0.15
[12 - 14> 13 h3
[14 - 16> 15 h4
[16 - 18> 17 0.15
[18 - 20> 19 0.10
Total
1

Ahora determinamos h3 y h4, según propiedad se tiene.

kk

 hi  1 ; x  xi hi

i 1 i 1

Desarrollando tenemos:

0.10  0.15  h3  h4  0.15  0.10  1  h3  h4  0.50...(I )

(9)(0.10)  (11)(0.15)  13h3  15h4  (17)(0.15)  (19)(0.10)  14.1
13h3  15h4  14.1  7
13h3  15h4  7.1...(II )

De I y II tenemos :  13h3 15h4  7.1
 13h3 13h4  6.5
1 (13h3 15h4  7.1)
13 ( h3  h4  0.5)

h = 0.3 0
2h4  0.6  4
reemplazando h4 en I :
h3  h4  0.50  hh 3 = 00.3. 02 0  0.50
h3  0.50  0.30  3

Estadística Descriptiva Básica ~ 122 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de dispersión de datos

Ahora ya podemos determinar la mediana de la distribución.

Intervalos xi hi Hi
[08 - 10>
[10 - 12> 9 0.10 0.10
[12 - 14>
[14 - 16> 11 0.15 0.25
[16 - 18>
[18 - 20> 13 0.20 0.45
Total
15 0.30 0.75

17 0.15 0.90

19 0.10 1.00

1

%x  ?

Ejercicios propuestos:

01.- Al preguntar a 30 estudiantes de la carrera profesional de Ingeniera
en Industrias Alimentarias de la UNAJ por el número de personas que
viven en su casa, se obtuvo la siguiente información.

5326438452
3421425736
3754756392
Del cual se pide determinar:

a) El cuadro de distribución de frecuencias discreta

b) Representar la información en una gráfica de bastones

c) Interpretar el cuadro de distribución de frecuencias.

02.- Dada la siguiente distribución del número de hermanos de un grupo de
40 estudiantes del IV Semestre de la carrera profesional de ingeniería
Ambiental y forestal de la universidad Nacional de Juliaca.

03 01 02 05 03 04 02 01 03 03 02 01 00 02 00 02 02 03 06 04
02 00 04 03 02 03 02 00 02 03 02 02 04 02 02 02 01 02 03 03

Se pide determinar:

a) El rango de los datos
b) La amplitud intervalica de los datos
c) El número de clases
d) La distribución de frecuencias univariado

Estadística Descriptiva Básica ~ 123 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Medidas de dispersión de datos

03.- Dada la siguiente distribución de pesos de recién nacidos en gramos de
60 recién nacidos en la provincia de San Román.
3320 3290 3330 3255 3292 2989 2326 3421 3012 3907
3330 3293 3030 3245 3292 2279 3346 3720 3120 2385
2220 3220 3130 3355 3292 3269 2276 3224 3144 2184
3310 3190 3230 3255 3292 2589 3356 3423 3940 3907
2020 3200 3330 3155 3292 3289 3276 3525 3347 2783
3340 3294 3430 3055 3292 2489 2399 3821 3740 2289

Se pide determinar:
a) El rango de los datos
b) La amplitud intervalica de los datos
c) El número de clases
d) La distribución de frecuencias univariado
04.- Dada la siguiente información incompleta sobre las edades de un grupo

de 50 mineros artesanales de la rinconada, K=5; F1 =8; h4=0.3; X5=60.
Sabiendo que la distribución es simétrica y la amplitud intervalica es cons-
tante e igual a 10 Se pide determinar:
a) Completar el cuadro de distribución de frecuencias univariado
b) Interpretar el cuadro de distribución de frecuencias
c) Graficar el Histograma y el grafico de sectores circular.

Estadística Descriptiva Básica ~ 124 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

CAPÍTULO IV

CORRELACIÓN Y REGRESIÓN LINEAL

Correlación lineal. - La correlación es una técnica cuantitativa, es del tipo
paramétrico cuando los datos en la variable cumplan con la normalidad; y no
paramétrico cuando no cumplen con la normalidad. La correlación permite
identificar el grado de asociación entre dos variables cuantitativas, por tanto
el análisis es bidimensional. Por tanto sean (x1 , y2) … (xk , yk) los valores en
las variables X y Y con frecuencias absolutas f1, f2, …,fk, respectivamente. La
correlación está dado por:

r s xy
s sx y

Donde:

Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube
el de la otra). La correlación es más precisa y exacta cuando más se aproxime
a 1. (Figura a)

Si "r" < 0, la correlación lineal es negativa (si sube el valor de una variable
disminuye el de la otra). La correlación negativa es más precisa y exacta
cuando más se aproxime a -1. (Figura. b)

Si "r" = 0, no hay asociación y/o dependencia entre las variables, no existe
correlación entre las variables. (figura “c”)

La correlación también está dado por:

Estadística Descriptiva Básica ~ 125 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Correlación y Regresión lineal

  r k )( yi )
( fi )(xi  (x)(y)(n)
i 1

   k)(xi2 k )(yi2 y)2
i 1 i 1
( fi )  (n)(x)2 . ( fi )  (n)(

-1 0 1

Correlación perfecta (-) No hay correlación (0) Correlación perfecta (+)

Se prueba que la correlación es un número comprendido entre -1 y 1, por tanto

los valores que puede tomar la correlación r esta entre: 1 r 1

Covarianza (Sxy).- La covarianza es un valor que indica el grado de variación
conjunta de dos variables aleatorias. Covarianza es la medida de asociación
lineal más simple.

 f y n y x xSxy =k ( )( i  )
i 1
ii

Ejemplo.- La siguiente tabla de distribución de frecuencias presenta la infor-
mación obtenida sobre 20 estudiantes de ingeniería, en los cursos de Minería
de datos (X) y Machine Learning (Y), de los cuales se obtuvo los siguientes
calificativos, donde fi : Frecuencia absoluta.

X 13 12 14 16 17 20 15 10 14 08 16 18 16 12
Y 14 11 12 16 18 19 16 8 15 5 17 19 18 14
fi 3 1 1 1 2 1 1 1 2 1 2 1 2 1

Se pide:

a) Representar la información en un diagrama de dispersión de datos
b) Hallar la covarianza entre X y Y
c) Hallar la correlación entre X y Y
d) Determinar el coeficiente de variación para cada curso e indique que

grupo tiene mayor dispersión de datos.
a) Representar la información en un diagrama de dispersión de datos

Estadística Descriptiva Básica ~ 126 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Correlación y Regresión lineal

b) Hallar la covarianza entre X y Y

Solución:

 f nSxy  k i(yi  y)(xi  x)  183  9.15
i 1 20

Interpretación. - Cuando entre las dos variables hay una relación directa, la
covarianza da un valor positivo, en este caso existe una relación directa entre
las dos variables X y Y

Estadística Descriptiva Básica ~ 127 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Correlación y Regresión lineal

Descripción del detallada del resultado de covarianza.- En los paréntesis de
SXY Si tomamos en X i un valor menor al promedio de X , entonces el resul-
tado será positivo; y si tomamos simultáneamente en Yi un valor menor al
promedio de Y, entonces el resultado también será positivo. El producto de
estos dos valores positivos da como resultado un numero positivo, por tanto
la división de ese valor entre n da como resultado final un valor positivo, de
allí la conclusión de que existe una relación directa entre las dos variables X
yY

Estadística Descriptiva Básica ~ 128 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Correlación y Regresión lineal

c) Hallar la correlación entre X y Y
Solución:

Realizamos cálculos previos:

X  14, 5 ; Y  14, 9 ; n  20

  k k fi xi2 k fi yi2
i 1 i 1 i 1
fi xi yi  4504  4354  4696

nx2 fi . yi2  n y 2
 k . x 2 ; k
i 1 i i 1
fi   12, 2065  15, 9937

r  k( fi )( yi )(xi )  (x)(y)(n)  0,9373

i1

   k ( k
i 1 i 1
fi )(xi2 )  (n)(x)2 . ( fi )(yi2 )  (n)( y)2

Interpretación. - Para la interpretación elevamos al cuadrado el valor de r, por
tanto r2 = 0,8786 porcentualmente 87,86%. Los datos en la variable Y están
asociado en un El 87,86% con los datos de la variable X.

d) Determinar el coeficiente de variación para cada curso e indique que
grupo tiene mayor dispersión de datos.

Curso Minería de datos (x)

Solución:

k (fi )(xi )
x= n
i=1 = 290 =14,5
20

k
(fi )(xi  x)2
SX  i 1 149 7,45  2,72
 20 
n

C VX = SX .100= 2,72 =18,75%
X 14,5

Curso Machine Learning (y)

Solución:

Estadística Descriptiva Básica ~ 129 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Correlación y Regresión lineal

k (fi )(yi )
y= n
i=1 = 298 =14,9
20

k (fi )(yi -y)2
SY =
i=1 = 255,8 = 12,79=3,57
20
n

C VY = SY .100= 3,57 =23,95%
Y 14,9

Por tanto el curso que tiene mayor dispersión de datos Machine Learning(y),
por ser este mayor 23,95% > 18,75%.

Estadística Descriptiva Básica ~ 130 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Correlación y Regresión lineal

EJERCICIOS
1.- La siguiente tabla de distribución de frecuencias presenta la información

obtenida sobre notas de 20 estudiantes de ingeniería, en los cursos de
Estadística Descriptiva (X) y Estadística Inferencia (Y), de los cuales se
obtuvo los siguientes calificativos, donde fi : Frecuencia absoluta.

X 5 5 14 10 8 8 20 12 14 16 18 12 8 6 19 16
Y 7 4 17 12 10 12 19 16 18 16 16 14 4 5 19 18
fi 1 1 2 2 1 1 2 1 1 2 1 1 1 1 1 1

Se pide:
a) Representar la información en un diagrama de dispersión de datos
b) Hallar la covarianza entre X y Y
c) Hallar la correlación entre X y Y
d) Determinar el coeficiente de variación para cada curso e indique que

grupo tiene menor dispersión de datos.
2.- La siguiente tabla de distribución de frecuencias presenta la información

obtenida sobre notas de 20 estudiantes de ingeniería, en los cursos de
Minería de datos (X) y Machine Learning (Y), de los cuales se obtuvo los
siguientes calificativos, donde fi : Frecuencia absoluta.

X 15 15 14 10 11 11 17 12 13 17 17 13 10 7
Y 17 14 17 12 10 12 18 16 17 17 15 12 4 5
fi 2 1 2 2 1 1 2 1 2 2 1 1 1 1

Se pide:
a) Representar la información en un diagrama de dispersión de datos
b) Hallar la covarianza entre X y Y
c) Hallar la correlación entre X y Y
d) Determinar el coeficiente de variación para cada curso e indique que

grupo tiene mayor homogeneidad en sus datos.

Estadística Descriptiva Básica ~ 131 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Correlación y Regresión lineal

3.- La siguiente tabla de distribución de frecuencias, presenta información
sobre el número de tardanzas a clases de los estudiantes de ingeniería
registrados durante un mes, en los cursos de Minería de datos (X) y Ma-
chine Learning (Y), de los cuales se obtuvo los siguientes calificativos.

X 10 12 11 15 4 0 4 4 8 1 4 6 5 1 3
Y 5 10 7 9 3 1 2 5 5 2 3 7 4 1 4

Se pide:

a) Representar la información en un diagrama de dispersión de datos
b) Hallar la covarianza entre X y Y
c) Hallar la correlación entre X y Y

4.- Dada la siguiente tabla de distribución de frecuencias bidimensional de
(X) y (Y).

Y/X 11 13 17 18 19 Totales

11 1 - - - - 1

12 1 - 1 2 - 4

14 - 1 2 1 4

16 - 1 1 2 1 5

19 - - - 1 - 1

Totales 2 2 4 6 1 15

a) Representar la información en un diagrama de dispersión de datos

b) Hallar la correlación entre X y Y

c) Determinar el coeficiente de variación e indique que grupo tiene mayor
dispersión en sus datos.

Estadística Descriptiva Básica ~ 132 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Correlación y Regresión lineal

5.- La siguiente grafica (diagrama de dispersión) y sabiendo que la frecuen-
cia absoluta de los datos esta entre paréntesis.

a) Representar la información en una tabla de doble entrada(bidimensional)
b) Hallar la correlación entre X y Y e interprete su resultado.
c) Determinar el coeficiente de variación para cada grupo.

6.- Considere la siguiente distribución bidimensional de las edades(Xi) y es-
taturas(Yi) de un grupo de 100 alumnos de la UNA-PUNO:

Y [1.54 – 1.58> [1.58 – 1.62> [1.62 – 1.66> [1.66 – 1.70>
X
7 11 15 7
[18 – 20>
6 12 6 5
[20 – 22>
4656
[22 – 24>
1243
[24 – 26]

Se pide:

a) Representar la información en un diagrama de dispersión de datos
b) Determinar la correlación e interpretar r

Regresión lineal simple. - La regresión lineal simple permite determinar el
valor de una variable en función del valor de otra variable, por lo que se deno-
minan variable dependiente y variable independiente. Para realizar un
pronóstico adecuado se requiere que previamente exista una alta correlación
entre las variables. Su ecuación esta dada por:

Estadística Descriptiva Básica ~ 133 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Correlación y Regresión lineal

^

Y  f ( x )     X …… (i)

Donde  y  son constantes, el modelo (i) se denomina regresión lineal

simple de Y en función de X. Donde  es la intersección de la recta de re-
gresión con el eje vertical (eje de las ordenadas) y  su pendiente. Estos

coeficientes  y  son denominados por lo general coeficientes de regre-

sión.



Al visibilizar el error de predicción e  y  y , en el modelo lineal, la ecuación
de la recta de regresión en general queda de la siguiente manera:

y    x  e

Para obtener la recta de regresión de Y en X, se tiene:



y    x

Debemos estimar los parámetros  y  a través del método de mínimos
cuadrados en base a los datos observados.

k

 i 1 f i xi yin x y 

fi xi2  n x 2 ;   yx

Para obtener la recta de regresión de X en Y, se tiene:



x  y

De la misma manera se deben estimar los parámetros  y  en base a los
datos observados empleando el método de mínimos cuadrados.

k

i 1 f i x i y i n x y 

fi y2 ny 2 ;  xy
i


A continuación, se describe gráficamente los modelos de regresión y el tipo
de ajuste.

Estadística Descriptiva Básica ~ 134 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Correlación y Regresión lineal

Estadística Descriptiva Básica ~ 135 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Correlación y Regresión lineal

Estadística Descriptiva Básica ~ 136 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Correlación y Regresión lineal

Estadística Descriptiva Básica ~ 137 ~ Huanca S., Jhon R & Auquitias C., Gladys M.

Correlación y Regresión lineal

Ejemplo 1.- Dada la siguiente distribución de datos correspondiente a un
grupo de 70 maquinarias textiles, de los cuales se tiene el tiempo de antigüe-
dad(X) y el gasto en mantenimiento de las maquinarias (Y) durante un periodo
de tiempo.

Se pide determinar:

a) Calcular la correlación e interpretarla
b) Encontrar la ecuación de regresión de Y en X
c) ¿las maquinarias con una antigüedad de 20 años que gasto aproximado

demandarían?
Solución:

a) Calculamos la correlación

Realizamos cálculos previos:

X  5, 91 ; Y  260, 63 ; n  70

  k k fi xi2 k fi yi2
i 1 i 1 i 1
fi xi yi  146536  3412  6401854

n x y  107900.2286

fi k.x 2  n x 2 ? ; k f . y 2  n y2 ?
i 1i i 1 i
i

r  k( fi )( yi )(xi )  (x)(y)(n) ?

i 1

   k k(
i 1
( fi )(xi2 )  (n)(x)2 . i 1 fi )(yi2 )  (n)( y)2

r  38635.77143 
( 3412(70)(5,91)2 ) ( 6401854(70)(260.628571)2 )

Estadística Descriptiva Básica ~ 138 ~ Huanca S., Jhon R & Auquitias C., Gladys M.


Click to View FlipBook Version