Estadística II
Teoría 9
Análisis de Regresión
Lineal Múltiple
Rubén Prado Linares
Estadística II
Teoría 9
Análisis de Regresión Lineal Múltiple
Es el estudio de la relación lineal existente entre una variable Y, llamada variable
dependiente, y un conjunto de otras variables denominadas variables
independientes o explicativas: X1, X2, …, Xp-1.
En estos casos se asume que la relación verdadera entre tales variables se puede
expresar mediante un modelo o ecuación de regresión paramétrico o
poblacional.
Modelo matemático poblacional
El valor estimado de la variable dependiente puede ser representado de la siguiente
manera:
Y.X1, X2, , Xp−1 = Y.Xi = 0 + 1X1 + 2X2 + + p−1Xp−1
Modelo estadístico poblacional
Cada observación multivariada puede ser representada mediante el siguiente
modelo estadístico poblacional:
Yi = 0 + 1Xi,1 + 2Xi,2 + + p−1Xi,p−1 + i
Donde:
i = Es el “error o residual”, término aleatorio generado por el efecto del muestreo
y por los efectos de otras variables que no se incluyen en el modelo.
0 = Es el Coeficiente de intersección poblacional. Expresa el valor promedio de
la variable Y cuando las variables explicativas Xi, son todas iguales a cero.
i = Es el Coeficiente de regresión parcial de la variable Xi, i = 1, 2, ..., p-1.
Expresa el cambio en el valor promedio de la variable Y cuando la variable Xi
varía en una unidad, manteniéndose constantes los niveles de las otras
variables independientes o explicativas X.
Estadística para la Universidad -1-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
En el modelo estadístico poblacional, los coeficientes j cumplen con:
* 0 = Y.X1=0, X2 =0, , Xp−1=0 = Y•X =0
*j Y.X1, X2, , Xp−1 , j = 1, 2, 3,..., p-1
Xj
=
SUPUESTOS SOBRE EL MODELO ESTADÍSTICO POBLACIONAL
1. La relación entre la variable dependiente Y y las variables independientes Xi,
está dada por:
Yi = 0 + 1Xi,1 + 2Xi,2 + + p−1Xi,p−1 + i
Donde:
Yi.X1,X2, ,Xp−1 = 0 + 1Xi,1 + 2Xi,2 + + p−1Xi,p−1
2. Para un conjunto de n observaciones, matricialmente el modelo estadístico se
expresa como:
Y = X* +
Siendo:
Y1 10 1 1 X1,1 X1,2 ... X1,p−1
1
Y2 2 X2,1 X2,2 ... X2,p −1
Y .Y..3 ; = 2 ; ..3. ; X = 1 X3,1 X3,2 ... X3,p
= = −1
... ...
p 1
Yn nx1 −1 px1 n nx1 Xn,1 Xn,2 ... Xn,p −1 nxp
Donde:
Y: es un vector aleatorio para las n observaciones.
X: es una matriz de valores fijos.
n: número de observaciones para cada variable.
p: número de coeficientes de modelo
(depende del número de variables consideradas)
: es el vector de coeficientes del modelo.
: es el vector de los errores residuales.
-2- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
3. El vector aleatorio de errores tiene una distribución Normal tal que:
i. la media de los errores residuales es CERO: E = 0
ii. la varianza de los errores es un valor constante, es decir existe
homocedasticidad: E 2i = 2
iii. los errores residuales no están correlacionados: E i j = 0, i j
1 12 12 1n
22
2 n ) = 21
' = (1 2 n2 2n
n1
n 2n nxn
( )E 12 E (12 ) E ( 1n ) 2 0 0
0 2
E (21) E (2n ) 0
( )E E 22 0 2
'= = = In
E (n1) E (n2 ) ( )E 2n 0 2
4. Las variables Xi son independientes y no existe multicolinealidad entre ellas.
Esto significa que las columnas de X no son dependientes entre sí, ninguna
de ellas es proporcional a otra y además que el rango de la matriz X es menor
que n: rango(X) = p n (X es una matriz de rango completo).
Estadística para la Universidad -3-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
ESTIMACIÓN DE LOS PARÁMETROS j
El siguiente es el modelo de regresión poblacional o matemático.
Yi x = 0 + 1Xi,1 + 2Xi,2 + + p−1Xi,p−1
Este modelo es aproximado mediante la siguiente ecuación o línea de regresión
lineal estimada.
Yˆi = ˆ Yi x = b0 + b1Xi,1 + b2Xi,2 + + bp−1Xi,p−1
Donde:
b0: Coeficiente de intersección muestral.
Expresa el valor estimado de Y.X cuando X = 0
bi: Coeficiente de regresión parcial de la variable Xi, i=1, 2, ..., p-1.
Expresa el cambio que ocurre en el valor promedio de la variable Y cuando la
variable Xi varía en una unidad, manteniéndose constantes los valores de las
otras variables.
El modelo de regresión lineal múltiple estadístico muestral es:
Yi = b0 + b1Xi,1 + b2Xi,2 + . . . + bp−1Xi,p−1 + e i ( e i = i es el error estimado)
Este modelo estadístico muestral de regresión lineal múltiple en su forma matricial
es:
Y=X*b + e
Siendo:
Y1 b0 e1 1 X1,1 X1,2 ... X1,p−1
1
Y2 b1 e2 X2,1 X2,2 ... X2,p −1
Y .Y..3 ; b= b2 ; X = 1 X3,1 X3,2 ... X3,p
= ; e = e3 −1
...
1
Yn nx1 bp −1 px1 en nx1 Xn,1 Xn,2 ... Xn,p −1 nxp
Para determinar el vector b se pueden utilizar varios métodos; uno de ellos es el
Método de Mínimos Cuadrados Ordinarios, el cual trata de determinar cuáles
son los estimadores que hacen mínima la suma de cuadrados residual.
-4- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
La suma de cuadrados del error o suma de cuadrados residual es:
Q(b) = n e2i = e '.e = (Y- X.b)'.(Y- X.b)
i=1
Para hallar el vector b que minimiza a Q(b), se toma la derivada parcial con respecto
a b y se iguala al vector nulo 0 ; es decir:
Q(b) = - 2 X'.Y+ 2 X'.X.b=0
b
Reordenando la ecuación anterior se obtiene el sistema de ecuaciones normales;
es decir, el sistema cuya solución es el vector de estimadores b del vector de
parámetros .
Esto es: [X'.X].b= [X'.Y] b = ˆ = [X'.X]-1.[X'.Y]
Esta es la forma matricial para obtener los coeficientes del vector de estimadores.
PROPIEDADES DE LA LÍNEA DE REGRESIÓN ESTIMADA
n
1. ei=0
i =1
2. n e2i es un valor mínimo
i =1
( )3. El punto X1, X2, , Xp-1, Y pertenece a la línea de regresión estimada.
4. Los estimadores bj son insesgados, consistentes, suficientes y eficientes.
nn
5. yi = yˆ i
i=1 i=1
n
6. yˆ i.ei = 0
i=1
Estadística para la Universidad -5-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
IDENTIFICACIÓN DE COMPONENTES DE XlX y XlY
i. Para el modelo: .Yˆ = ˆ Y x = b0 + biXi
Se tiene:
n Xi ; X'Y= Y
X'X= XiY
X2i
Xi
ii. Para el modelo: .Yˆ = ˆ Y x = b0 + b1X1 + b2X2
Se tiene:
n X1 X2 Y
X12
X1X2 ; X'Y= X1Y
X'X= X1 X1X2
X2 X22 X2Y
iii. Para el modelo: Yˆ = μˆ Y x = b0 + b1X1 + b2X2 + b3X3
Se tiene:
n X1 X2 X3 Y
X12
X1 X1X2 X1X3 X1Y
X'X= X2 X1X2 X22 ; X'Y=
X2Y
X3 X1X3 X2X3 X2X3 X3Y
X32
NOTAS:
i. Para una matriz: M = a b de orden 2 x 2
b c
La matriz inversa se obtiene de la siguiente manera:
M−1 = 1 c −b siendo: M = a.c − b2
M −b a
a
ii. La matriz transpuesta de M = [a b c] es: MT = b
c
-6- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
Ejercicio #1:
La empresa financiera PRESTATODO desea estimar un modelo que le permita
predecir el monto de las cuotas vencidas de sus clientes. Para ello ha decidido
realizar un análisis tomando en cuenta las siguientes variables:
Y = monto de la cuota vencida (miles de dólares)
X1 = monto de préstamo (decenas de miles de dólares)
X2 = Tasa de interés
X3 = Tasa de inflación
Los datos correspondientes a los 24 últimos meses fueron procesados con un
paquete estadístico obteniéndose los siguientes resultados:
Matrices X'X , X'Y y Y'Y para la regresión de Y sobre X1, X2 y X3
24 3965 30.31 24.724
717877 5029.45 403911..222578 ;
X'X = 3965 5029.45 38.2879
30.31 4091.258 25.4714
31.227
24.724
1018
X ' Y = 179138 ; Y'Y = 45262
1289.64
1050.126
Obtenga la ecuación de regresión lineal estimada del monto de las cuotas vencidas
de los préstamos sobre la tasa de interés.
Interprete cada uno de los coeficientes obtenidos.
Estadística para la Universidad -7-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
ANÁLISIS DE VARIANZA
Es una técnica estadística que permite realizar pruebas de hipótesis sobre
parámetros de un modelo lineal utilizando la descomposición de la variación total
de la variable Y en sus partes, que son la variación debido a la regresión y la
variación debido al efecto residual.
Y
(xi,•yi ) yˆ = bo + b1x
Yi
(yi − yˆ i )
Yˆ i (yi − Y) •
yˆ i − Y
Y•
X xi X
Del gráfico anterior se deduce que la desviación total del modelo se descompone
como:
Yi − Y = (Yi − Y) + (Yi − Yi )
Donde:
* Yi − Y : desviación total del valor observado Yi con respecto al promedio muestral
de Y.
* Yi − Y : desviación atribuible al efecto de regresión de la variable X; es decir, la
desviación explicada por la línea de regresión estimada.
* Yi − Yi : desviación atribuible al efecto aleatorio del error residual; es decir , la
desviación no explicada por la línea de regresión estimada.
SUMA DE CUADRADOS y GRADOS DE LIBERTAD
La variación total del modelo se puede descomponer de la siguiente manera:
Variación Total = Variación Explicada + Variación No Explicada
Esto nos conduce a:
SC(total) = SC(efecto de la regresión) + SC(residual o del error)
-8- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
a) Suma de cuadrados total:
SC(Total) = Y'Y - ( Yi )2 = SC(Y) ; GL(total) = n – 1
n
b) Suma de cuadrados del efecto de regresión:
SC(Re g) = b'.X'Y - ( Yi )2 ; GL(Reg) p – 1
n
c) Suma de cuadrados del efecto residual o del error:
SC(Re s) = e '.e = Y'Y - b '.X'Y = SC(Tot) − SC(Re g); GL(Res) = n – p
CUADRADOS MEDIOS (Varianzas)
Se definen como:
CM(efecto ) = SC(efecto )
GL(efecto )
i. Cuadrado medio del efecto de regresión:
CM(Reg) = SC(Reg) = SC(Reg)
GL(Reg) p −1
ii. Cuadrado medio del efecto de residual o del error:
CM(Re s) = SC(Re s) = SC(Re s)
GL(Re s) n−p
CUADRO ANÁLISIS DE VARIANZA
Los cálculos realizados en un análisis de variancia son usualmente resumidos en
un cuadro conocido como el cuadro de análisis de variancia o cuadro ANVA, el cual
tiene los componentes siguientes:
Fuente G.L. S.C. C.M.
Regresión p-1 SC(Reg) CM(Reg)
Residual n-p SC(Res) CM(Res)
n-1 SC(Tot)
Total
Estadística para la Universidad -9-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
Ejercicio #2
La empresa financiera PRESTATODO desea estimar un modelo que le permita
predecir el monto de las cuotas vencidas de sus clientes. Para ello ha decidido
realizar un análisis tomando en cuenta las siguientes variables:
Y = monto de la cuota vencida (miles de dólares)
X1 = monto de préstamo (decenas de miles de dólares)
X2 = Tasa de interés
X3 = Tasa de inflación
Los datos correspondientes a los 24 últimos meses fueron procesados con un
paquete estadístico obteniéndose los siguientes resultados:
Matrices X'X , X'Y y Y'Y para la regresión de Y sobre X1, X2 y X3
24 3965 30.31 24.724
717877 5029.45
X'X = 3965 5029.45 38.2879 4091.258 ;
30.31 4091.258 31.227
31.227
24.724 25.4714
1018
X ' Y = 179138 ; Y'Y = 45262
1289.64
1050.126
Obtenga el cuadro de análisis de varianza para el modelo que incluye al monto de
las cuotas vencidas de los préstamos y la tasa de interés.
Utilice la información necesaria de los resultados anteriores.
NOTA:
a1 b1 b1
Si: a y b2 AT xB = a1 b2
A = 2 B = a2 a3 x = a1b1 + a2b2 + a3b3
a3 b3 b3
-10- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
Prueba F de Análisis de Varianza
Se utiliza para probar si al menos una variable tiene efecto significativo en el
modelo.
Procedimiento:
(1) Planteamiento de hipótesis.
Hp: 1 = 2 = . . . . = p-1 = 0 (ésta prueba es unilateral a la derecha)
Ha: Al menos un j es diferente de cero.
(2) Elección del nivel de significación .
(3) Estadístico de prueba: F= CM(Reg) F(p-1, n-p)
CM(Res)
(4) Punto crítico y Criterios de decisión:
Región de aceptación Región de Se acepta Hp si:
rechazo Fcal F2
Se rechaza Hp si:
1- Fcal > F2
F2 = F(1 − , p − 1, n − p)
(5) Cálculo del valor del estadístico de prueba: Fcal.
(6) Decisión y conclusión.
NOTA:
La aceptación de Hp significa que las variables explicativas No son
significativas en su conjunto para la variable Y.
El rechazo de Hp significa que al menos una variable explicativa o
independiente tiene efecto significativo sobre Y.
Estadística para la Universidad -11-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
Ejercicio #3
La empresa financiera PRESTATODO desea estimar un modelo que le permita
predecir el monto de las cuotas vencidas de sus clientes. Para ello ha decidido
realizar un análisis tomando en cuenta las siguientes variables:
Y = monto de la cuota vencida (miles de dólares)
X1 = monto de préstamo (decenas de miles de dólares)
X2 = Tasa de interés
X3 = Tasa de inflación
Los datos correspondientes a los 24 últimos meses fueron procesados con un
paquete estadístico.
Realice la prueba de hipótesis correspondiente al análisis de varianza para el
modelo que contiene a todas las variables explicativas, teniendo en cuenta que:
La ecuación de regresión es: Yˆ = –349.19 + 0.11995 X1 + 73.77 X2 + 270.46 X3
SOURCE DF SS MS
Regression 3 1991.68 663.8933
Error
Total 20 90.16 4.508
23 2081.83
Matriz Inversa [X ' X]−1 para la regresión de Y sobre X1, X2 y X3 es:
1904.8608 0.3778341 –810.1331 –916.46323
0.0001190 –0.282884 ––02.05339.00262376
0.3778341 –0.282884 884.875026
–810.1331 –0.0390636 –253.0227 1206.08
–916.46323
Utilice = 0.05 para pruebas unilaterales y = 0.10 para pruebas bilaterales.
-12- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
COEFICIENTE DE DETERMINACIÓN
El coeficiente de determinación se define como el cociente entre la variación
explicada por la regresión y la variación total del modelo.
Expresa la proporción de la variación total que es explicada por la línea de regresión
estimada.
El coeficiente de determinación muestral será igual a:
r2 = SC(Reg.) ; 0 r2 1
SC(Total)
El coeficiente de determinación r2 es una medida de la proximidad del ajuste de la
recta de regresión. Cuanto mayor sea r2, mejor será el ajuste a la recta de regresión
y más útil será dicha ecuación de regresión como instrumento de predicción de los
valores de Y.
Si su valor es 0, expresa que el 0 % de la variación total observada en la variable
Y, es explicada por la línea de regresión estimada.
Si su valor es 1, se expresa que el 100 % de la variación total observada en la
variable Y, es explicada por la línea de regresión estimada.
COEFICIENTE DE DETERMINACIÓN AJUSTADO
El coeficiente de determinación r2 es un estimador sesgado, que usualmente
sobreestima la proporción explicada por la línea de regresión estimada.
Para corregir este sesgo se utiliza el coeficiente de determinación ajustado, que se
calcula de la siguiente manera:
r*2 = 1- SC(Res) GL(Tot)
SC(Tot) GL(Res)
Ejercicio #4
Con los datos y los resultados del ejercicio #3 y teniendo en cuenta el modelo de
regresión con todas las variables explicativas involucradas, halle e interprete el
valor de:
i. El coeficiente de determinación.
ii. El coeficiente de determinación ajustado.
Estadística para la Universidad -13-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
INFERENCIA SOBRE j
Para determinar intervalos de confianza o realizar pruebas de hipótesis de los
parámetros j, es necesario hallar primero la matriz varianza-covarianza de los
estimadores bj.
Teniendo en cuenta el supuesto de normalidad de los errores aleatorios:
N(0, 2 In )
Los estimadores bj de los parámetros j tendrán también un comportamiento
normal, así:
b N( , 2b ) b j N( j , 2b j )
Teniendo en cuenta que el cuadrado medio del error es un estimador insesgado
de la variancia residual, se tiene que: 2 = S2 = CM(Res)
Luego, podemos decir que: S2b = S2 [X'X]-1 = CM(Res).[X'X]-1
La matriz variancia-covariancia muestral es:
S2b0 Sb0 ,b1 Sb0 ,bp-1
S2b1
S2b = S2 [X'X]-1 = Sb0 ,b1 Sb1,bp-1 Sb1,bp-1
Sb0 ,bp-1 S2bp-1
pxp
Siendo p el número de coeficientes del modelo.
Las variancias de los estimadores se encuentran en la diagonal de la matriz, y los
elementos fuera de la diagonal corresponden a las covariancias entre dos
estimadores cualesquiera.
-14- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
Intervalo de Confianza para j
Para determinar intervalos de confianza para el coeficiente j se usa:
LIC( j) = b j - T(1-/2, n-p).Sb j
LSC( j) = b j + T(1-/2, n-p).Sb j
Siendo Sbj la desviación estándar del coeficiente b j , que se puede obtener de la
matriz varianza-covarianza muestral.
Prueba de Hipótesis para j
Para realizar pruebas de hipótesis sobre el coeficiente j se puede utilizar como
estadístico de prueba:
T= bj - j T(n−p)
Sb j
Siendo Sbj la desviación estándar del coeficiente b j , que se puede obtener de la
matriz varianza-covarianza muestral.
Inferencia sobre la Varianza de los Coeficientes
i. Para determinar los intervalos de confianza para la varianza: 2bj
LIC(2b j ) = (n − p).S2b j ; LSC(2b j ) = (n − p).S2b j
(21−/2, n−p) (2/2, n−p)
ii. Para realizar pruebas de hipótesis sobre la varianza: 2bj
2 = (n − p).S2b j (2n−p)
2b j
Estadística para la Universidad -15-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
Ejercicio #5
La empresa financiera PRESTATODO desea estimar un modelo que le permita
predecir el monto de las cuotas vencidas de sus clientes. Para ello ha decidido
realizar un análisis tomando en cuenta las siguientes variables:
Y = monto de la cuota vencida (miles de dólares)
X1 = monto de préstamo (decenas de miles de dólares)
X2 = Tasa de interés
X3 = Tasa de inflación
Los datos correspondientes a los 24 últimos meses fueron procesados con un
paquete estadístico.
La ecuación de regresión es: Yˆ = –349.19 + 0.11995 X1 + 73.77 X2 + 270.46 X3
SOURCE DF SS MS
Regression 3 1991.68 663.8933
Error
Total 20 90.16 4.508
23 2081.83
Matriz Inversa X ' X para la regresión de Y sobre X1, X2 y X3 es:
1904.8608 0.3778341 –810.1331 –916.46323
0.0001190 –0.282884 ––02.05339.00262376
0.3778341 –0.282884 884.875026
–810.1331 –0.0390636 –253.0227 1206.08
–916.46323
Utilice = 0.05 para pruebas unilaterales y = 0.10 para pruebas bilaterales.
a) Para el modelo que incluye a las tres variables explicativas, halle e interprete
un intervalo del 90% de confianza para el coeficiente de regresión parcial
correspondiente al monto del préstamo.
b) Para el modelo que incluye a las tres variables explicativas, ¿se puede afirmar
que el monto promedio de las cuotas vencidas se incrementa en más de
100000 dólares cuando la inflación crece en 1%, manteniéndose constantes
las otras variables?
-16- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
EFECTO DIRECTO
El efecto directo de regresión lineal de una variable independiente Xj viene a ser el
efecto de regresión lineal que se atribuye de manera específica a la variable Xj,
independientemente de los efectos generados por otras variables explicativas.
El efecto directo de la variable Xj debe ser evaluado mediante el análisis de
regresión lineal simple entre dicha variable y la variable dependiente Y.
Para ello se debe realizar la siguiente prueba de hipótesis:
Prueba sobre el efecto directo de una variable independiente:
Para el modelo: y = f(xi ) = o + jX j / p = 2
(1) Hp: j = 0 (unilateral a la derecha)
Hp: j 0
(2) Elección de
(3) El estadístico de prueba puede ser: F= CM(Reg) F[1, n-2]
CM(Res)
(4) El punto crítico es: F2 = F(1−, 1, n−2) R.A. R.R.
Los criterios son: 1-
Se acepta Hp si: Fcal F2
Se rechaza Hp si: Fcal > F2
F2
(5) Cálculo del valor de la prueba: FCAL.
(6) Decisión y conclusiones.
Nota 1: Si se acepta Hp, NO se puede afirmar que la variable tiene efecto directo
significativo sobre la variable Y.
Si se rechaza Hp, se puede afirmar que la variable tiene efecto directo
significativo sobre la variable Y.
Nota 2: La variable con mayor efecto directo significativo es aquella que brinda
un mayor valor para el coeficiente de determinación (r2).
Nota 3: Para esta prueba también se puede usar el estadístico T de Student, pero
la prueba será bilateral.
T= bj - j T(n−p)
Sb j
Estadística para la Universidad -17-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
Ejercicio #6
La empresa financiera PRESTATODO desea estimar un modelo que le permita
predecir el monto de las cuotas vencidas de sus clientes. Para ello ha decidido
realizar un análisis tomando en cuenta las siguientes variables:
Y = monto de la cuota vencida (miles de dólares)
X1 = monto de préstamo (decenas de miles de dólares)
X2 = Tasa de interés
X3 = Tasa de inflación
Los datos correspondientes a los 24 últimos meses fueron procesados con un
paquete estadístico.
La ecuación de regresión es: Yˆ = 13.6 + 0.174 X1
SOURCE DF SS MS F
Regression 1 1910.5 1910.5 245.36
Error
Total 22 171.3 7.786
23 2081.8
La ecuación de regresión es: Yˆ = –878 + 893 X3
SOURCE DF SS MS F
Regression 1 1265.4 1265.4 34.10
Error
Total 22 816.5 37.11
23 2081.8
Utilice = 0.05 para pruebas unilaterales y = 0.10 para pruebas bilaterales.
a) Para cada una de las variables explicativas del modelo, realice un análisis
sobre la significación de los efectos directos.
b) ¿Qué variable tiene mayor efecto directo significativo?
NOTA Para determinar la variable que tiene mayor efecto directo significativo:
1° Prueba de e.d.s. con todas las variables.
2° Para las variables con e.d.s. se determina r2.
3° La variable con mayor r2 es la que tiene mayor e.d.s.
-18- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
EFECTO ADICIONAL
El efecto adicional de regresión lineal de una variable independiente Xj viene a ser
el efecto de regresión lineal que se genera por la inclusión de la variable Xj en el
modelo de regresión, cuando ya están presentes en dicho modelo otras variables
explicativas.
El efecto adicional de cada variable Xj puede ser evaluado mediante el análisis de
regresión lineal múltiple entre las variables Xj y la variable dependiente Y.
Para ello se debe realizar la siguiente prueba de hipótesis:
Prueba sobre el efecto adicional de una variable independiente.
(1) Hp: j = 0 (Prueba bilateral)
Hp: j 0
(2) Elección de
(3) El estadístico de prueba es: T= bj - j T(n-p)
Sb j
(4) Criterios de decisión:
Se acepta Hp si: R.R. R.A. R.R.
T1 TCAL T2 /2 1- /2
Se rechaza Hp si: T1 T2
TCAL T1 o TCAL T2
(5) Cálculo del valor de la prueba TCAL.
(6) Decisión y conclusión.
Nota 1: Si se acepta Hp, NO se puede afirmar que la variable tiene efecto
adicional significativo sobre la variable Y. Si se rechaza Hp, se puede
afirmar que la variable tiene efecto adicional significativo sobre la
variable Y.
Nota 2: La variable que no refleja un efecto adicional significativo puede ser
removida del modelo.
Nota 3: La variable con mayor efecto adicional es aquella con mayor valor de Tcal
en valor absoluto.
Estadística para la Universidad -19-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
Ejercicio #7
La empresa financiera PRESTATODO desea estimar un modelo que le permita
predecir el monto de las cuotas vencidas de sus clientes. Para ello ha decidido
realizar un análisis tomando en cuenta las siguientes variables:
Y = monto de la cuota vencida (miles de dólares)
X1 = monto de préstamo (decenas de miles de dólares)
X2 = Tasa de interés
X3 = Tasa de inflación
Los datos correspondientes a los 24 últimos meses fueron procesados con un
paquete estadístico.
La ecuación de regresión es: Yˆ = –349.19 + 0.11995 X1 + 73.77 X2 + 270.46 X3
SOURCE DF SS MS
Regression 3 1991.68 663.8933
Error
Total 20 90.16 4.508
23 2081.83
Predictor Coef. St.Dev. T
Constant –349.19 92.66 -3.7685
X1 0.11995 0.02317
X2 5.177
X3 73.77 63.16 1.168
270.46 73.73 3.668
¿Qué variable tiene mayor efecto adicional significativo?
Utilice = 0.05 para pruebas unilaterales y = 0.10 para pruebas bilaterales.
-20- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
SELECCIÓN DEL MEJOR MODELO LINEAL
Este es un procedimiento que se utiliza para seleccionar a las mejores variables
explicativas del modelo.
Seleccionar a las mejores variables explicativas implicará obtener el mejor modelo
de regresión lineal estimado.
Procedimiento:
1. Estime el modelo lineal con todas las variables independientes.
2. Verifique si al menos una variable es significativa. (PRUEBA F)
i. Si se acepta Hp, significa que ninguna variable es significativa, entonces,
se termina el proceso y se concluye que debe buscarse nuevas variables
explicativas, o modificar el modelo a estimar.
ii. Si se rechaza Hp, significa que al menos una variable es significativa,
pero aún no se puede identificar cuál o cuáles. Entonces, se deben
realizar pruebas de hipótesis para identificar a las variables que tienen
un efecto adicional significativo. (Usar pruebas individuales T para
cada coeficiente).
3. Realice pruebas de efecto adicional significativo. (PRUEBA T)
i. Si se rechazan todas las HP, quiere decir que todas las variables tienen
efecto adicional significativo en el modelo, entonces, se termina el
proceso y se concluye que el modelo estimado contiene a las mejores
variables explicativas.
ii. Si se acepta una Hp, quiere decir que su variable No tiene efecto
adicional significativo, entonces, se remueve dicha variable del modelo
y se reinician los pasos con un modelo que excluya a dicha variable.
iii. Si se aceptan dos o más Hp, entonces solo se elimina a la variable con
menor efecto adicional; es decir, aquella con menor valor de T calculado
en valor absoluto. Luego, se reinician los pasos con un modelo que
excluya a dicha variable.
Estadística para la Universidad -21-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
Ejercicio #8
La empresa financiera PRESTATODO desea estimar un modelo que le permita
predecir el monto de las cuotas vencidas de sus clientes. Para ello ha decidido
realizar un análisis tomando en cuenta las siguientes variables:
Y = monto de la cuota vencida (miles de dólares)
X1 = monto de préstamo (decenas de miles de dólares)
X2 = Tasa de interés
X3 = Tasa de inflación
Los datos correspondientes a los 24 últimos meses fueron procesados con un
paquete estadístico.
La ecuación de regresión es: Yˆ = –349.19 + 0.11995 X1 + 73.77 X2 + 270.46 X3
SOURCE DF SS MS
Regression 3 1991.68 663.8933
Error
Total 20 90.16 4.508
23 2081.83
Predictor Coef. St.Dev. T
Constant –349.19 92.66 -3.7685
X1 0.11995 0.02317
X2 5.177
X3 73.77 63.16 1.168
270.46 73.73 3.668
Matriz Inversa X ' X para la regresión de Y sobre X1, X2 y X3 es:
1904.8608 0.3778341 –810.1331 –916.46323
0.0001190 –0.282884 ––02.05339.00262376
0.3778341 –0.282884 884.875026
–810.1331 –0.0390636 –253.0227 1206.08
–916.46323
-22- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
La ecuación de regresión es: Yˆ = –281.65 + 0.14354 X1 + 291.56 X3
SOURCE DF SS MS
Regression 2 1985.53 992.765
Error
Total 21 96.31 4.568
23 2081.83
Matrices Inversa [X'X]−1 para la regresión de Y sobre X1 y X3.
1163.1564611 0.1188441433 –1148.114063
[X ' X]−1 = 0–1.1114888.141441046333 0.0000286082 1–103.131.79390521596124
–0.119951914
Obtenga la ecuación de regresión estimada con el mejor conjunto de variables
explicativas.
Utilice = 0.05 para pruebas unilaterales y = 0.10 para pruebas bilaterales.
Estadística para la Universidad -23-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
PREDICCIÓN
Uno de los usos frecuentes de los modelos de regresión estimados es predecir o
estimar el comportamiento de la variable dependiente Y.
Para predecir los valores de Y necesitamos los valores de las variables
independientes.
Tipos de predicción
i. Predicción de un valor medio:
ii. Predicción de un valor individual: Yf
PREDICCIÓN DE UN VALOR MEDIO
Para la estimación puntual del comportamiento promedio de la variable Y ( Y.Xh ),
se requiere fijar un conjunto de valores para las variables independientes.
Dichos valores son establecidos en el siguiente vector:
1 1
xh,1 x1
xh,2
Xh = = x2
p-1 px1
xh,p−1 px1 x
Siendo p el número de coeficientes del modelo.
La estimación puntual del comportamiento promedio de la variable Y ( Y.Xh ), que
se presenta bajo las condiciones establecidas en el vector Xh , que contiene a los
valores particulares de las variables independientes, está dada por:
Yˆh= ˆ Y.Xh = X'h.b = b0 +b1Xh,1 +b2Xh,2 + +bp−1Xh,p−1
NOTA. Una manera rápida y sencilla de obtener el valor estimado individual de la variable Y,
es simplemente reemplazando el valor de cada variable independiente Xi en la ecuación de regresión.
La variancia estimada ( S2Yˆh ) de la estimación puntual del valor promedio de la
variable Y, es:
S2Yˆh = S2.X'h.[X'X]-1.Xh
-24- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
Inferencia sobre la Predicción de un Valor Medio
Intervalo de confianza
Los límites de confianza para un valor medio son:
LIC(Y.Xh ) = Yˆh - T[1- , n-p] .SYˆh
2
LSC(Y.Xh ) = Yˆh + T[1- , n-p] .SYˆh
2
Prueba de Hipótesis
El estadístico de prueba para realizar pruebas de hipótesis es:
T = Yˆh − Y.Xh T(n−p)
SYˆ
Observación:
Cuando las variables explicativas X son iguales a sus respectivos promedios, es
decir:
1
x1
Xh = X = x2
xp−1
px1
El valor promedio estimado de Y dado Xh = X es Yh = Y .
Prueba de Hipótesis
La prueba estadística correspondiente es: T = Yh − Y T(n−p)
SY
Donde: S2Y = S2 = CM(Re s)
n n
Estadística para la Universidad -25-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
Ejercicio #9
La empresa financiera PRESTATODO desea estimar un modelo que le permita
predecir el monto de las cuotas vencidas de sus clientes. Para ello ha decidido
realizar un análisis tomando en cuenta las siguientes variables:
Y = monto de la cuota vencida (miles de dólares)
X1 = monto de préstamo (decenas de miles de dólares)
X2 = Tasa de interés
X3 = Tasa de inflación
Los datos correspondientes a los 24 últimos meses fueron procesados con un
paquete estadístico obteniéndose los siguientes resultados:
La ecuación de regresión es: Yˆ = –281.65 + 0.14354 X1 + 291.56 X3
SOURCE DF SS MS
Regression 2 1985.53 992.765
Error
Total 21 96.31 4.568
23 2081.83
Matrices Inversa [X'X]−1 para la regresión de Y sobre X1 y X3.
1163.1564611 0.1188441433 –1148.114063
[X ' X]−1 = 0–1.1114888.141441046333 0.0000286082 1–103.131.79390521596124
–0.119951914
a) Considerando el modelo con las variables X1 y X3, estime mediante un
intervalo del 90% de confianza, el monto promedio de las cuotas vencidas,
considerando que para el siguiente mes el monto de las deudas será
aproximadamente 2000000 dólares y la inflación llegará a 1.025.
b) Considerando el modelo con las variables X1 y X3, ¿se puede afirmar que el
monto promedio de las cuotas vencidas, cuando el monto de las deudas sea
2000000 dólares y la inflación alcance el 1.025, es mayor de 45 mil dólares?
c) Considerando el modelo con las variables X1 y X3, ¿se puede afirmar que el
monto promedio de cuotas vencidas es mayor de 40000 dólares?
-26- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
PREDICCIÓN DE UN VALOR INDIVIDUAL
Para la estimación puntual del comportamiento individual de la variable Y ( Yf ), se
requiere fijar un conjunto de valores para las variables independientes. Dichos
valores son establecidos en el siguiente vector:
1 1
x f ,1 x1
x f ,2
Xf = = x2
xf ,p−1 px1 xp-1px1
Siendo p el número de coeficientes del modelo.
La estimación puntual del comportamiento individual de la variable Y ( Yf ), está
dada por:
Yˆf = ˆ Y.Xf = ˆ Y.Xf,1,Xf,2, ,Xf,p-1 = X'f .b = b0 +b1Xf,1 +b2Xf,2 + +bp −1Xf ,p −1
NOTA: Una manera rápida y sencilla de obtener el valor estimado individual de la variable Y,
es simplemente reemplazando el valor de cada variable independiente Xi en la ecuación de regresión.
La variancia estimada de la diferencia entre el valor de una observación y su
estimación, al predecir un valor individual, se utiliza la siguiente expresión:
S2Yˆf −Yf = S2. 1 + X'f .[X'X]-1.Xf , donde: S2 = CM(Re s)
Intervalos de Confianza
Los límites de confianza para un valor individual son:
LIC( Yf ) = Yˆf - T[1- , n-p] .SYˆf −Yf
2
LSC( Yf ) = Yˆf + T[1- , n-p] .SYˆf −Yf
2
Estadística para la Universidad -27-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
Ejercicio #10
La empresa financiera PRESTATODO desea estimar un modelo que le permita
predecir el monto de las cuotas vencidas de sus clientes. Para ello ha decidido
realizar un análisis tomando en cuenta las siguientes variables:
Y = monto de la cuota vencida (miles de dólares)
X1 = monto de préstamo (decenas de miles de dólares)
X2 = Tasa de interés
X3 = Tasa de inflación
Los datos correspondientes a los 24 últimos meses fueron procesados con un
paquete estadístico obteniéndose los siguientes resultados:
La ecuación de regresión es: Yˆ = –281.65 + 0.14354 X1 + 291.56 X3
SOURCE DF SS MS
Regression 2 1985.53 992.765
Error
Total 21 96.31 4.568
23 2081.83
Matrices Inversa [X'X]−1 para la regresión de Y sobre X1 y X3.
1163.1564611 0.1188441433 –1148.114063
[X ' X]−1 = 0–1.1114888.141441046333 0.0000286082 1–103.131.79390521596124
–0.119951914
Para el modelo que contiene a las mejores variables explicativas, se estima que
para el siguiente mes los montos de los préstamos efectuados por la empresa serán
de alrededor de 1720000 dólares y que la inflación mensual será de 1.031.
Estime mediante un intervalo del 95% de confianza el monto de las cuotas vencidas
para el siguiente mes.
-28- Estadística para la Universidad
Teoría 9 / Análisis de Regresión Lineal Múltiple / Estadística II
DISTRIBUCIÓN DE LA VARIANZA DE LOS ERRORES ( S2 )
Considerando que CM(Res) es un estimador insesgado de 2 , que los términos
aleatorios i son incorrelacionados y que i N(0, 2 ) se tiene que:
GL(Res).CM(Res) = (n − p).S2 (2n−p)
2 2
Esta distribución puede ser utilizada para hacer procesos de inferencia sobre 2 o
sobre las varianzas condicionales 2Y.Xi = 2 .
Inferencia sobre la Varianza de los errores
Intervalos de Confianza
Los límites de confianza son:
LIC(2i ) = (n − p).S2 ; LSC(2i ) = (n − p).S2
(21−/2, n−p) (2/2, n−p)
Siendo: S2 = CM(Re s)
Prueba de Hipótesis 2 = (n − p).S2 (2n−p)
El estadístico de prueba es: 2i
Siendo: S2 = CM(Re s)
Estadística para la Universidad -29-
Teoría 9 / Análisis de Regresión Lineal Múltiple/ Estadística II
Ejercicio #11
La empresa financiera PRESTATODO desea estimar un modelo que le permita
predecir el monto de las cuotas vencidas de sus clientes. Para ello ha decidido
realizar un análisis tomando en cuenta las siguientes variables:
Y = monto de la cuota vencida (miles de dólares)
X1 = monto de préstamo (decenas de miles de dólares)
X2 = Tasa de interés
X3 = Tasa de inflación
Los datos correspondientes a los 24 últimos meses fueron procesados con un
paquete estadístico.
La ecuación de regresión es: Yˆ = –349.19 + 0.11995 X1 + 73.77 X2 + 270.46 X3
SOURCE DF SS MS
Regression 3 1991.68 663.8933
Error
Total 20 90.16 4.508
23 2081.83
a) Para el modelo que incluye a las tres variables explicativas, determine con un
90% de confianza un intervalo para la varianza del monto de las cuotas
vencidas cuando el monto de préstamo es 1650000 dólares, la tasa de interés
es 1.05 y la tasa de inflación es 1.025.
b) Sobre la base el modelo que incluye a las tres variables explicativas, ¿se puede
afirmar que la variancia de los errores es menor de 14?
-30- Estadística para la Universidad