PRESENTACIÓN
La elaboración del presente trabajo de
investigación se debe al esfuerzo, dedicación y entrega de los
alumnos de la ESCUELA ACADEMICA PROFECIONAL DE ECONOMIA VII CICLO. Dicha elaboración esta dirigida al ECON. SEGUNDO TORIBIO AGURTO MORAN, quien lleva a su cargo el
curso de ECONOMETRIA II.
Esta investigación resume fundamentalmente ,uno
de los problemas econometricos ha la hora de correr un modelo , como es la
MULTICOLINEALIDAD. La misma que se presenta de forma clara
y sencilla con el fin de lograr los objetivos trazados por el grupo,
considerando que pueda ser utilizado para posteriores estudios desarrollados a
lo largo de nuestra carrera profesional y esperando que permita contribuir y
ser una herramienta para acudir a futuro.
INTRODUCCIÓN
No hay una expresión mas errónea, tanto en los libros de
texto de econometría como en la bibliografía
aplicada, que la de “problema de multicolinealidad”. Es un hecho que muchas variables explicativas presentan un alto
grado de colinealidad; asimismo, resulta muy claro que existen diseños
experimentales XtX (matriz de datos) que serían mucho mas
convenientes que los diseños que proporciona la experimentación
natural (la muestra disponible). No obstante, no es nada constructivo quejarse
de la aparente malevolencia de la naturaleza, y los remedios para un mal
diseño, como una regresión por pasos o una regresión en
cadena, pueden ser desastrosamente inapropiados. Es mejor aceptar de plano
que los datos que no se recopilaron mediante experimentos diseñados a
veces no proporcionan mucha información sobre los parametros de
interés.
El supuesto 8del modelo clasico de regresión
lineal (MCRL) plantea que no existe multicolinealidad entre las regresoras
incluidas en el modelo de regresión. En este capítulo
consideramos en forma crítica el supuesto de no multicolinealidad en
busca de respuestas a las siguientes preguntas que son planteadas en base a los
aspectos considerados:
1. ¿Cual es la naturaleza de la multicolinealidad?
2. ¿Cuales son sus consecuencias practicas?
3. ¿Cómo se detecta?
4. ¿Qué medidas pueden tomarse para aliviar el problema de
multicolinealidad?
OBJETIVO
Determinar la naturaleza de la multicolinealidad e obtener una
definición clara de este problema
econométrico.
Conocer las consecuencias negativa asociada a los modelos resultantes del
fenómeno denominado multicolinealidad.
Identificar los principales métodos que posibiliten la
delectación del
problema de multicolinealidad.
Conocer las formas de resolver un modelo
econométrico que presente multicolinealidad.
METODOLOGÍA DE TRABAJO
Para alcanzar los objetivos anteriormente planteados, nos basaremos en el
desarrollar la investigación presente mediante cuatro aspectos fundamentales
a continuación mencionados:
I. conocimientos previo
II. Analisis sobre la naturaleza (definición de multicolinealidad)
III. Consecuencias de la multicolinealidad.
IV. Investigación de la delectación de multicolinealidad.
V. Solución de los problemas de multicolinealidad.
Al desarrollar estos aspectos de forma teórica y practica,
debera quedar claro el problema de multicolinealidad en un modelo econométrico.
PROBLEMA DE MULTICOLINEALIDAD
I.Conocimientos previos
I.1. Analisis de regresión y
correlación lineal.
El analisis de regresión consiste en emplear
métodos que permitan determinar la mejor relación funcional entre
dos o mas variables concomitantes (o relacionadas). El analisis de correlación estudia el grado de
asociación de dos o mas variables.
I.2. Modelo de Regresión Lineal Múltiple.
Mediante un modelo de regresión lineal múltiple (MRLM) tratamos
de explicar el comportamiento de una determinada variable que denominaremos
variable a explicar, variable endógena o variable dependiente, (y
representaremos con la letra Y) en función de un conjunto de k variables
explicativas X1, X2,, Xk mediante una relación de dependencia lineal
(suponiendo X1 = 1):
Y = β1 + β2 ⋅X2 ++ βk ⋅Xk +U siendo U el término de
perturbación o error
Para determinar el modelo anterior, es necesario hallar (estimar) el valor de
los coeficientes β1, β2,, βk. La linealidad en
parametros posibilita la interpretación correcta de los
parametros del
modelo. Los parametros miden la intensidad media de los efectos de las
variables explicativas sobre la variable a explicar y
se obtienen al tomar las derivadas parciales de la variable a explicar respecto
a cada una de las variables explicativas:
II. ANALISIS SOBRE LA NATURALEZA
II.1. Definición de multicolinealidad
El proceso o término de multicolinealidad en Econometría es una
situación en la que se presenta una fuerte correlación entre
variables explicativas del modelo. En la actualidad el
término multicolinealidad se utiliza en un
sentido mas amplio para incluir el caso de multicolinealidad perfecta,
así como
también aquellasituación en donde las variables X estan
intercorrelacionadas, pero no en forma perfecta. La multicolinealidad, incluye
únicamente las relaciones lineales entre las variables independientes y
elimina las relaciones no lineales existentes entre ellas.
Por ejemplo consideremos el siguiente modelo de regresión:
Y = + 1 X + 2 X2 + 3 X3 + e
Donde Y es el costo total de producción y X es la producción. Las
variables X2 (producción al cuadrado) y X3 (producción
al cubo) estan funcionalmente relacionadas con X, pero la
relación no es lineal. Por lo tanto modelos similares
al anterior no violan el supuesto de no multicolinealidad.
Si la multicolinealidad es perfecta, los coeficientes de
regresión son indeterminados y sus desviaciones estandar o
errores son infinitos. Si la multicolinealidad es menos que
perfecta, los coeficientes de regresión aunque determinados o finitos,
poseen errores estandar demasiado grandes, lo cual implica que los
coeficientes no se pueden estimar con gran precisión o exactitud. En
casos de multicolinealidad muy alta, los coeficientes
de regresión continúan siendo insesgados y consistentes pero
dejan de ser eficientes o de varianza mínima
Ejemplo. La multicolinealidad es la dependencia lineal entre las variables
explicativas
Determinante de es cero
No se puede invertir
No se puede calcular el MCO
Causas
Las principales causas que producen multicolinealidad en un modelo son:
Relación causal entre variables explicativas del modelo.
Escasa variabilidad en las observaciones de las variables
independientes.
Reducido tamaño de la muestra.
II.2. ¿Qué se entiende por multicolinealidad en
elmarco de MRLM?
Existen dos tipos de Multicolinealidad. La denominada
multicolinealidad Exacta y la llamada Multicolinealidad Aproximada. La exacta
se define como la existencia de una combinación lineal exacta entre dos
o mas variables exógenas incluidas en el modelo; dicho de modo
analítico, el incumplimiento de la propiedad de Rango Pleno de la matriz
“X” de exógenas del modelo. La Multicolinealidad aproximada
se define como
la existencia de una relación lineal fuerte, aunque no exacta, entre dos
o mas variables exógenas.
¿Por qué se produce?
En primer lugar puede decirse que la multicolinealidad es, en cierto modo, un
fenómeno inevitable: en un sistema económico es generalmente muy
difícil suponer la total falta de correlación entre sus distintos
elementos; aún al contrario, la propia Econometría, como
ejercicio analítico, se apoya de forma fundamental en la idea de la
existencia de interrelaciones entre las variables de los sistemas
económicos analizados de modo que es posible encontrar relaciones
(correlaciones) amplias e incluso relaciones indirectas en la evolución
temporal o la distribución transversal de dos acontecimientos o
realidades económicos aparentemente distantes. No obstante, no resulta
conveniente achacar siempre la existencia de una elevada correlación
entre variables a la esencia del sistema económico ya que, en ocasiones,
es el modelizador quien, descuidando una correcta especificación y un
adecuado tratamiento de los datos, puede generar en un modelo un problema de
multicolinealidad inexistente en origen, aun cuando ni siquiera exista
ningún parecido conceptual entre las series que generan el
problema.Así, resumiendo diremos que:
a. La multicolinealidad aproximada puede aparecer bien por relaciones de
causalidad que se producen en el contexto general económico (“todo
esta relacionado”) o bien de forma “casual” sin que
exista ningún contenido teórico en la misma. Un
caso muy habitual de esta última situación sucede cuando se
introducen variables en niveles: la simplicidad en los niveles de las variables
hacen que aparezcan con facilidad parecidos “casuales” tal y como se observa en el
grafico de abajo.
b. La multicolinealidad exacta sólo puede aparecer por un error en la especificación cometido por el
modelizador que ignora una igualdad o combinación lineal exacta entre
variables. Por ejemplo, el siguiente modelo es, obviamente, un modelo con
multicolinealidad exacta:
Ya que, por definición de Contabilidad Nacional, la Demanda Interna de
un país es, precisamente, igual a la suma del Consumo Privado, el Consumo
Público y la Inversión.
Otro ejemplo igualmente común es caer en lo que se denomina “La
trampa de las ficticias” que consiste en incluir un
número tal de variables ficticias que todas ellas acabe por generar una
combinación lineal con el término independiente.
Ejemplo. Multicolinealidad
aproximada.
E s muy difícil que se dé la multicolinealidad
exacta.
Es posible tener multicolinealidad aproximada
Relación casi lineal entre las variables explicativas o regresoras.
Existen diversas fuentes de multicolinealidad. Como afirman Montgomery y
Peck, la multicolinealidad puede deberse a los siguientes factores:
1. El método de recolección de información. Por ejemplo, la obtención de muestras en unintervalo
limitado de valores tomados por las regresoras en la población.
2. Restricciones en el modelo o en la población objeto de muestreo. Por
ejemplo, en la regresión del consumo de electricidad sobre el ingreso
(X2) y el tamaño de las viviendas (X3) hay una restricción
física en la población, pues las familias con ingresos mas
altos suelen habitar viviendas mas grandes que las familias con ingresos
mas bajos.
3. Especificación del modelo. Por ejemplo, la adición de
términos polinomiales a un modelo de
regresión, en especial cuando el rango de la variable X es
pequeño.
4. Un modelo sobre determinado. Esto
sucede cuando el modelo tiene mas variables explicativas que el
número de observaciones. Esto puede suceder en
investigación médica, donde en ocasiones hay un
número reducido de pacientes sobre quienes se reúne
información respecto de un gran número de variables.
Otra razón para la multicolinealidad, sobre todo en los datos de series
de tiempo, puede ser que las regresoras del
modelo compartan una tendencia común; es decir, que todas aumenten o
disminuyan a lo largo del
tiempo. Por tanto, en la regresión del gasto de
consumo sobre el ingreso, la riqueza y la población, las regresoras
ingreso, riqueza y población tal vez todas crezcan con el tiempo a una
tasa aproximadamente igual, con lo cual se presentaría la colinealidad
entre dichas variables.
III. CONSECUENCIAS DE LA MULTICOLINEALIDAD
III.1. Consecuencia teórica
La multicolinealidad es en esencia un fenómeno (de regresión)
muestral en el sentido en que, aunque las variables X no estén
linealmente relacionadas en la población, pueden estarlo en la
muestraparticular disponible: cuando se postula la función de
regresión teórica o poblacional (FRP), se considera que todas las
variables X incluidas del modelo ejercen una influencia separada o
independiente sobre la variable dependiente Y. Pero puede suceder que en cualquier
muestra dada con que se pruebe la FRP, alguna o todas las variables X sean tan
colineales que no sea posible aislar su influencia individual sobre Y. Es
decir, la muestra falla aunque la teoría establezca que todas las X son
importantes. En resumen, la muestra puede no ser lo bastante “rica”
para acomodar todas las variables X en el analisis.
A manera de ilustración, reconsidere el ejemplo
consumo-ingreso. Los economistas teorizan que, ademas del ingreso, la riqueza del consumidor es también un determinante
importante del
gasto de consumo. Así, podemos escribir
Ahora, puede suceder que cuando se obtiene información sobre el ingreso
y la riqueza, las dos variables pueden estar muy correlacionadas, aunque no en
forma perfecta: la gente con mayor riqueza por lo general tiende a percibir
mayores ingresos. Así, aunque, en teoría, el ingreso y la riqueza
son candidatos lógicos para explicar el comportamiento del gasto de
consumo, en la practica (es decir, en la muestra) puede ser
difícil distinguir las influencias separadas del ingreso y de la riqueza
sobre el gasto de consumo.
Lo ideal para evaluar los efectos individuales de la riqueza y del ingreso
sobre el gasto de consumo es un número suficiente de observaciones
muéstrales de individuos con riqueza pero con ingresos bajos, e individuos
de altos ingresos con escasa riqueza. Aunque esto puede ser
posible en losestudios de corte transversal (al incrementar el tamaño de
la muestra), es muy difícil en el trabajo de series de tiempo agregadas.
III.2. Consecuencias practicas
En los casos de casi o alta multicolinealidad es probable que se presenten las
siguientes consecuencias:
a) Los estimadores, presentan varianzas y covarianzas grandes que dificultan la
estimación precisa.
b) Debido a la consecuencia 1, los intervalos de confianza tienden a ser mucho
mas amplios, lo cual propicia una aceptación mas
facil de la “hipótesis nula cero” (es decir, que el
verdadero Coeficiente poblacional es cero).
c) También debido a la consecuencia 1, la razón t de uno o
mas coeficientes tiende a ser estadísticamente no significativa.
d) Aunque la razón t de uno o mas coeficientes sea
estadísticamente no significativa, R2, la medida global de bondad de
ajuste, puede ser muy alta.
e) Los estimadores de MCO y sus errores estandar son sensibles a
pequeños cambios en los datos.
3.1. Estimadores de MCO con varianzas y covarianzas grandes:
Para ver varianzas y covarianzas grandes,
recuerde que, las varianzas y covarianzas de ˆ β2 y ˆ β3
estan dadas por:
……….. (3)
……..… (4)
…….. (5)
Donde r23 es el coeficiente de correlación entre X2 y X3.
De (3) y (4) se desprende que, a medida que r23 tiende a 1, es decir, a medida
que aumenta la colinealidad, también lo hacen las varianzas de los dos
estimadores y, en el límite, cuando r23 =1, son infinitas. Es igualmente claro de (5) que, a medida que r23 aumenta hacia 1,
la covarianza de los dos estimadores también aumenta en valor absoluto.
[Nota:] .
3.2. Intervalos de confianza masamplios
Debido a los errores estandar grandes, los intervalos de confianza para
los parametros poblacionales relevantes tienden a ser mayores. Por
ejemplo, cuando r23 =0.95, el intervalo de confianza para β2 es mas
grande que cuando r23 = 0 por un factor de
O alrededor de 3.
Por consiguiente, en casos de alta multicolinealidad,
los datos muéstrales pueden ser compatibles con un diverso conjunto de
hipótesis. De ahí que aumente la probabilidad de aceptar una
Hipótesis falsa (es decir, un error tipo II).
3.3. Razones t “no significativas”
Recuerde que para probar la hipótesis nula de que, por ejemplo, β2
=0, utilizamos la razón t, es decir, ˆ β2/ee (ˆ β2)
y comparamos el valor t estimado con el valor t crítico de la tabla t.
Pero, como vimos, en casos de alta colinealidad los errores estandar
estimados aumentan drasticamente, lo que disminuye los valores t. Por
consiguiente, en tales casos se acepta cada vez con mayor facilidad la
hipótesis nula de que el verdadero valor poblacional relevante es cero.
3.4. Una alta pero pocas razones t significativas
Considere el modelo de regresión lineal con k variables:
En casos de alta colinealidad es posible encontrar, como acabamos de mencionar,
que uno o mas coeficientes parciales de pendiente son, de manera
individual, no significativos estadísticamente con base en la prueba t.
Aun así, R2 en tales situaciones puede ser tan alto, digamos, superior a
0.9, que, con base en la prueba F, es posible rechazar convincentemente la
hipótesis de que β2 =β3 =. . . _=βk =0. En realidad,
ésta es una de las señales de multicolinealidad: valores t no
significativos pero un R2 globalalto (y un valor F
significativo).
3.5. Sensibilidad de los estimadores de MCO y sus errores estandar ante
cambios pequeños en los datos
Siempre que la multicolinealidad no sea perfecta, es posible la
estimación de los coeficientes de regresión; sin embargo, las
estimaciones y sus errores estandar se tornan muy sensibles aun al
mas ligero cambio de los datos.
¿Cuales son las consecuencias de
multicolinealidad exacta y aproximada?
Las consecuencias sobre las propiedades del Modelo Basico de Regresión
Lineal deben distinguirse nuevamente según se esté hablando de
Multicolinealidad Exacta o Aproximada:
a) En el caso de existencia de multicolinealidad exacta, los parametros
no pueden estimarse ya que, al existir dentro de la matriz “X” de
observaciones de variables exógenas una combinación lineal de
variables, ésta no tendra rango pleno y por tanto no sera
invertible. Si eso sucede, el producto (X’X) tampoco tendra
inversa de modo que no podremos calcular la expresión del estimador Mínimo
Cuadratico:
b) En el caso de multicolinealidad aproximada las propiedades de los
estimadores (insesgadez, eficiencia y consistencia) no se ven afectadas. Es decir, el estimador de MCO sigue siendo el estimador con mejores
propiedades de entre los de su “clase” de estimadores. Sin
embargo, a pesar de que las varianzas del
estimador de MCO son las mínimas posibles, (es decir, a pesar de la
eficiencia del estimador MCO) estas varianzas
son mayores que las que se lograrían en ausencia del problema de multicolinealidad.
En concreto, puede demostrarse que la varianza de los estimadores es:
Donde:
R2j representa la correlación quemantiene la variable Xij con el resto
de variables exógenas incluidas en el modelo.
El problema descrito anteriormente de mayor varianza en las estimaciones,
provoca los siguientes efectos inmediatos:
Que los parametros estimados se interpreten peor, al poder estar muy
alejados del verdadero valor del parametro: varianza e
imprecisión son una misma cosa, a mayor varianza en la
estimación, mayor imprecisión y por lo tanto, resultados
mas alejados de la realidad.
Que los parametros sean muy inestables y
fluctúen de forma importante al introducir nueva información. Efectivamente, al ser el parametro mas impreciso, al
presentar mayor rango de variación, una nueva estimación puede
arrojar valores muy diferentes a la anterior.
Que los contrastes individuales “t” tiendan a
tomar valores inferiores a los reales haciendo que rechacemos variables
realmente significativas. Debemos recordar que, efectivamente, la ratio
“t” de significación individual se obtiene mediante la
expresión:
Por lo que, a mayor varianza, menor valor del ratio “t”. Así, en una situación de multicolinealidad y, por
tanto, de mayor varianza en las estimaciones, esas ratios “t”
apareceran artificialmente mas bajas de lo que realmente
serían si modificasemos convenientemente la
especificación.
IV. DETECCIÓN DE LA MULTICOLINEALIDAD
Después de estudiar las características y las consecuencias de la
multicolinealidad, el interrogante natural es: ¿cómo conocer la
presencia de colinealidad en cualquier situación dada, en especial en
modelos con mas de dos variables explicativas? Aquí es
útil la advertencia de Kmenta:
a. La multicolinealidad es una cuestión degrado y no de clase. La
distinción importante no es entre presencia o ausencia de
multicolinealidad, sino entre sus diferentes grados.
b. Como la
multicolinealidad se refiere a la condición de las variables
explicativas que son no estocasticas por supuestos, es una
característica de la muestra y no de la población.
Por consiguiente, no es necesario “llevar a cabo pruebas sobre
multicolinealidad”, pero, si se desea, es posible medir su grado en
cualquier muestra determinada.
Como la
multicolinealidad es en esencia un fenómeno de
tipo muestral que surge de información sobre todo no experimental
recopilada en la mayoría de las ciencias sociales, no hay un
método único para detectarla o medir su fuerza. Lo que se tiene
en realidad son ciertas reglas practicas, algunas informales y otras
formales, pero todas reglas practicas. Consideremos algunas de ellas.
IV.1. Una R2 elevada pero pocas razones t significativas.
Si R2 es alta, es decir, esta por encima de 0.8, la prueba F, en la
mayoría de los casos, rechazara la hipótesis de que los
coeficientes parciales de pendiente son simultaneamente iguales a cero,
pero las pruebas t individuales mostraran que ningún coeficiente
parcial de pendiente, o muy pocos, son estadísticamente diferentes de
cero. Demostramos lo anterior con claridad en el ejemplo de consumo-ingreso-riqueza.
Aunque este diagnóstico es razonable, su
desventaja es que “es demasiado fuerte, en el sentido de que la
multicolinealidad se considera dañina únicamente cuando no se
puede separar la totalidad de las influencias de las variables explicativas
sobre Y”.
IV.2. Altas correlaciones entre parejas de regresoras.Otra
regla practica recomendable consiste en observar el coeficiente de
correlación de orden cero o entre dos regresoras. Si éste
es alto, digamos, superior a 0.8, la multicolinealidad es un
problema grave. La desventaja con este criterio es
que, aunque las altas correlaciones de orden cero pueden sugerir la presencia
de colinealidad, no es necesario que dichas correlaciones sean altas para tener
colinealidad en un determinado caso específico. En términos un poco técnicos: las correlaciones de orden cero
elevadas son una condición suficiente pero no necesaria para la
existencia de multicolinealidad, debido a que puede existir a pesar de que las
correlaciones de orden cero o correlaciones simples sean comparativamente bajas
(es decir, inferiores a 0.50). Para apreciar
esta relación, suponga un modelo con cuatro variables:
Yi = β1 + β2X2i + β3X3i + β4X4i + ui
y suponga que
X4i =λ2X2i + λ3X3i
Donde λ2 y λ3 son constantes, sin ser las dos iguales a cero. Obvio,
X4 es una combinación lineal exacta de X2 y X3, que da R2
4.23 =1, el coeficiente de determinación en la regresión de X4
sobre X2 y X3.
Ahora recordemos la fórmula
Pero, como
por la existencia de colinealidad perfecta, obtenemos
No es difícil ver qué satisface con r42 = 0.5, r43 =0.5 y r23 =−0.5,
que no son valores muy altos.
Por consiguiente, en los modelos donde hay mas de dos
variables explicativas, la correlación simple o de orden cero no
proporciona una guía infalible sobre la presencia de multicolinealidad.
Claro que si sólo existen dos variables explicativas,
bastaran las correlaciones de orden cero.
IV.3. Examen de las correlaciones parciales.Debido al problema recién
descrito, que se basa en correlaciones de orden cero, Farrar y Glauber sugieren
que deben observarse, en lugar de ellas, los
coeficientes de correlación parcial. De esta forma, en la
regresión de Y sobre X2, X3 y X4, si se encuentra que R21.234 es muy
elevada pero r 212.34, r 2 13.24 y r 2 14.23 son comparativamente bajas, esto
puede sugerir que las variables X2, X3 y X4 estan muy
intercorrelacionadas y que por lo menos una de estas variables es superflua.
Si bien puede ser útil un estudio de
correlaciones parciales, nada garantiza que proporcionen una guía infalible
sobre multicolinealidad, pues puede suceder que tanto R2como todas las
correlaciones parciales sean lo bastante altas. Sin embargo, y tal vez mas importante, C. Robert Wichers
mostró20 que la prueba de correlación parcial de Farrar-Glauber
es ineficaz
IV.4. Regresiones auxiliares.
Como la multicolinealidad surge porque una o mas de las regresoras son
combinaciones lineales exactas o aproximadas de las demas regresoras,
una forma de determinar cual variable X esta relacionada con las
demas variables X es efectuar la regresión de cada Xi sobre las
variables X restantes y calcular la R2 correspondiente, que se designa
R2i; cada una de estas regresiones se denomina regresión auxiliar,
auxiliar a la regresión principal de Y sobre las X. Así, conforme
a la relación entre F y R2 establecida, la variable
=
Sigue la distribución F con k − 2 y n − k + 1 GL. En la
ecuación, n representa el tamaño de la muestra, k representa el
número de variables explicativas incluyendo el intercepto y R2xi
·x2x3···xk es el coeficiente de
determinación en laregresión de la variable Xi sobre las
variables X restantes.
Si la F calculada excede a la Fi crítica en el nivel de significancia
seleccionado, se dice que la Xi particular es colineal con las demas X;
si no excede a la Fi crítica, se dice que ésta no es colineal con
las demas X, en cuyo caso se puede mantener la variable en el modelo. Si
Fi es estadísticamente significativa, aún hay que decidir si la
Xi en consideración debe eliminarse del modelo.
Sin embargo, este método no carece de
desventajas, pues si la multicolinealidad comprende sólo unas cuantas
variables, de forma que las regresiones auxiliares no sufran de
multicolinealidad extensa, los coeficientes estimados pueden revelar la
naturaleza de la dependencia lineal entre las regresoras.
Por desgracia, si existen diversas asociaciones lineales complejas, este ejercicio de ajuste de curva puede no tener gran valor,
pues sera difícil identificar las interrelaciones separadas.
En lugar de probar formalmente todos los valores R2 auxiliares, se puede
adoptar la regla Practica de Klein, que sugiere que la multicolinealidad
puede ser un problema complicado solamente si la R2 obtenida de una
regresión auxiliar es mayor que la R2 global, es decir, si se obtiene de
la regresión de Y sobre todas las regresoras.25 Por cierto, al igual que
todas las demas reglas practicas, ésta debe utilizarse con
buen criterio.
IV.5. Valores propios e índice de condición.
Mediante Eviews y Stata podemos calcular los valores propios
y el índice de condición para diagnosticar la multicolinealidad.
No analizaremos aquí el tema de los valores propios, pues
implicaría abordar temas de algebramatricial, fuera del
alcance de este libro.
Sin embargo, a partir de estos valores propios puede derivarse lo que se conoce
como número de condición k, definido como
Y el índice de condición (IC), definido como
Entonces tenemos esta regla practica: Si k esta entre l00 y 1
000, existe una multicolinealidad que va de moderada a fuerte, mientras que si
excede de 1 000, existe multicolinealidad grave. De otro modo, si el IC (√k)
esta entre 10 y 30, hay multicolinealidad entre moderada y fuerte, y si
excede de 30, una multicolinealidad grave.
IV.6. Diagrama de dispersión.
Es una buena practica usar un diagrama de dispersión
para ver cómo se relacionan las diversas variables de un modelo de
regresión.
Cuanto mayor es 2 σˆ, es decir, cuanto mayor es la dispersión
de los datos en modelo ajustado, mayor sera la varianza del
estimador (Figura 1).
Al aumentar el tamaño de la muestra se reduce la varianza del
estimador.
Cuanto menor sea la varianza muestral del
regresor, es decir, cuanto menor sea la variabilidad muestral del
regresor, mayor sera la varianza del
correspondiente coeficiente. (Figura 2)
V. MEDIDAS CORRECTIVAS
El modelo estimado y no siempre consisten en eliminarla por completo. Si se trata de realizar predicciones en el caso de
multicolinealidad, cabe esperar que la multicolinealidad detectada en el
período muestral, también se dé en el período de
predicción. En cambio, si queremos realizar un
analisis de cambio estructural, entonces resulta vital eliminar el
problema por completo.
Una vez identificado un problema de multicolinealidad
en el modelo, hay varias formas para tratar de solventarlo. Lastécnicas mas
utilizadas para solucionar el problema de multicolinealidad son las siguientes:
1. Incorporación de nueva información Sin embargo, hemos de
discernir entre
el aumento del tamaño muestral de modo que se reduzca el problema de
correlación entre las variables explicativas; y :
utilización de otra clase de información extramuestral que se
lleva a cabo mediante restricciones sobre los parametros del modelo
inicial.
eliminación algunas variables explicativas de
la regresión (especialmente si esto afecta poco a la bondad del ajuste);
transformación de las variables del
modelo; por ejemplo, en el caso de modelos cuadraticos, extrayendo la
media del
regresor antes de considerar su cuadrado.
2. Especificación del modelo que puede llevarse a cabo mediante:
eliminación algunas variables explicativas de la regresión
(especialmente si esto afecta poco a la bondad del
ajuste);
transformación de las variables del
modelo; por ejemplo, en el caso de modelos cuadraticos, extrayendo la
media del
regresor antes de considerar su cuadrado.
3. Estimación Ridge, Este método se basa en la premisa de que el
valor reducido del
determinante de la matriz X’.X puede causar problemas a la hora de
aplicar el método de mínimos cuadrados ordinarios. Así
pues, solventar este tipo de problemas se procede a la estimación Ridge
que consiste en sumar una determinada cantidad a los elementos de la diagonal
principal de X’.X. El estimador Ridge es
BRidge = [X’.X + c.Ik]-1. X’.Y,
Siendo c una constante arbitraria positiva. El inconveniente es que el
estimador Ridge presenta un sesgo que aumenta con el valor de la constante c.
Sin embargo,ante una elección entre el estimador MCO y el estimador
Ridge, optamos por el último en el caso si el error cuadratico
medio del mismo es menor que el de MCO.
V.1. Presencia de valores extraños
Las técnicas de solucionar la multicolinealidad no siempre acaban con
todos los errores muéstrales. En ocasiones, es útil ver
con mas detalle de cómo se ha generado la muestra que ya tenemos.
Un analisis particularizado, sobre todo cuando
disponemos de una muestra pequeña, nos permite detectar observaciones
que han sido generadas por un proceso distinto. Las observaciones
atípicas hacen que la recta de regresión tienda a desplazarse en
su dirección, o bien cambie de pendiente, así causando
alteraciones inesperadas en los resultados de estimación en
comparación de lo que predice la teoría económica.
Las observaciones atípicas, extrañas o influyentes pueden tener
formas diferentes; distinguimos entre las siguientes clases de observaciones
anómalas:
a) Atípicas con respecto al eje de abscisas.
b) Atípicas en relación de eje de ordenadas;
c) Atípicas respecto tanto a las abscisas como a las
ordenadas.
A fin de determinar si una observación es
atípica en relación de las variables explicativas, estudiamos el
grado de apalancamiento (leverage) de esa observación. La
intuición nos sugiere que las observaciones atípicas o
extrañas, siendo alejadas del resto de las observaciones,
pueden también presentar un cierto grado de apalancamiento.
V.2. ¿Qué puede hacerse si la multicolinealidad
es grave?
Hay dos posibilidades:
no hacer nada
seguir algunas reglas practicas.
V.2.1. NO HACER NADA
Blanchard expresa de la siguiente manera lacorriente de pensamiento que aboga
por “no hacer nada”, Cuando los estudiantes efectúan por
primera vez la regresión de mínimos cuadrados ordinarios (MCO),
el primer problema que suelen afrontar es el de la multicolinealidad. Muchos concluyen que hay algo malo con los MCO; otros recurren a
nuevas y con frecuencia creativas técnicas a fin de darle la vuelta al
problema. Pero eso esta mal. La
multicolinealidad es la voluntad de Dios, no un
problema con los MCO ni con la técnica estadística en general.
Lo que Blanchard afirma es que la multicolinealidad es en esencia un problema de deficiencia de datos (de nuevo,
micronumerosidad), y en algunas ocasiones no hay opción respecto de los
datos disponibles para el analisis empírico.
Asimismo, no es que todos los coeficientes en un
modelo de regresión sean estadísticamente insignificantes. Al
contrario, aunque no se puedan estimar uno o mas coeficientes de
regresión con gran precisión, es posible calcular una
combinación lineal de ellos (es decir, una función estimable) con
relativa eficiencia. Como
vimos en , α se calcula de forma única,
aunque no puedan estimarse sus dos componentes dados ahí de manera
individual. Algunas veces esto es lo mejor que se puede hacer con un determinado conjunto de datos.
V.2.2. PROCEDIMIENTOS DE REGLAS PRACTICAS
Se pueden intentar las siguientes reglas practicas para abordar el
problema de la multicolinealidad; el éxito depende de la gravedad de la
multicolinealidad.
Información a priori.
Suponga que consideramos el modelo
Yi = β1 + β2X2i + β3X3i + ui
Donde Y = consumo, X2 = ingreso y X3 = riqueza. Las variables
ingreso y riqueza tienden aser muy coloniales. Pero suponga que, a
priori, creemos que β3 =0.10β2; es decir, la tasa de cambio del consumo respecto de la
riqueza es una décima parte de la correspondiente respecto del ingreso. Podemos
entonces efectuar la siguiente regresión:
Yi =β1 + β2X2i + 0.10 β2X3i + ui
=β1 + β2Xi + ui
Donde Xi =X2i + 0.1X3i.
Una vez obtenido podemos estimar a partir de la
relación postulada entre β2 y β3.
¿Cómo obtener información a priori?
Puede provenir de un trabajo empírico anterior,
en donde el problema de colinealidad resultó ser menos grave o de la
teoría relevante que soporta el campo de estudio.
Transformación de variables.
Suponga que tenemos información de series de tiempo
sobre el gasto de consumo, el ingreso y la riqueza. Una razón de
la alta multicolinealidad entre el ingreso y la
riqueza en tal información es que, con el tiempo, las dos variables
tienden a moverse en la misma dirección. Una forma de
reducir esta dependencia es proceder de la siguiente manera. Si la
relación
Yt =β1 + β2X2t + β3X3t + ut (1)
Se cumple en el periodo t, también debe cumplirse en el periodo t −
1, pues el origen del
tiempo es, de todas formas, arbitrario. Por consiguiente, tenemos que:
Yt−1 = β1 + β2X2,t−1 + β3X3,t−1 + ut−1
(2)
Si restamos 2 de 1 obtenemos:
Yt - Yt−1 = β2 (X2t − X2,t−1) + β3(X3t − X3,t−1)
+ vt (3)
Donde vt =ut − ut−1. La ecuación (3) se conoce como
la forma en primeras diferencias porque no se hace la regresión sobre
las variables originales, sino sobre las diferencias de los valores sucesivos
de dichas variables.
Elmodelo de regresión que utiliza primeras diferencias a menudo reduce
la gravedad de la multicolinealidad porque, aunque los niveles de X2 y X3
estén muy correlacionados, no hay razón a priori para pensar que
sus diferencias también lo estan.
Una ventaja incidental de la transformación de
primeras diferencias consiste en que puede hacer que una serie de tiempo no
estacionaria se convierta en estacionaria.
Otra transformación común en la practica
es la transformación de razón. Considere el siguiente
modelo:
Yt =β1 + β2X2t + β3X3t + ut
Donde Y es el gasto de consumo en dólares reales, X2 es el PIB y X3 es
la población total. Como el PIB y la población aumentan con el
tiempo, es muy probable que estén correlacionados. Una
“solución” a este problema consiste en expresar el modelo
mediante una base per capita; es decir, dividir (2) entre X3 para
obtener:
+ β2+ β3+
Dicha transformación tal vez reduzca la colinealidad en las variables originales.
Sin embargo, la transformación que utiliza primeras
diferencias o las transformaciones de razón crean otros problemas.
Por ejemplo, el término de error vt que aparece
en (3) puede no satisfacer un supuesto del
modelo clasico de regresión lineal, a saber, que las
perturbaciones no estan seriamente correlacionadas. Como veremos en el capítulo 12, si el
término de perturbación ut original no esta seriamente
correlacionado, el término de error vt obtenido
antes estara, en la mayoría de los casos, seriamente
correlacionado. De nuevo, el remedio puede ser peor que la
enfermedad. Ademas, se pierde una
observación debido al procedimiento de diferenciación y, por
consiguiente, losgrados de libertad se reducen en 1. En una muestra
pequeña esto puede ser un factor que al menos
se debe considerar. Por añadidura, el procedimiento de primeras
diferencias puede no ser el adecuado en los datos de corte transversal, donde
no hay un ordenamiento lógico de las
observaciones.
Del mismo modo, en el modelo de la
razón (5), el término de error:
Sera heteroscedastico, si el término de error original ut
es homoscedastico, como
veremos en el capítulo 11. Una vez mas, el
remedio quiza resulte peor que la enfermedad de la colinealidad.
En resumen, se debe tener cuidado con las primeras
diferencias o el método de la razón para transformar los datos a
fin de resolver el problema de la multicolinealidad.
Datos nuevos o adicionales.
Como la multicolinealidad es una
característica de la muestra, es posible que en otra muestra con las
mismas variables la colinealidad no sea tan grave como en la primera.
A veces, con sólo aumentar el tamaño de la muestra (si esto es
posible) se atenúa el problema de colinealidad.
Como ejemplo, considere la siguiente
regresión del
gasto de consumo Y sobre el ingreso X2 y
la riqueza X3 basada en 10 observaciones.
Yˆi =24.377 + 0.8716X2i − 0.0349X3i
t (cal)= (3.875) (2.7726) (−1.1595) R2 = 0.9682
t(tab)=2.365
El coeficiente de la riqueza en esta regresión no sólo tiene el
signo equivocado, sino que estadísticamente no es significativo en el
nivel de 5%. Pero cuando el tamaño de la muestra se incrementó a
40 observaciones (micro numerosidad) se obtuvieron los siguientes resultados:
Yˆi =2.0907 + 0.7299X2i + 0.0605X3i
t(cal)= (0.8713) (6.0014) (2.0014) R2 = 0.9672
t(tab)=2.021
Ahora el coeficiente de la riqueza no sólo tiene el signo correcto, sino
que es estadísticamente significativo en el nivel de 5%.
La obtención de datos adicionales o “mejores” no siempre es
tan sencilla, pues, como
mencionan Judge et al.: Por desgracia, muy pocas veces pueden los economistas
obtener información adicional sin incurrir en altos costos, y mucho
menos pueden seleccionar los valores de las variables explicativas que desean.
Ademas, al agregar variables en situaciones no controladas, se debe
tener cuidado de no agregar observaciones generadas en un
proceso diferente del
asociado al conjunto original de datos; es decir, se debe estar seguro de que
la estructura económica asociada a las nuevas observaciones sea igual a la
estructura original.
Eliminación de una(s) variable(s) y el sesgo de
especificación.
Al enfrentar el problema de multicolinealidad grave, una de las soluciones
“mas simples” consiste en omitir del modelo una de
las variables coloniales.
Sin embargo, al eliminar una variable del modelo se puede incurrir en un
sesgo de especificación o error de especificación. El sesgo de
especificación surge de la especificación incorrecta del
modelo utilizado en el analisis.
Por ejemplo, en la teoría económica se afirma que tanto el
ingreso como
la riqueza deben incluirse en el modelo que explica el gasto de consumo, al
eliminar la variable riqueza se incurriría en un sesgo de
especificación.
Eliminar una variable del modelo para resolver el
problema de la multicolinealidad puede producir un sesgo de
especificación. Por tanto, el remedio suele ser peor que la enfermedad
en algunas situacionesporque, mientras que la multicolinealidad puede
obstaculizar la estimación precisa de los parametros del modelo,
la omisión de una variable generaría graves equivocaciones
respecto de los verdaderos valores de los parametros. Recuerde
que los estimadores de MCO son MELI a pesar de la presencia de
multicolinealidad perfecta.
¿Es la multicolinealidad necesariamente mala? Quiza no, si el objetivo es sólo la
predicción?
Dijimos que si el único propósito del analisis
de regresión es el pronóstico o la predicción, la
Multicolinealidad no es un problema grave, pues, entre mas alta sea la
R2, mejor sera la predicción. Pero esto sucede
“… siempre que los valores de las variables explicativas, para los
cuales se desean las predicciones, obedezcan las mismas dependencias lineales
casi exactas de la matriz X [de datos] del
diseño original”.
Por tanto, si en una regresión estimada se encuentra que X2=2X3
aproximadamente, entonces, en una muestra futura para pronosticar Y, X2
también debe ser aproximadamente igual a 2X3, condición
difícil de cumplir en la practica, en cuyo caso la
predicción sera cada vez mas incierta.42 Mas
aún, si el objetivo del analisis no es
Sólo la predicción sino también la estimación
confiable de los parametros, la presencia de una alta multicolinealidad
puede ser un problema porque, como vimos, genera grandes errores
estandar en los estimadores.
Sin embargo, existen situaciones en las cuales la multicolinealidad puede no
representar un problema grave.
Es el caso en el cual se tiene una R2 elevada y los coeficientes de
regresión son significativos individualmente como
lo demuestran los altos
valores t.
Aun así,los diagnósticos de multicolinealidad, por ejemplo el
índice de condición, indican que los datos presentan colinealidad
grave. ¿Cuando puede presentarse tal
situación? Como menciona Johnston:
Esto sucede si los coeficientes individuales resultan estar
numéricamente muy por encima del valor verdadero, de forma que el efecto
siga visible, a pesar de los errores estandar inflados y/o debido a que
el valor verdadero es en sí mismo tan grande que, aunque se obtenga una
estimación subestimada, continúe siendo significativa
Casos practicos.
EJERCICIO 01: Gasto de consumo en relación con el ingreso y la riqueza
Datos hipotéticos de gasto de consumo Y, ingreso X2 y riqueza X
Si suponemos que el gasto de consumo se relaciona linealmente con el ingreso y
la riqueza, entonces, con base en la tabla, obtenemos la siguiente
regresión:
Yˆi = 24.7747 + 0.9415X2i − 0.0424X3i
(6.7525) (0.8229) (0.0807)
t (cal) = (3.6690) (1.1442) (−0.5261)
R2 = 0.9635 = 0.9531 gl = 7
t (tab) = 2.365
TABLA ANOVA
SOLUCION:
La regresión muestra que el ingreso y la riqueza explican en conjunto
alrededor de 96% de la variación en los gastos de consumo. A pesar de esto, ningún coeficiente de las pendientes es
estadísticamente significativo de manera individual. Ademas, no sólo la variable riqueza es
estadísticamente no significativa, sino que también tiene el
signo incorrecto. A priori, se esperaría una
relación positiva entre el consumo y la riqueza.
A pesar de que y no son significativos individualmente en términos
estadísticos, si se prueba la hipótesis de que β2 =β3 =
0 simultaneamente, estahipótesis puede rechazarse, como lo demuestra la tabla ANOVA
Según el supuesto usual obtenemos:
F=92.4019
Como es obvio,
este valor F es muy significativo.
El ejemplo muestra en forma muy evidente lo que hace la
multicolinealidad. El hecho de que la prueba F sea significativa pero
los valores t de X2 y X3 no sean significativos individualmente implica que las
dos variables estan tan correlacionadas que es imposible aislar el
impacto individual del ingreso o de la riqueza sobre el consumo. De hecho, si
efectuamos la regresión de X3 sobre X2, obtenemos:
_= 7.5454 + 10.1909X2i
(29.4758) (0.1643)
t (cal)= (0.2560) (62.0405) R2= 0.9979
t (tab)= 2.306
Esto muestra una colinealidad casi perfecta entre X3 y X2.
Ahora veamos lo que sucede si sólo efectuamos la regresión de Y
sobre X2:
= 24.4545 + 0.5091X2i
(6.4138) (0.0357)
t (cal)= (3.8128) (14.2432) R2= 0.9621
t (tab)= 2.306
INTERPRETACION: En la regresión múltiple que se planteó al
inicio la variable ingreso no era estadísticamente significativa,
mientras que ahora es muy significativa.
Si en lugar de efectuar la regresión de Y sobre X2 lo hacemos sobre X3,
obtenemos:
Yˆi = 24.411 + 0.0498X3i
(6.874) (0.0037)
t (cal)= (3.551) (13.29) R2= 0.9567
t (tab)= 2.306
INTERPRETACION: Se observa que la riqueza tiene ahora un impacto significativo
sobre el gasto de consumo, mientras que en la primera regresión
múltiple no tenía ninguno.
CONCLUSION: Las dos últimas regresiones simples
muestran con toda claridad que, en situaciones de extrema multicolinealidad,
eliminar la variable altamente colineal con frecuencia provoca que la otra
variable X se torneestadísticamente significativa. Este
resultado sugiere que una forma de evadir la colinealidad extrema es eliminar
la variable colineal.
EJERCICIO 02:
Tenemos unas series de tiempo de 1947 a 1962, donde Y = número de
personas con trabajo (en miles), X1= índice implícito de
deflación de precios para el PIB, X2 = PIB (en millones de
dólares), X3 = número de desempleados (en miles), X4 =
número de personas enlistadas en las fuerzas armadas, X5 =
población no institucionalizada mayor de 14 años de edad y X6 =
año (igual a 1 para 1947, 2 para 1948 y 16 para 1962).
Observación
Y
X1
X2
X3
X4
X5
Tiempo
1947
60323
830
234289
2356
1590
107608
1
1948
61122
885
259426
2325
1456
108632
2
1949
60171
882
258054
3682
1616
109773
3
1950
61187
895
284599
3351
1650
110929
4
1951
63221
962
328975
2099
3099
112075
5
1952
63639
981
346999
1932
3594
113270
6
1953
64989
990
365385
1870
3547
115094
7
1954
63761
1000
363112
3578
3350
116219
8
1955
66019
1012
397469
2904
3048
117388
9
1956
67857
1046
419180
2822
2857
118734
10
1957
68169
1084
442769
2936
2798
120445
11
1958
66513
1108
444546
4681
2637
121950
12
1959
68655
1126
482704
3813
2552
123366
13
1960
69564
1142
502601
3931
2514
125368
14
1961
69331
1157
518173
4806
2572
127852
15
1962
70551
1169
554894
4007
2827
130081
16
Suponga que el objetivo es predecir Y con base en las seis variables X.
Mediante el software EViews6 obtenemos los siguientes resultados de la
regresión:
A primera vista, dichos resultados sugieren que se tiene un problema de
colinealidad, pues elvalor R2 es muy alto; sin embargo, unas cuantas variables
son estadísticamente no significativas (X1, X2 y X5), lo cual constituye
un síntoma característico de multicolinealidad.
Para arrojar mas luz
a este problema, en la tabla se presentan las intercorrelaciones entre las seis
regresoras.
X1
X2
X3
X4
X5
X6
X1
1.000000
0.991589
0.620633
0.464744
0.979163
0.991149
X2
0.991589
1.000000
0.604261
0.446437
0.991090
0.995273
X3
0.620633
0.604261
1.000000
−0.177421
0.686552
0.668257
X4
0.464744
0.446437
−0.177421
1.000000
0.364416
0.417245
X5
0.979163
0.991090
0.686552
0.364416
1.000000
0.993953
X6
0.991149
0.995273
0.668257
0.417245
0.993953
1.000000
Esta tabla suministra lo que se llama matriz de correlación. En la
tabla, las entradas de la diagonal principal (las que van desde la esquina
superior izquierda hacia la esquina inferior derecha) suministran la
correlación de una variable consigo misma, la cual por definición
siempre es 1; ademas, las entradas fuera de la diagonal principal son
las parejas de correlaciones entre las variables X. El primer renglón de
esta tabla proporciona la correlación de X1 con las otras variables X.
Por ejemplo, 0.991589 es la correlación entre X1 y X2; 0.620633 es la
correlación entre X1 y X3, y así sucesivamente.
Como se ve,
varias de estas correlaciones a pares son muy altas,
lo cual sugiere que quiza haya un grave problema de colinealidad. Por
supuesto, debe recordarse la advertencia anterior de que tales correlaciones a
pares tal vez sean una condición suficiente,
pero no necesaria, para la multicolinealidad.
Con objeto de aclarar mas lanaturaleza del problema de la
multicolinealidad, se observa las regresiones auxiliares; es decir, la
regresión de cada variable X sobre las restantes variables X. Para
ahorrar espacio, se presentaran sólo los valores R2 obtenidos con
base en esas regresiones, las cuales se listan en la tabla. Como los valores R2
de las regresiones auxiliares son muy altos (con la posible excepción de
la regresión de X4) sobre las restantes variables X, al parecer existe
un grave problema de colinealidad. La misma información se obtiene a
partir de los factores de tolerancia. Mientras mas
cercano a cero esté el factor de tolerancia, mayor sera la
evidencia de colinealidad.
Variable dependiente
Valor de R2
Tolerancia(TOL) =1 - R2
X1
0.9926
0.0074
X2
0.9994
0.0006
X3
0.9702
0.0298
X4
0.7213
0.2787
X5
0.9970
0.0030
X6
0.9986
0.0014
Al aplicar la regla practica de Klein observamos que los valores R2
obtenidos de las regresiones auxiliares exceden el valor general R2 (es decir,
el que se obtuvo de la regresión de Y sobre todas las variables X), que
es igual a 0.9954, en 3 de 6 regresiones auxiliares, lo cual de nuevo sugiere
que sin duda los datos estan plagados del problema de multicolinealidad.
Si se aplica la prueba F, se debe verificar que todos los
valores R2 dados en las tablas anteriores son estadística y
significativamente diferentes de cero.
Ahora que establecimos que existe un problema de
multicolinealidad, ¿qué acciones correctivas pueden llevarse a
cabo?
Se reconsidera el modelo original. En primer lugar, el
PIB puede expresarse no en términos nominales, sino en términos
reales, lo cual se realiza aldividir el PIB nominal entre el índice de
deflación del
precio implícito. En segundo lugar, en vista de que la población
no institucional mayor de 14 años aumenta con el tiempo debido al
crecimiento natural de la población, estara muy correlacionada
con el tiempo, la variable X6 del modelo. Por tanto, en lugar
de conservar esas dos variables, mantenemos la variable X5 y desechamos X6.
En tercer lugar, no hay ninguna razón de peso para incluir X3, el
número de personas desempleadas; quiza la tasa de desempleo fuese
una mejor medida de las condiciones del mercado de trabajo; sin embargo, no hay
ningún dato al respecto. Por consiguiente, eliminamos
la variable X3. Con estos cambios obtenemos los siguientes resultados de
la regresión (PIBR = PIB real).
Aunque R2 disminuyó un poco en
comparación con la R2 original, aún es muy alta. Ahora todos los coeficientes estimados son significativos y sus
signos tienen sentido desde el punto de vista económico.
Resumen
1. Un supuesto del modelo clasico de regresión lineal es
que no haya multicolinealidad entre las variables explicativas, las X.
Interpretada en términos generales, la multicolinealidad se refiere a
una situación en la cual existe una relación lineal exacta o
aproximadamente exacta entre las variables X.
2. Las consecuencias de la multicolinealidad son las siguientes: si existe
colinealidad perfecta entre las X, sus coeficientes de regresión son
indeterminados y sus errores estandar no estan definidos. Si la
colinealidad es alta pero no perfecta, es posible la
estimación de los coeficientes de regresión, pero sus errores
estandar tienden a ser grandes. Comoresultado, los
valores poblacionales de los coeficientes no pueden estimarse en forma precisa;
sin embargo, si el objetivo es estimar combinaciones lineales de estos
coeficientes, las funciones estimables, esto se logra aun en presencia de
multicolinealidad perfecta.
3. Aunque no hay métodos seguros para detectar la colinealidad, existen
diversos indicadores, como
los siguientes:
a) El signo mas claro de multicolinealidad es cuando R2 es muy alta pero
ninguno de los coeficientes de regresión es estadísticamente
significativo con base en la prueba t convencional.
Este caso es, por supuesto, extremo.
b) En los modelos con apenas dos variables explicativas, puede tenerse una idea
relativamente buena de la colinealidad mediante el examen del coeficiente de
correlación de orden cero, o simple, entre las dos variables. Si esta
correlación es alta, la multicolinealidad suele
serla culpable.
c) Sin embargo, los coeficientes de correlación de orden cero pueden ser
malos indicadores en modelos con mas de dos variables X, pues es posible
tener correlaciones bajas de orden cero y encontrar aún alta
multicolinealidad. En estas situaciones puede ser necesario
examinar los coeficientes de correlación parcial.
d) Si R2 es alta pero las correlaciones parciales son
bajas, la multicolinealidad es una posibilidad.
Aquí hay una o mas variables que pueden ser superfluas. Pero si
R2 es alta y las correlaciones parciales
también son altas, la multicolinealidad puede no ser facilmente
detectable. También, como señalan C. Robert
Wichers, Krishna Kumar, John O’Hagan y Brendan McCabe, hay algunos
problemas estadísticos con la prueba de correlaciónparcial
sugerida por Farrar y Glauber.
e) Por consiguiente, se puede hacer la regresión de cada variable Xi
sobre las variables X restantes en el modelo y encontrar los coeficientes de
determinación correspondientes R2 i . Una R2 i
elevada sugeriría que Xi esta muy correlacionado con el resto de
las X. Así, se puede eliminar esa Xi del modelo siempre y cuando no
conduzca a un sesgo de especificación grave.
4. La detección de multicolinealidad es la mitad de la batalla. La otra
mitad es hallar la forma de deshacerse del problema. Nuevamente, no
existen métodos seguros, sólo unas cuantas reglas
practicas, algunas de las cuales son las siguientes:
a) utilizar información obtenida a priori o externa al modelo,
b) combinar información de corte transversal y de series de tiempo,
c) omitir una variable si es muy colineal,
d) transformar los datos y
e) obtener datos adicionales o nuevos. Naturalmente, saber qué regla
funciona en la practica depende de la naturaleza de la
información y de la gravedad del problema de colinealidad.
5. Mencionamos el papel de la multicolinealidad en la predicción y
señalamos que, a menos que la estructura colineal continúe en
muestras futuras, es peligroso utilizar para fines de proyección una
regresión estimada que haya sido contaminada por la multicolinealidad.
CONCLUSIONES
La multicolinealidad es un problema
econométrico en la que se presenta una fuerte correlación entre
variables explicativas del
modelo econométrico y según su naturaleza puede ser exacta o
aproximada.
Aun no hay un método único para detectarla
o medir su fuerza. Lo que se tiene en realidad son ciertas
reglaspracticas, algunas informales y otras formales, pero todas reglas
practicas. Consideremos algunas de ellas
a) Una R2 elevada pero pocas razones t significativas
b) Altas correlaciones entre parejas de regresoras.
c) Razones t “no significativas”
d) Una alta pero pocas razones t significativas
e) Sensibilidad de los estimadores de MCO y sus errores estandar ante
cambios pequeños en los datos
hay varias formas para tratar de resolver ,un problema de multicolinealidad Las
técnicas mas utilizadas para solucionar el problema de
multicolinealidad son las siguientes:
1. Incorporación de nueva información
2. Re especificación del modelo que
puede llevarse a cabo mediante:
eliminación de algunas variables explicativas de la regresión
(especialmente si esto afecta poco a la bondad del ajuste).
transformación de las variables del modelo.
RECOMENDACIONES
Para evitar problemas de multicolinealidad, se
recomienda que el investigador trabaje con el mayor número de
observaciones posibles, pues, recordemos que este
fenómeno es principalmente muestral.
El investigador debe de contar con información a priori para poder
identificar las relaciones que se deben de presentar en las regresiones realizadas
y así poder identificar cuando se presenta una relación
extraña que es un síntoma de
multicolinealidad.
El investigador debe tener en cuenta que si el objetivo del analisis
no es sólo la predicción sino también la estimación
confiable de los parametros, la presencia de una alta multicolinealidad
puede ser un problema porque, genera grandes errores estandar en los
estimadores.