Un Criterio Para Omitir Variables Superfluas
Enviado por ariza44 • 5 de Octubre de 2013 • 1.195 Palabras (5 Páginas) • 383 Visitas
Un criterio para omitir variables superfluas en modelos de regresión
Saez, M; Barceló, MA
Publicado en Gac Sanit. 1998;12:281-2. - vol.12 núm 6
• Español: [ Texto completo ]
• English: [ The English version is not available ]
Texto completo
Introducción
Un problema muy frecuente en la investigación aplicada es el de la presencia de multicolinealidad, es decir de una elevada correlación entre dos o más covariables. La multicolinealidad no modifica las propiedades de los estimadores. En este sentido los estimadores continúan siendo insesgados, o lo que es lo mismo están bien calculados, y son óptimos, o de otro modo son de varianza mínima entre todos los estimadores insesgados. La multicolinealidad, sin embargo, se manifiesta en un aumento de las varianzas, y por tanto de los errores estándar, de los estimadores de los parámetros. Así, puede ocurrir que los errores estándar aumenten tanto que se reduzca el valor del estadístico de significación individual (t de Student o test de Wald, por ejemplo) a valores por debajo de su nivel de significación (p > 0,05). De hecho puede ocurrir que una variable relevante, es decir, con estimador del parámetro asociado a la misma estadísticamente significativo, pueda no parecerlo. Como señalamos más arriba, es importante destacar que aún con elevada multicolinealidad y consecuentemente con errores estándar de los parámetros elevados, los estimadores de los parámetros continúan siendo insesgados. El problema resultará de la omisión de una variable que, aún siéndolo, no parezca relevante. Puesto que efectivamente lo es, su omisión provocará que los estimadores de los parámetros y de los errores estándar estén sesgados. Si la variable es superflua, sin embargo, podría omitirse sin mayor problema. Es más se reduciría la multicolinealidad que su presencia pudiese provocar, lo que aumentaría la eficiencia de las estimaciones. Así pues, el dilema se presenta a la hora de decidir si omitimos una variable con valor p (del estadístico de significación individual del parámetro asociado) mayor que 0,05. A priori no sabemos si la variable es superflua o, por el contrario, es relevante; pero la elevada multicolinealidad ha enmascarado su significación.
Mostramos un criterio que permita indicar si podemos o no omitir una variable con parámetro no estadísticamente significativo (véase Anexo). Únicamente es posible omitir una variable con parámetro no significativo si el valor del estadístico de significación individual, t de Student o test de Wald, es menor que la unidad (en valor absoluto en el caso de la t de Student) o equivalentemente p > 0,3175. Si el valor de tales estadísticos fuese mayor que uno (en valor absoluto en el caso de la t de Student) podría ocurrir que la variable correspondiente fuese relevante pero que existiese elevada multicolinealidad que enmascarase la significación. En este caso, su omisión sesgaría las estimaciones y los errores estándar, invalidando cualquier inferencia que pudiese realizarse.
Ilustración
Mostramos a continuación una ilustración con datos reales. Se pretende analizar la relación entre la mortalidad por todas las causas, excepto externas (CIE-9:001-799) y la contaminación atmosférica en la ciudad de Barcelona. Se disponen de datos diarios para el período comprendido ente 1991 y 1995. La mortalidad analizada corresponde a los residentes en Barcelona fallecidos en la ciudad. Los contaminantes de interés son humos negros y dióxido de nitrógeno, ambos en niveles promedios de 24 h y en µg/m3. Se controlan posibles confusores de la relación, tales como la tendencia, la estacionalidad y los efectos de calendario presentes en la variable dependiente (mortalidad); variables meteorológicas (temperatura y humedad, en promedios de 24 h); y la ocurrencia de epidemias de gripe. Cuando se introducen conjuntamente ambos contaminantes como variables explicativas en la regresión, ninguno de los parámetros asociados a los mismos resulta estadísticamente significativo. En concreto el parámetro asociado a humos negros es igual a 0,005822 (error estándar igual a 0,003723) con una t de Student igual a 1,564; y el asociado a dióxido de nitrógeno igual a 0,004376 (error estándar igual a 0,003476)
...