Modelos de regresión multi-variantes
Enviado por bush26 • 21 de Julio de 2012 • 2.275 Palabras (10 Páginas) • 523 Visitas
Modelos de regresión multi-variantes
Se conoce como análisis de regresión multivariante al método estadístico que permite establecer una relación matemática entre un conjunto de variables X1, X2 .. Xk (covariantes o factores) y una variable dependiente Y. Se utiliza fundamentalmente en estudios en los que no se puede controlar por diseño los valores de las variables independientes, como suele ocurrir en los estudios epidemiológicos y observacionales.
Los objetivos de un modelo de regresión puede ser dos:
• Obtener una ecuación que nos permita "predecir" el valor de Y una vez conocidos los valores de X1, X2 .. Xk. Se conocen como modelos predictivos.
• Cuantificar la relación entre X1, X2 .. Xk y la variable Y con el fin de conocer o explicar mejor los mecanismos de esa relación. Se trata de modelos explicativos, muy utilizados cuando se busca encontrar qué variables afectan a los valores de un parámetro fisiológico, o cuáles son los posibles factores de riesgo que pueden influir en la probabilidad de que se desarrolle una patología.
La disponibilidad y facilidad de uso del software que permite la construcción de modelos de regresión nos ha hecho olvidar que se trata de técnicas complejas, que requieren un cierto conocimiento de la metodología estadística subyacente, por lo que nos encontramos con excesiva frecuencia una pobre utilización de las técnicas de regresión y una peor descripción de cómo se emplearon en cada caso concreto, e incluso una ausencia total de esa explicación, y se comunica los resultados como si la propia ecuación de regresión fuera sin más un "artículo de fe" que no necesitara de una cuidadosa validación.
Un problema fundamental que se plantea a la hora de construir un modelo multivariante es qué factores X1, X2 .. Xk incluir en la ecuación, de tal manera que estimemos el mejor modelo posible a partir de los datos de nuestro estudio. Para ello lo primero que habría que definir es qué entendemos por "mejor modelo". Si buscamos un modelo predictivo será aquél que nos proporcione predicciones más fiables, más acertadas; mientras que si nuestro objetivo es construir un modelo explicativo, buscaremos que las estimaciones de los coeficientes de la ecuación sean precisas, ya que a partir de ellas vamos a efectuar nuestras deducciones. Cumplidos esos objetivos es claro que otra característica deseable de nuestro modelo es que sea lo más sencillo posible.
Variable de confusión
En el área de los modelos explicativos aparece un concepto de gran importancia, el de variable de confusión. Se dice que existe "confusión" cuando la relación entre dos variables difiere de forma importante si se considera el efecto de una tercera, alterando por tanto de alguna manera la interpretación de esa relación.
Veamos un ejemplo. Si estamos estudiando mediante una muestra aleatoria una población de diabéticos y analizamos la posible relación entre la PAS y la edad y sexo de los pacientes, obtenemos mediante un modelo de regresión lineal la siguiente ecuación
Término Coef. Err.est. t p
Constante 116,285 2,8410 40,931 0,0000
EDAD 0,328 0,0432 7,592 0,0000
SEXO 2,042 1,0486 1,947 0,0515
donde la variable SEXO se ha codificado como 0 para los hombres y 1 para las mujeres, de tal manera que el cambio medio de la PAS, estimado por esta ecuación, cuando comparamos a los hombres y a las mujeres manteniendo fija la edad, es de aproximadamente de 2 mmHg (p = 0.052).
Sin embargo si controlamos también el índice de masa corporal (IMC) introduciéndolo en la ecuación, obtenemos:
Término Coef. Err.est. t p
Constante 101,834 4,0727 25,004 0,0000
EDAD 0,321 0,0426 7,531 0,0000
SEXO 1,387 1,0428 1,330 0,1835
IMC 0,514 0,1051 4,889 0,000001
donde comprobamos que al incluir el índice de masa corporal IMC, el coeficiente de regresión de la variable SEXO se ha modificado drásticamente (ha disminuido en más del 30 %), lo que quizás modifica nuestra interpretación de la relación, ya que si se tiene en cuenta el IMC la influencia del sexo no es relevante. En este caso el IMC sería un factor de confusión que deberíamos incluir en la ecuación y ello aunque, al contrario de lo que ahora ocurre, su coeficiente no fuera significativo.
En la práctica habitual vemos que el criterio que se utiliza -incorrectamente- para incluir o no en la ecuación una posible variable de confusión se basa en comprobar si el coeficiente correspondiente es significativamente diferente de 0, para lo cual sólo se mira el valor de la probabilidad asociado a ese contraste. Sin embargo no es esa la única cuestión, sino si su introducción en la ecuación modifica apreciablemente o no la relación entre la variable dependiente y el otro factor o factores estudiados. Se trata pues de utilizar un enfoque clínico o fisiológico, ya que hay que determinar desde ese punto de vista qué consideramos como cambio apreciable en el coeficiente de la ecuación de regresión.
Interacción
Un segundo concepto importante es el de interacción. Decimos que existe interacción en la relación entre dos variables cuando los valores de una tercera afectan a esa relación, magnificándola o disminuyéndola, o más raramente ambas cosas dependiendo del nivel de la tercera variable. Es decir que la magnitud de la relación es diferente según los niveles de esa tercera variable.
Así, por ejemplo, podríamos encontrar que la media de la PAS aumenta con la edad, pero que ese aumento es mayor en el grupo de pacientes fumadores que en el de no fumadores, de tal manera que si representamos gráficamente la relación PAS, EDAD en cada uno de los grupos obtenemos unas rectas de regresión como las de la figura
La forma más simple de incorporar la presencia de interacción entre dos variables en una ecuación de regresión consiste en incluir en ésta el producto de ambas:
donde E es la variable edad y F fumador (0=no fumador, 1=fumador)
Según esta ecuación el cambio medio de y cuando la variable E cambia 1-año es , es decir que depende también del valor de F, lo que no ocurriría si b3=0.
Selección de variables
Un paso importante en la construcción de un modelo de regresión es el de la elección de variables a incluir y cuáles no. Los mecanismos para la selección de variables no son fáciles de especificar ya que dependen en gran medida del tipo de modelo (predictivo o explicativo), del contexto de utilización y de las propias características del proceso analizado. Quizás la única norma clara es que ante dos posibles modelos, similares en otros aspectos, preferiremos el que sea más sencillo y que menos
...