ANÁLISIS POR MODELO DE REGRESIÓN LINEAL MULTIPLE
Enviado por oscarperez11 • 3 de Noviembre de 2021 • Tarea • 5.785 Palabras (24 Páginas) • 153 Visitas
[pic 1]
[pic 2]
[pic 3]
CONSTRUCCIÓN DE UN MODELO DE REGRESIÓN LINEAL MÚLTIPLE PARA PODER PREDECIR LA DIABETES TIPO II (DIABETES DE ADULTO)
[pic 4]
4TA CALIFICADA
CURSO: Análisis de Regresión
INTEGRANTES:
|
2015
CONTENIDO
- DESCRIPCIÓN DEL PROBLEMA
- OBJETIVOS
- ANÁLISIS POR MODELO DE REGRESIÓN LINEAL MULTIPLE
- DESCRIPCIÓN DEL PROBLEMA
Estos datos son provenientes del Dr. John Schorling, que trabaja en el Departamento de Medicina de la Universidad de Virginia Facultad de Medicina.
Los datos consisten en 16 variables en 391 sujetos que fueron recogidos de un determinado laboratorio para conocer la prevalencia de la obesidad, la diabetes y otros factores de riesgo cardiovascular en el centro de Virginia para los afroamericanos.
Según el Dr. John, la diabetes mellitus tipo II (diabetes del adulto) se asocia más fuertemente con la obesidad. La relación cintura/cadera puede ser un predictor de diabetes y enfermedades del corazón. La diabetes mellitus tipo II también se asocia con la hipertensión.
Pero se tiene ciertas evidencias de que si la hemoglobina glucosilada es mayor a 7, se toma generalmente como un diagnóstico positivo de diabetes o que tiene alta probabilidad de tener diabetes.
Por lo tanto, en este caso nuestra variable dependiente o el target va ser la hemoglobina glucosilada.
Lo que se pretende es estimar el valor de la hemoglobina glucosilada a partir de las otras variables regresoras, ya que el valor de esta variable se obtiene a partir de un examen médico, que resulta costoso para las personas que quieren diagnosticar la diabetes tipo II, por lo que si se tienen los valores de las otras variables podemos estimarla y poder tomar una decisión, ya que se tiene evidencias de que si la hemoglobina glucosilada es mayor a 7, tiene alta probabilidad de tener la diabetes mellitus tipo II.
Información de la Base de Datos
La Base Datos cuenta con 391 registros.
Las variables que la Base de datos contiene son las siguientes:
Variable dependiente:
- La hemoglobina glucosilada
Variables Regresoras:
- Colesterol total
- La glucosa estabilizada
- Lipoproteína de alta densidad
- Colesterol/HDL Ratio
- Cuidad
- Edad
- Género (cualitativa)
- Altura (pulgadas)
- Peso (kg)
- Estructura (cualitativa)
- 1ra Presión arterial sistólica
- 1ra Presión arterial diastólica
- 2da Presión arterial sistólica
- 2da Presión arterial diastólica
- Cintura (pulgadas)
- Cadera (pulgadas)
- Tiempo Posprandial
- OBJETIVO DEL ESTUDIO
- Poder estimar el valor de la hemoglobina glucosilada, a través de las variables regresoras de nuestra base de datos.
- Estimar el valor de los parámetros, realizar pruebas de hipótesis e intervalos de confianza.
- Construcción de modelos por diferentes métodos (Todas las regresiones posibles, Forward, Backward, Stepwise)
- ANALISIS POR EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE
Como sabemos, el análisis de regresión es una técnica estadística para investigar y modelar la relación entre variables.
Entonces utilizaremos esta técnica para poder hacer estimaciones sobre nuestra variable dependiente o target.
- Modelo de regresión con todas las variables regresoras
Este modelo de regresión incluirá todas las variables regresoras continuas, estimaremos sus parámetros (por el método de mínimos cuadrados ordinarios), realizaremos pruebas de hipótesis, tanto como para la significancia global del modelo donde se prueba la linealidad del modelo, y también la prueba de contraste individual para cada parámetro y sus respectivos intervalos de confianza, al 95%.
Con el software SPSS, encontramos los siguientes resultados:
-) Contraste de significancia global del modelo:
Ho: B1=B2=…=B15=0
H1: almenos un Bi≠0
ANOVAa | |||||
Modelo | Suma de cuadrados | Media cuadrática | F | Sig. | |
1 | Regresión | 627,337 | 44,810 | 25,296 | ,000b |
Residual | 214,341 | 1,771 |
|
| |
Total | 841,678 |
|
|
|
Entonces: como p=0,0001<0.05 entonces se rechaza la hipótesis nula, por lo tanto podemos decir que el modelo es significativo al 95% de confianza.
-) R cuadrado:
Resumen del modelo | ||||
Modelo | R | R cuadrado | R cuadrado corregida | Error típ. de la estimación |
1 | ,863a | ,745 | ,716 | 1,33094 |
...