Metodos Estadísticos
Enviado por ayleenvc • 29 de Mayo de 2013 • 3.192 Palabras (13 Páginas) • 303 Visitas
Métodos Cuantitativos para la Toma de Decisiones
Informe Análisis Regresión Simple:
Relación entre el consumo de combustible en vehículos y otras variables.
Indice
Introducción 3
1 Determinación de la muestra 4
1.1 Población 4
1.2 Campos de la base de datos 4
1.3 Muestra 4
1.4 Variable dependiente 6
1.5 Variable independiente 7
1.5.1 Análisis descriptivo muestral 7
2 Selección de la variable predictora y regresión lineal 9
2.1 Criterios de Selección 9
2.2 Análisis de varianza entre consumo y peso 10
2.3 Modelo de ajuste 11
2.4 Análisis de puntos aberrantes 13
2.5 Validación de supuestos 15
2.5.1 Homocedasticidad 15
2.4.2 Supuesto de errores no correlacionados 15
2.5.3 Supuesto de Normalidad 17
Conclusiones 19
Anexo 20
Anexo 1 - Base de datos 21
Introducción
El presente trabajo desarrolla un estudio estadístico realizado sobre el consumo de combustible de los vehículos versus otras variables explicativas.
En particular el estudio busca establecer un modelo de regresión lineal simple, que relacione los galones por milla que consume un vehículo con otras variables que puedan explicar su comportamiento, como son la aceleración (tiempo que los vehículos tardaron en alcanzar una velocidad de 60 milla/hora), la potencia (en caballos de fuerza), el displacement (capacidad de cilindros en pulgadas cúbicas) y peso del vehículo (libras).
Establecer un modelo de regresión lineal, implica realizar adecuados procedimientos para la obtención de la muestra y la aprobación de los supuestos bajo los cuales el modelo establecido es válido.
Para cumplir este objetivo se usó el software estadísticos R y la ayuda de excel. Estos programas poseen herramientas para aplicar distintos test estadísticos, los cuales son analizados detalladamente en este trabajo, además de realizar la regresión y generar una variedad de gráficos, entre otras funciones.
Se estableció un nivel de significancia del 5%, para las pruebas de hipótesis realizadas en este estudio.
En primer lugar se procederá a describir cómo se realizó el muestreo, para ello de explicará el contexto en el cual se enmarca el estudio y los procedimientos utilizados para determinar la muestra. Además de identificar la variable respuesta, las variables predictoras y un breve análisis descriptivo.
Luego de eso se detallará el tratamiento de puntos atípicos y la validación de los supuestos del modelo de regresión lineal (Homocedasticidad, Errores no Correlacionados y Normalidad de Errores).
Finalmente se presentará el modelo de regresión lineal simple realizado y las conclusiones obtenidas de este informe.
Determinación de la muestra
Para determinar la muestra se detallará a continuación los procedimientos y las especificaciones realizadas en cuanto a las observaciones recolectadas para el estudio.
Población
La población es el conjunto de todos los elementos que son objeto del estudio estadístico. En este caso no corresponde a todos los vehículos del mundo pero si a cierto conjunto que paso por un determinado lugar en Estados Unidos, específicamente en un taller mecánico, de los cuales se registraron algunos datos asociados al rendimiento de los vehículos en el año 78. El tamaño de la población es igual a 150 datos.
Campos de la base de datos
La base de datos tiene los siguientes campos; consumo (galones/milla), cilindraje, displacement (pulg3), potencia (hp), aceleración (tiempo en alcanzar 60 mill/hr), peso (lb), marca y modelo. Pero sólo fueron seleccionados para realizar el estudio la potencia, la aceleración, el peso y displacement.
Muestra
El objetivo de este estudio es analizar las influencias de ciertas variables sobre el consumo de los vehículos en galones por millas. Y como primer paso, con los datos que se tienen se realiza previamente una estadística descriptiva de la población. Ver tabla 1.1.
Tabla 1.1 – Estadística descriptiva de la población de las galones por milla.
Estadistica descriptiva
Media 0,03733235
Error típico 0,00084612
Mediana 0,03460249
Moda 0,02777778
Desviación estándar 0,01036282
Varianza de la muestra 0,00010739
Curtosis -0,5426974
Coeficiente de asimetría 0,69887762
Rango 0,0430569
Mínimo 0,02145923
Máximo 0,06451613
Suma 5,59985186
Cuenta 150
Basándonos en estos datos es que se consideró pertinente utilizar un error absoluto (d) de 0,1036 [galones/milla] que corresponde a un 10% de la desviación estándar poblacional (σ) y además se había establecido a priori un α de 5%. Utilizando la fórmula mostrada a continuación, se determinó el tamaño de muestra mínimo que permitía cumplir con las especificaciones antes mencionadas es de 385 observaciones.
n=((Z_(1-α/2)*σ)/d)^2
El tamaño de la muestra es de 385 observaciones, pero como este tamaño es mayor que la población se hará un ajuste de la muestra con la siguiente fórmula:
n"ajustado"=(N/(1+N/n))
Luego de ajustar la muestra, el tamaño de la muestra es de 108 observaciones.
El tipo de muestreo para seleccionar la muestra es un muestreo estratificado, pues la población no es homogénea, ya que los autos son de diferentes marcas, esto viene dado porque los autos tienen distinta procedencia, por tanto la calidad y los procesos internos mecánicos podrían variar de una a otra. Por lo mismo se mantuvo la proporción de muestras según marcas.
La proporción considerando la población de 150 observaciones y el tamaño de la muestra como 108, se procedió a calcular una razón entre ambas, ésta es de 0,72.
A continuación se muestra en un resumen cómo se seleccionaron las muestras.
Tabla 1.2 – Resumen de selección de muestra.
Marca Población Muestra
Nro datos Concentración Nro datos
AMC 5 3% 4
Audi 3 2% 2
Buick 7 5% 5
Cadillac 1 1% 1
Chevrolet 14 9% 10
...