Anova Y Regresion
Enviado por musiu200 • 7 de Agosto de 2014 • 1.500 Palabras (6 Páginas) • 312 Visitas
Problema 1:
El conjunto de datos, que se muestra en la tabla, surge a partir de un estudio de la fecundidad de la mosca de la fruta, Drosophila Melanogaster. A partir de 25 moscas hembra de cada una de las tres variedades, se registra su fecundidad per diem (número de huevos puestos por hembra por día durante los primeros 14 días de vida). Las líneas genéticas marcadas por RS y SS fueron criados selectivamente para la resistencia y susceptibilidad al pesticida, DDT, y la marcada por NS es una variedad de control no seleccionado.
Resistente (RS)
Susceptible (SS)
No Seleccionado(NS)
12,8
38,4
35,4
21,6
32,9
27,4
14,8
48,5
19,3
23,1
20,9
41,8
34,6
11,6
20,3
19,7
22,3
37,6
22,6
30,2
36,9
29,6
33,4
37,3
16,4
26,7
28,2
20,3
39
23,4
29,3
12,8
33,7
14,9
14,6
29,2
27,3
12,2
41,7
22,4
23,1
22,6
27,5
29,4
40,4
20,3
16
34,4
38,7
20,1
30,4
26,4
23,3
14,9
23,7
22,9
51,8
26,1
22,5
33,8
29,5
15,1
37,9
38,6
31
29,5
44,4
16,9
42,4
23,2
16,1
36,6
23,6
10,8
47,4
Solución:
Variable respuesta: Número de huevos puestos por hembra por día durante los primeros 14 días de vida.
Factor: Líneas genéticas.
Utilizando el ANOVA estudiaríamos si existe relación en el número de huevos puestos por hembra por día durante los primeros 14 días de vida según sus: líneas genéticas, para ello se realizará el siguiente contraste.
H 0 = todas las medias son iguales μ i= μj (donde i,j están relacionados con el tipo de variable)
H A = alguna media no es igual, es decir, algun μi es diferente a un μj.
Tabla ANOVA para el Número de Huevos por hembra por Líneas Genéticas
Fuente de Variación
Suma de Cuadrados
Grados de Libertad
Cuadrado Medio
Razón-F
Valor-P
Entre grupos
1362,21
2
681,106
8,67
0,0004
Dentro grupos
5659,02
72
78,5975
Total
7021,23
74
- Como el p-valor obtenido (0,0004) es menor que el nivel de significación (0,05) se rechaza la H0; entonces al nivel de significancia del 5% se puede decir que se tiene evidencia estadística en las muestras, de que existen diferencias en al menos 2 medias “numero de huevos puestos por hembra por día durante los primeros 14 días”, en las distintas líneas genéticas al cual pertenecen las moscas, es decir, según el ANOVA simple existe diferencia significativa entre la media del numero de huevos puestos por hembra por día durante los primeros 14 días y su Línea Genética con un nivel del 95,0% de confianza. La razón-F, que en este caso es igual a 8,66574, es el cociente entre el estimado entre-grupos y el estimado dentro de grupos.
Los requisitos o condiciones del ANOVA son: normalidad, homocedasticidad e independencia de los datos. Para estudiar estas condiciones se estudia la variable residuos.
1. Normalidad:
H 0 = variable residuos es normal.
H A = variable residuos no es normal.
- Para contrastar la normalidad se mira la ventana de Test de bondad de ajuste, y los p-valor.
Pruebas de Bondad-de-Ajuste para RESIDUOS
Prueba de Kolmogorov-Smirnov
Normal
DMAS
0,0623017
DMENOS
0,0431517
DN
0,0623017
Valor-P
0,932923
-Pruebas de Normalidad para RESIDUOS
Prueba
Estadístico
Valor-P
Estadístico W de Shapiro-Wilk
0,978521
0,543108
Según ambos p-valor, tanto el de Kolmogorov (0,932923) como el del Estadístico W de Shapiro-Wilks (0,543108), nos indican que se acepta H0, puesto que son mayores que el nivel de significación del 5%, por lo tanto según estos test la variable es normal.
2. Homocedasticidad.
- Para realizar este contraste es necesario volver al análisis ANOVA, y sería el siguiente:
H0 = todas las varianzas son iguales ρi = ρj (donde i,j están relacionados con el tipo de variable).
HA = alguna varianza no es igual, es decir, algun ρi es diferente a un ρj.
Verificación de Varianza
Prueba
Valor-P
Levene's
0,747998
0,476955
Comparación
Sigma1
Sigma2
F-Ratio
P-Valor
No Seleccionado(NS) / Resistente (RS)
8,94201
7,77239
1,32361
0,4974
No Seleccionado(NS) / Susceptible (SS)
8,94201
9,76847
0,83795
0,6684
Resistente (RS) / Susceptible (SS)
7,77239
9,76847
0,633077
0,2698
Dado que el p-valor (0,476955) es mayor que el nivel de significación (0,05), no existe una diferencia estadísticamente significativa entre las desviaciones estándar, con un nivel del 95,0% de confianza. Por lo tanto se acepta H0, así las varianzas son similares. Por lo tanto se cumple la segunda condición necesaria para poder tomar los resultados del ANOVA como válidos.
La tabla también muestra una comparación de las desviaciones típicas para cada par de muestras. P-valores por debajo de 0.05, de los cuales hay 0 (no hay), indican una diferencia estadísticamente significativa entre las dos sigmas al 5% de nivel de significación.
3. Independencia
Puesto que no disponemos de la fecha en la que hemos recogido los datos, no podemos realizar un estudio sobre su aleatoriedad ya que no aparece reflejado el orden temporal, por lo tanto daremos por supuesto que se cumple esta condición.
- Tras comprobar si se cumplen o no las condiciones del ANOVA se puede concluir que los resultados obtenidos son totalmente fiables.
Observando la mediana podemos notar que los datos por separado no provienen de una distribución simétrica, además la línea genética resistente contiene un dato atípico los cuales son observados de dos formas o existe una diferencia considerable
...