Estadistica inferencial. Estadística descriptiva
Enviado por janethitta • 10 de Septiembre de 2015 • Informe • 12.867 Palabras (52 Páginas) • 418 Visitas
Página 1 de 52
http://es.slideshare.net/maguieb/estadstica-inferencial-16313544
- 1. Introducción a la estadística inferencial.1.1 Introducción a la estadística inferencialLa estadística Inferencia, es el proceso por el cual se deducen (infieren)propiedades o características de una población a partir de una muestrasignificativa. Uno de los aspectos principales de la inferencia es la estimaciónde parámetros estadísticos. Por ejemplo, para averiguar la media, µ, de lasestaturas de todos los soldados de un reemplazo, se extrae una muestra y seobtiene su media, 0. La media de la muestra (media muestral), 0, es unestimador de la media poblacional, µ. Si el proceso de muestreo está bienrealizado (es decir, la muestra tiene el tamaño adecuado y ha sidoseleccionada aleatoriamente), entonces el valor de µ, desconocido, puede serinferido a partir de 0.La inferencia siempre se realiza en términos aproximados y declarando uncierto nivel de confianza. Por ejemplo, si en una muestra de n = 500 soldadosse obtiene una estatura media 0 = 172 cm, se puede llegar a una conclusióndel siguiente tipo: la estatura media, µ, de todos los soldados del reemplazoestá comprendida entre 171 cm y 173 cm, y esta afirmación se realiza con unnivel de confianza de un 90%. (Esto quiere decir que se acertará en el 90% delos estudios realizados en las mismas condiciones que éste y en el 10%restante se cometerá error.)Si se quiere mejorar el nivel de confianza, se deberá aumentar el tamaño de lamuestra, o bien disminuir la precisión de la estimación dando un tramo másamplio que el formado por el de extremos 171, 173. Recíprocamente, si sequiere aumentar la precisión en la estimación disminuyendo el tamaño delintervalo, entonces hay que aumentar el tamaño de la muestra o bien consentirun nivel de confianza menor. Finalmente, si se quiere mejorar tanto la precisióncomo el nivel de confianza, hay que tomar una muestra suficientementegrande.1.2 Objetivo de la estadísticaLa estadística es el conjunto de técnicas que se emplean para la recolección,organización, análisis e interpretación de datos. Los datos pueden sercuantitativos, con valores expresados numéricamente, o cualitativos, en cuyocaso se tabulan las características de las observaciones. La estadística sirveen administración y economía para tomar mejores decisiones a partir de lacomprensión de las fuentes de variación y de la detección de patrones yrelaciones en datos económicos y administrativos.
- 7. 1.2.1 Estadística descriptivaLa estadística descriptiva comprende las técnicas que se emplean para resumiry describir datos numéricos. Estos métodos pueden ser gráficos o implicaranálisis computacional.Ejemplo. El volumen mensual de ventas de un producto durante el año anteriorpuede describirse y cobrar significado elaborando un diagrama de barras o unagráfica de líneas. Las ventas relativas por mes pueden resaltarse calculando unnúmero Índice para cada mes, con lo que la desviación respecto de 100 decualquier mes indicaría la desviación porcentual de ventas de ese mes encomparación con las ventas mensuales promedio durante todo el año.1.2.2 Estadística inferencialLa estadística inferencial comprende las técnicas con las que, con baseúnicamente en una muestra sometida a observación, se toman decisionessobre una población o proceso estadísticos. Dado que estas decisiones setoman en condiciones de incertidumbre, suponen el uso de conceptos deprobabilidad. Mientras que a las características medidas de una muestra se lesllama estadísticas muestrales, a las características medidas de una poblaciónestadística, o universo, se les llama parámetros de la población. Elprocedimiento para la medición de las características de todos los miembros deuna población definida se llama censo. Cuando la inferencia estadística se usaen el control de procesos, al muestreo, le interesa en particular eldescubrimiento y control de las fuentes de variación en la calidad de laproducción.Ejemplo. Para estimar el voltaje requerido para provocar fallas en un dispositivoeléctrico, una muestra de estos dispositivos puede someterse a voltajescrecientes hasta que falle cada uno de ellos. Con base en estos resultadosmuestrales puede estimarse la probabilidad de falla a varios niveles de voltajede los demás dispositivos de la población muestreada.1.3 Población y muestra1.3.1 PoblaciónLa población es un agregado de unidades individuales, compuesto de personaso cosas que se hallan en una situación determinada. Las unidades individualesse llaman unidades elementales. Definir una población es determinar susunidades elementales de acuerdo con el interés que se tiene respecto a algunacaracterística de aquélla.Tanto la definición de una población como la característica por observar de susunidades elementales dependen de la naturaleza del problema. Por ejemplo, siel problema es "Camisas para personas adultas de El Salvador", se trata dedeterminar la cantidad adecuada de producción de camisas de acuerdo con lasdiversas medidas. La población son todas las personas adultas de El Salvador.
- 8. La característica de interés son las medidas del cuello de las personas adultasen dicho país.Veamos otro ejemplo: las cuotas diferenciadas para alumnos de la UES(Universidad de El Salvador). El problema por resolver es la asignación de lascuotas a los estudiantes. La población son los alumnos (o sus padres) de laUES; la característica de interés es el monto de los ingresos de dichosestudiantes.Las poblaciones pueden ser infinitas o finitas. Una población infinita es la quecontiene un número infinito de unidades elementales; por ejemplo, el conjuntode piezas que se obtienen en un proceso productivo; en el sentido de que sesiguen produciendo indefinidamente. Otro ejemplo son todos los posiblesresultados al lanzar una moneda sin cesar.Una población es finita cuando tiene un número finito de unidades elementales.Por ejemplo, los estudiantes de una determinada universidad; el número deescuelas que existen en una determinada ciudad, el número de árboles decoco sembrados en una determinada parcela, etcétera. El número de unidadeselementales de una población se denota con la letra N.1.3.2 MuestraUna muestra es una parte de la población; por ejemplo, cuando se desea hacerun estudio relativo al rendimiento académico de los alumnos de ciertauniversidad, y para esto se toma sólo un grupo de estudiantes de la misma.Todos los estudiantes de ella son la población y el grupo escogido constituye lamuestra. Es importante hacer notar que para hacer una investigación medianteel análisis de una muestra, ésta tiene que ser, necesariamente, representativa.La representatividad de la muestra implica que cada unidad de la poblacióndebe tener igual probabilidad de ser seleccionada. En estas condiciones, sedice que la muestra es aleatoria. La obtención de una muestra representativaes uno de los aspectos más importantes de la teoría estadística. Incluyepreguntas como, ¿qué tan grande debe ser la muestra?, ¿qué tipo de datosdeben ser recolectados?, ¿cómo se recogerán éstos? Estas preguntas seráncontestadas más adelante. (El número de unidades elementales de unamuestra se denota con la letra n).1.4 Parámetros y estadísticas1.4.1 Función de parámetros y estadísticaMatemáticamente, podemos describir muestras y poblaciones al emplearmediciones como la media, la mediana, la moda y la desviación estándar.Cuando estos términos describen las características de una muestra, sedenominan estadísticas. Cuando describen las características de unapoblación, se llaman parámetros. Una estadística es una característica de unamuestra y un parámetro es una característica de una población.
- 9. 1.4.2 Uso de estadísticas para estimar parámetrosSupongamos que la estatura media en centímetros de todos los alumnos dedécimo año en Estados Unidos es de 152 cm. En este caso, 152 cm es unacaracterística de la población de "todos los alumnos de décimo año" y puedellamarse un parámetro de población. Por otra parte, si decimos que la estaturamedia en la clase de décimo año de la maestra Jones, en Bennetsville, es de152 cm, estamos usando 152 cm para describir una característica de lamuestra "alumnos de décimo grado de la maestra Jones". En ese caso, 152 cmsería una estadística de muestra. Si estamos convencidos de que la estaturamedia de los alumnos de décimo año de la maestra Jones es una estimaciónexacta de la estatura media de todos los alumnos de dicho nivel de EstadosUnidos, podríamos usar la estadística de muestra "estatura media de losalumnos de décimo grado de la maestra Jones" para estimar el parámetro depoblación "estatura media de los alumnos de décimo grado de Estados Unidos"sin tener que medir a todos los millones de alumnos de Estados Unidos queestán en ese grado.Tabla 1 - Diferencias entre poblaciones y muestras: Población MuestraDefinición Colección de elementos Parte o porción de la considerados población seleccionada para su estudioCaracterísticas “Parámetros” “Estadísticas”Símbolos Tamaño de la población = N Tamaño de la muestra = n Media de la población = µ Media de la muestra = 0 Desviación estándar de la Desviación estándar de la población = σ muestra = s1.4.3 Símbolos estándar: N , µ , σ , y n , 0, sPara ser consecuentes, los estadísticos emplean letras latinas minúsculas paradenotar estadísticas de muestra y letras griegas o latinas mayúsculas pararepresentar parámetros de población. En la tabla 1 se enumeran estossímbolos y se resumen sus definiciones.1.5 Muestreo aleatorio simpleEl muestreo aleatorio simple es un procedimiento de selección por el cual todosy cada uno de los elementos de la población tienen igual probabilidad de serincluidos en la muestra. Entonces, si toda unidad de muestreo tiene la mismaprobabilidad de ser escogida, se sigue que las muestras aleatorias de igualtamaño, tomadas de una población dada, tienen la misma probabilidad de sertomadas.Partamos, por ejemplo, de la población de tres calificaciones: 2, 4 y 6. De estapoblación podemos tomar muestras de tamaño n = 2; con o sin reemplazo. Con
- 10. reemplazo significa que se selecciona una unidad elemental y luego ésta seregresa a la población antes de tomar la siguiente; por tanto, cada unidadpuede ser seleccionada más de una vez en la misma muestra. Es sinreemplazo, cuando, una vez escogida una unidad elemental, ésta ya no seregresa a la población, y por tanto, cada unidad puede aparecer sólo una vez.Veamos el caso de muestreo con reemplazo, tomando todas las posiblesmuestras de n = 2 que se pueden tomar de la población: 2, 4 y 6. El número demuestras por tomar es N" = 32 = 9.Las muestras son: 2,2 2,4 2,6 4,2 4,4 4,6 6,2 5,4 6,6Cada una de estas muestras tiene 1/9 de probabilidad de ser escogida.Ahora veamos el caso de muestreo sin reemplazo. Tomemos siempremuestras de tamaño n = 2. El número de muestras por tomar es el resultadodel desarrollo del combinatorioAl sustituir:Las muestras son: 2,4 2,6 4,6Cada una de estas muestras tiene 1/3 de probabilidad de ser escogida. ¿Cómoescoger una muestra aleatoria simple? Uno de los métodos sencillos consisteen numerar todos los elementos de la población, escribir los números entarjetas, fichas o bolas, poner luego en una caja o bolsa estos objetosnumerados y mezclarlos completamente. Se determina entonces el tamaño nde la muestra y se sacan los objetos al azar, uno por uno, hasta tener elnúmero deseado.Otro método más técnico y confiable consiste en usar tablas de númerosaleatorios. En la mayor parte de los libros de estadística aparece este tipo detablas; sin embargo, uno mismo puede elaborar las suyas, haciendo uso deuna urna con 10 bolas -de ping pong, por ejemplo- numeradas del 0 al 9; sesacan las bolas con reemplazamiento, se anotan los números que salgan y seforman bloques de números con los dígitos que se desee. El proceso es
- 11. eminentemente aleatorio, ya que cada dígito tiene la misma probabilidad desalir: 1/10. Tabla 2 Números aleatoriosVeamos algunos ejemplos donde se utiliza la tabla 2 de números aleatorios.Supóngase que tenemos una población de tamaño N = 100 y deseamos tomaruna muestra de tamaño n = 15. Primero se numera la población de la siguientemanera: por ser N = 100 potencia de 10, la numeración de la población quedaasí: 00-01-02-03-04-05-06-07-08-0910-11-12 ... 99. Una vez numerados loselementos de la población, se toman los primeros dos dígitos de los bloques denúmeros de la tabla, con un comienzo aleatorio. Supongamos que el comienzofue a partir del tercer bloque y quinto renglón; es decir: 58854 56144 01148 78742
- 12. . . .Los números escogidos -siguiendo hacia abajo- son: 58-56-01-78-61-81-59-79-07-82-17-22-89-21 y 70. Obsérvese que después del 22 sigue el 59, el cualno se tomó, porque ya había sido seleccionado.Supóngase ahora que la población tiene N = 825 elementos, de los cualestomaremos una muestra de n = 20. Por no ser N potencia de 10 y constar detres cifras, los elementos de la población se numeran así: 001-002-003-004-005-006-007-008-009-010-011-012-013 ... 825. Ya numerados esos elementos,se toman de la tabla números de tres cifras, sin pasar de 825. Supongamosque el comienzo aleatorio es el sexto bloque y el onceavo renglón; es decir: 58446 32910 76159 . . .Los números seleccionados -siguiendo hacia abajo- son: 584-329-761-386-001-678-823-772-304-815-489-443-727-196-627, y así sucesivamente hastacompletar la muestra. Obsérvese que después del número 386 sigue el 904,que no se tomó por ser mayor que 825; lo mismo se hizo con los números 888y 876, mayores que el tamaño de la población.Vamos a suponer, esta vez, que N = 3 645, y la muestra tomada es n = 400.Los elementos de la población quedan numerados así: 000 1 0002-0003-0004 ... 3645. Supongamos que el comienzo aleatorio es el octavo bloque y elveinteavo renglón; es decir: 55627 14812 44428, etcétera.Esta vez los números serán escogidos siguiendo hacia arriba: 5562-0038-0614-4534-5111-0567-4990-3878-1391-5620-5448-4570-3050-3738-2145; en estenúmero termina el bloque octavo. Los siguientes se pueden escoger ya sea elséptimo o el doceavo bloque de números; si optamos por el séptimo, losnúmeros que siguen son: 1228-3156-5620-5893-0844, y así sucesivamentehasta tener toda la muestra.
- 13. 2. Distribuciones muestrales y el teorema centraldel limite.2.1 Concepto de distribución de muestreoLa comprensión del concepto de la distribución de muestreo es fundamentalpara el correcto entendimiento de la inferencia estadística. Como ya seestableció, una distribución de la población es la distribución de la totalidad delas medidas individuales de una población, en tanto que una distribuciónmuestral es la distribución de los valores individuales incluidos en una muestra.En contraste con estas distribuciones de medidas individuales, una distribuciónde muestreo se refiere a la distribución de los diferentes valores que unaestadística muestral, o estimador, podría adoptar en muchas muestras delmismo tamaño. Así, aunque por lo general disponemos únicamente de unamuestra aleatoria o subgrupo, racional, reconocemos que la estadísticamuestral particular que determinamos, como la media o mediana de la muestra,no es exactamente igual al respectivo parámetro de la población. Más aún, elvalor de una estadística muestral variará de una muestra a otra, a causa de lavariabilidad del muestreo aleatorio, o error de muestreo. Ésta es la idea en laque se apoya el concepto de que toda estadística muestral es de hecho un tipode variable cuya distribución de valores está representada por una distribuciónde muestreo.2.1.1 Media (µ ). Es el promedio aritmético de las medias del conjunto de datos; ya sea de lapoblación o de la muestra.También habremos de referirnos a la media como el valor esperado de X, y sedenotará con E (X).2.1.2 Varianza (σ 2). Es el promedio de la suma de los cuadrados de las desviaciones. Se entiendepor desviación la diferencia de una media respecto a la media: X i - µ .Como puede verse, la varianza es una medida de dispersión. Indica, enpromedio, qué tan alejados están los datos respecto de la media.
- 14. 2.1.3 Desviación típica o estándar (σ ).Es la raíz cuadrada de la varianza.Por simplicidad, en las expresiones anteriores se acostumbra suprimir elsubíndice i, así como los límites de las sumatorias:2.2 Distribución muestral de mediasUna distribución muestral de medias o una distribución en el muestreo de lamedia se define como el conjunto de todas las medias que se pueden calcularen todas las muestras posibles que se pueden extraer, con o sin reemplazo, deuna determinada población. Para detectar las relaciones a que nos hemosreferido, partiremos de un ejemplo con una población pequeña.2.2.1 Muestreo con reemplazamientoSea la siguiente población de cinco calificaciones (véase la tabla 3): 4, 5, 6, 7 y8; calcular: a) La media y varianza de la población. b) Las medias de todas las muestras de tamaño 2 que se pueden extraer de esa población, con reemplazamiento. c) Transformar la serie de medias en una distribución muestral de medias. d) La media de las medias muestrales. e) La desviación típica o estándar de la distribución muestral de medias (error estándar de las medias). f) Las probabilidades de las medias muestrales.Tabla 3 Calificaciones de cinco estudiantes y cálculo de la media y la varianza.Solución
- 15. Tabla 4 Muestras de tamaño n = 2 y sus respectivas medias, tomadas de unapoblación de cinco calificaciones; con reemplazo.b) El número de muestras de tamaño 2, con reemplazamiento (véase la tabla 4), que se pueden extraer de una población de cinco observaciones, es: N = 51 = 25 muestras.c) Aquí introduciremos un término muy utilizado en la estadísticas: la frecuencia (f). Ésta se refiere al número de veces que ocurre un valor determinado. En términos de frecuencias, la media y la varianza se pueden expresar así:*Cada f en las sumatorias representa la frecuencia con que aparece cada valorXi.La serie de medias la transformamos en una distribución muestral de medíasde la siguiente manera.*Estas fórmulas se pueden aplicar cuando todos los eventos son igual menteprobables, como es el caso, por tratarse de muestreo aleatorio simple.Observación. Hemos obtenido al σ 2/x = 1; a fin de relacionar este valor con elde σ 2, notemos queEs decir:
- 16. Tabla 5 Distribución muestral de medias calculadas en muestras de tamaño n =2 de las calificaciones de cinco estudiantes, y cálculo de la media de lasmedias y desviación típica de la distribución muestral de medias.relación que nos dice que la desviación típica o estándar de la distribuciónmuestral de medias, que llamaremos error estándar de la distribución muestralde medias, es directamente proporcional a la desviación típica poblacional einversamente proporcional a la raíz cuadrada del tamaño de la muestra. Estafórmula, deducida aquí a partir de un caso particular, resulta ser válida engeneral, es de gran utilidad para la inferencia estadística. Si aplicamos lafórmula del error estándar de la distribución muestral de medias encontradapara nuestro ejercicio, tenemos:f) Las probabilidades de las 25 medias muestrales se presentan en laúltima columna de la tabla 5. Cuando las 25 muestras se seleccionan al azar,cada muestra tendrá la probabilidad de 1/25 de ser seleccionada. Puesto quehay cuatro muestras con media 5.5, por ejemplo, y el total de medias es 25, laprobabilidad de que una muestra seleccionada tenga media de 5.5 es,entonces, 4/25.2.2.2 Muestreo sin reemplazamientoCon la misma población de las calificaciones de cinco estudiantes, vamos acontestar las mismas preguntas:a) La media poblacional fue: µ = 6, la varianza: σ2 = 2 y la des- viación típica: σ = 1.4142.b) El número de muestras de tamaño 2, sin reemplazo, resulta del desarrollo del combinatorio
- 17. Tabla 6. Muestras de tamaño n = 2 y sus respectivas medias tomadas de unapoblación de cinco calificaciones, sin reemplazo.c)Tabla 7. Distribución muestral de medias calculadas en muestras de tamaño n= 2 de las calificaciones de cinco estudiantes y cálculo de la media de lasmedias y desviación típica de la distribución muestral de medias.Obsevación. El muestreo sin reemplazo genera poblaciones finitas, de talmanera que para calcular la desviación típica de la distribución muestral demedias, o sea, el error estándar de las medias, en muestreo sin reemplazo, setiene que introducir el factor de corrección finita ; por tanto, lafórmula del error estándar queda así:Al aplicar esta relación a nuestro problema, tenemos:resultado que es igual al encontrado anteriormente.f) Las probabilidades de las 10 medias muestrales figuran en la última columnade la última tabla. Cuando las 10 muestras se seleccionan al azar, cadamuestra tendrá la probabilidad de 1/10 de ser seleccionada. Puesto que haydos muestras con medias 5.5, 6.0 y 6.5, por ejemplo, la probabilidad deseleccionar cada una de ellas es 2/10; la probabilidad del resto de las mediases1 / 10 para cada una.
- 18. 2.3 El teorema del limite centralCuando usamos la media de una muestra para estimar la media de unapoblación, podemos expresar de varias maneras las incertidumbres acerca delerror. Cuando conocemos la distribución muestral exacta de la media, que raravez la conocemos, podríamos proceder como en el ejemplo anterior y calcularlas probabilidades asociadas con errores de diversos tamaños. Así mismo,siempre podernos usar el teorema de Chebyshev y afirmar con unaprobabilidad de como mínimo que la media de una muestra aleatoriadiferirá de la media de la población de la que se efectúa el muestreo por menosde k . σ 0 ; no obstante, en la práctica no podemos hacer esto.Ejemplo Con base en el teorema de Chebyshev con k = 2, ¿qué podemosdecir acerca del tamaño de nuestro error, si vamos a usar la media de unamuestra aleatoria de tamaño n = 64 para estimar la media de una poblacióninfinita conσ = 20 ?Solución Sustituyendo n = 64 y σ = 20 en la fórmula apropiada para el errorestándar de la media, obtenemosy se deriva que podemos afirmar con una probabilidad como mínimo de1 - 1 / 22 = 0.75 que el error será menor que k . σ 0 = 2Aquí, el problema es que "como mínimo de 0.75" no nos dice suficiente cuandoen realidad la probabilidad puede ser, digamos, 0.98 o aun 0.999.El teorema de Chebyshev ofrece una relación lógica entre los errores y lasprobabilidades de que éstos se cometan, pero existe otro teorema que enmuchos casos nos permite hacer aseveraciones más firmes acerca de laprobabilidad de nuestros errores potenciales. Este teorema, que es el segundode los que mencionamos se conoce como el teorema del límite central y sepuede expresar como sigue:Teorema del límite central: Para muestras grandes, se puede obtener una aproximación cercana de la distribución muestral de la media con una distribución normal.Si combinamos este teorema con el de la sección anterior, de acuerdo con elcual
- 19. para muestras aleatorias de poblaciones infinitas,encontramos que si 0 es la media de una muestra aleatoria de tamaño n deuna población infinita con la media µ y la desviación estándar σ y n esgrande, entonceses un valor de una variable aleatoria que tiene aproximadamente la distribuciónnormal estándar.El teorema del límite central es de importancia fundamental para la estadísticaporque justifica el uso de métodos de curva normal en una gran variedad deproblemas; se aplica a poblaciones infinitas y también a poblaciones finitascuando n, a pesar de ser grande, no constituye más que una pequeña porciónde la población. Es difícil señalar con precisión qué tan grande debe ser n demodo que se pueda aplicar el teorema del límite central, pero a menos de quela distribución de la población tenga una forma muy inusual, por lo regular seconsidera que n = 30 es lo suficientemente alto. Nótese que cuando en realidadestamos tomando una muestra de una población, la distribución del muestreode la media es una distribución normal, no obstante el tamaño de n.Ahora veamos qué probabilidad ocupará el lugar de "como mínimo de 0.75", siusamos el teorema del límite central en vez del teorema de Chebyshev en elejemplo anterior.Ejemplo base en el teorema del límite central, ¿cuál es la probabilidad de queel error sea menor que 5, cuando se usa la media de una muestra aleatoria detamaño n = 64 para estimar la media de una población infinita con σ = 20?Solución La probabilidad se obtiene por medio del área de la zona blanca bajola curva de la figura 1, específicamente, por medio del área de curva normalestándar entre
- 20. FIGURA 1 Distribución muestral de la media.Dado que la entrada de la tabla correspondiente a z = 2.00 es 0.4772, laprobabilidad que se pide es 0.4772 + 0.4772 = 0.9544. Así, sustituimos laafirmación de que la probabilidad es "como mínimo de 0.75" por unaaseveración más firme de que la probabilidad es aproximadamente de 0.95 (deque la media de una muestra aleatoria de tamaño n = 64 de la población dereferencia difiera de la población por menos de 5).También se puede usar el teorema del límite central para poblaciones finitas,pero una descripción precisa de las situaciones en que se puede hacer estosería más bien complicada. El uso apropiado más común es en el caso en quen es grande mientras que n / N es pequeña. Este es el caso en la mayoría delas encuestas políticas.2.4 La distribución t de StudentCuando hicimos la estimación por intervalo por medio de la distribución Z, osea, con un muestreo grande (n ≥ 30), establecimos el intervalo de confianzapara estimar la media poblacional, así: 0 ± Z σ / √ n, dado que conocíamos ladesviación típica de la población, σ. Sin embargo, cuando no conocemos estevalor, establecimos queσ se podía sustituir por la desviación típica muestral S,y el intervalo quedaba así: 0 ± Z S /√ n . Ahora, cuando el tamaño de lamuestra es menor que 30, o sea, para el que llamamos muestreo pequeño, lasustitución de σ por S no es apropiada; en consecuencia, se hace necesarioconsiderar una forma alternativa para estimar la media poblacional a partir deuna muestra pequeña.Muchos problemas científicos han sido resueltos por la vía de laexperimentación. Supongamos que se toman todas las muestras posibles, detamaño n menor que 30, de una determinada población con distribuciónnormal, y se calcula la estadística de prueba t para construir un polígono defrecuencias con los valores calculados 0 y S de cada una de estas muestras yvisualizar así la forma de la distribución. t se define así:
- 21. (El signo en la parte superior de indica que se trata de un estimador.)Dondeo sea, el error estándar de la distribución muestral de medias.µ = media poblacional.La distribución t queda así:Esta distribución t fue descubierta por William Gosset, quien la publicó en 1908con el seudónimo de Student. Desde entonces se le conoce como distribución tde Student. Por la naturaleza de este ensayo, omitimos la explicaciónmatemática de esta distribución. Sólo manejaremos su aplicación para laestimación y prueba de hipótesis. Al igual que la distribución Z, la distribución ttiene forma acampanada y perfectamente simétrica con respecto a t = 0, perocon una dispersión mayor, la cual aumenta a medida que disminuye el tamañode la muestra.Antes de estudiar la distribución t debemos señalar que no sólo existe una, sinovarias distribuciones t. Cada una de ellas está asociada con lo que sedenomina grados de libertad (v), que se definen como el número deobservaciones menos uno; es decir, v = n - 1. En otras palabras, la forma de ladistribución dependerá del tamaño de la muestra. Por ejemplo, los valores de tpara muestras de tamaño 4 quedan descritos por la distribución t con tresgrados de libertad (4 - 1 = 3); la distribución t con 29 grados de libertaddescribe la distribución de los valores t para muestras de tamaño 30. En lafigura 2 ilustramos dos distribuciones t con tres y 29 grados de libertad y ladistribución normal:
- 22. Figura 2 Comparación de dos distribuciones t con la distribución normal.Podemos observar en la gráfica que tanto la distribución normal como lasdistribuciones t tienen forma de campana y son simétricas. También puedeobservarse que las distribuciones t tienen mayor dispersión que la normal. Porejemplo, en la gráfica se han marcado valores críticos de Z y t para uncoeficiente de confianza de 0.99. Así, el valor crítico de Z para 0.99 es ± 2.58 yel valor crítico de t para tres grados de libertad es ± 5.84.Al examinar esta distribución encontramos que el valor crítico de t para 3grados de libertad (renglón 3 y última columna, rotulada t0.005) es ± 5.84. Estevalor indica que 0.5% (0.005 X 100 = 0.5%) del área bajo esta curva t está a laderecha de + 5.84 o a la izquierda de - 5.84. En consecuencia, 99% del áreabajo t está incluida en el intervalo ± 5.84; es decir, hay una probabilidad de 0.99de que la variable t esté en el intervalo [ - 5.84, 5.84].En forma análoga, el valor 2.76, ubicado en la última columna, rotulada t0.005, yel renglón 29, corresponde al valor crítico de la distribución t para 29 grados delibertad, e indica que 0.5% del área bajo esta curva está a la derecha de 2.76 oa la izquierda de - 2.76. En consecuencia, 0.99 del área bajo la curva t estáincluida en el intervalo ± 2.76; o sea, hay una probabilidad de 0.99 de que lavariable t esté en el intervalo [ - 2.76, 2.76].Es importante observar que el valor crítico de t ha disminuido al crecer elnúmero de grados de libertad. Si el tamaño de la muestra hubiese aumentadoen forma infinita, el valor de t tomaría el valor de 2.58, que es igual al valor deZ para la curva normal.De la misma manera podemos interpretar los otros valores de la tabla. Porejemplo, para una distribución t con 15 grados de libertad y un coeficiente deconfianza de 0.95, el valor crítico de t se ubica en la
- 23. Tabla 8 Tabla de la distribución t de Student con v grados de libertad.novena columna (t0.0025) y el renglón 15; o sea, ± 2.13. En esta mismadistribución, si n tiende a infinito, el valor que tomaría t sería 1.96, el cual seencuentra en la columna 9 y último renglón, igual al valor de Z para la curvanormal.Para la distribución t con 14 grados de libertad, obtenemos en la tabla que 90%del área bajo esta curva t está en el intervalo ± 1.76, es decir, que hay unaprobabilidad de 0.90 de que la variable t se encuentre en el intervalo
- 24. Comola desigualdad se convierte en:que también puede escribirse así:Por tanto, afirmamos que hay una probabilidad de 0.90 de que la media de lapoblación µ esté en este intervalo. Así, pues, podemos decir que cuando eltamaño de la muestra es 15(v = n - 1 = 15 - 1 = 14), hay una confianza de 0.90de que el parámetro µ esté en el intervaloSi el tamaño de la muestra fuese 10, los grados de libertad serían 9 (10 - 1 = 9)y para un coeficiente de confianza de 80% el intervalo de confianza paraestimar la media poblacional µ sería:En general, para estimar la media poblacional 0, en cualquier intervalo deconfianza, utilizamos la relación2.5 Distribución Ji CuadradaCon el objeto de comparar la media de una muestra con la media hipotética deuna población, en muestreo pequeño, utilizamos una distribución t y unestadístico t. De la distribución de t obtuvimos una tabla de valores t con loscuales comparamos los estadísticos t calculados. Análogamente, paracomparar la varianza de una muestra con la varianza hipotética de unapoblación, utilizamos la distribución Ji cuadrada, la cual se denota por la letragriega X(Ji), elevada al cuadrado: X2.Dada la naturaleza de este ensayo elemental, no haremos inferencia para estetipo de problemas, que corresponde al campo de la estadística paramétrica. Jicuadrada se puede manejar en forma paramétrica y no paramétrica; para losfines de este libro nos restringiremos a la última forma.Como ocurre con las distribuciones t, la distribución Ji cuadrada tiene unaforma que depende del número de grados de libertad asociados a undeterminado problema. Varias de estas curvas se ilustran en la figura 3. Debidoa esta tendencia, el valor crítico de será función de los grados de libertad.Así, para obtener un valor crítico a partir de una tabla de debemosseleccionar un nivel de significación y determinar los grados de libertad para elproblema bajo análisis.
- 25. Figura 3 Distribución Ji cuadrada para v = 2, 5 y 10.
- 26. 3. Estimador y estimaciones3.1 Definición de estimadorCualquier estadística de muestra que se utilice para estimar un parámetro depoblación se conoce como estimador, es decir, un estimador es una estadísticade muestra utilizada para estimar un parámetro de población. La media de lamuestra 0 puede ser un estimado de la media de la población µ , y la porciónde la muestra se puede utilizar como estimador de la porción de la población.También podemos utilizar el alcance de la muestra como un estimador delalcance de la población.3.2 Definición de estimaciónCuando hemos observado un valor numérico específico de nuestro estimador,nos referimos a ese valor como una estimación. En otras palabras, unaestimación es un valor específico observado de una estadística. Hacemos unaestimación si tomamos una muestra y calculamos el valor que toma nuestroestimador en esa muestra. Suponga que calculamos la lectura media de unodómetro (kilometraje) a partir de una muestra de taxis en sevicio yencontramos que ésta es de 160,000 kilómetros. Si utilizamos este valorespecífico para estimar el kilometraje de la flotilla de taxis completa, el valorobtenido de 160,000 kilómetros sería una estimación. En la tabla 9 ilustramosvarias poblaciones, parámetros de población, estimadores y estimaciones.3.3 Criterios para seleccionar un buen estimador3.3.1 Cualidades de un buen estimadorAlgunas estadísticas son mejores estimadores que otras. Afortunadamente,podemos evaluar la calidad de una estadística como estimador mediante el usode cuatro criterios:1 . Imparcialidad. Ésta es una propiedad deseable para un buen estimador. Eltérmino imparcialidad se refiere al hecho de que una media de muestra es unestimador no sesgado de una media de población porque la media de ladistribución de muestreo de las medias de muestra tomadas de la mismapoblación es igual a la media de la población misma. Podemos decir que unaestadística es un estimador imparcial (o no sesgado) si, en promedio, tiende atomar valores que están por encima del parámetro de
- 27. Tabla 9la población que se está estimando con la misma frecuencia y la mismaextensión con la que tiende a asumir valores por debajo del parámetro depoblación que se está estiman.2. Eficiencia. Otra propiedad deseable de un buen estimador es que seaeficiente. La eficiencia se refiere al tamaño del error estándar de la estadística.Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamosde decidir cuál de ellas es un estimador más eficiente, escogeríamos laestadística que tuviera el menor error estándar o la menor desviación estándarde la distribución de muestreo. Suponga que escogemos una muestra de untamaño determinado y debemos decidir si utilizamos o no la media de lamuestra para estimar la media de la población. Si calculamos el error estándarde la media de la muestra y encontramos que es de 1.05 y luego calculamos elerror estándar de la mediana de la muestra y tenemos que éste es de 1.6,diríamos que la media de la muestra es un estimador más eficiente de la mediade la muestra ya que su error estándar es menor. Tiene sentido pensar que unestimador con un error estándar menor (con menos variación) tendrá unamayor oportunidad de producir una estimación más cercana al parámetro depoblación que se está considerando.3. Coherencia. Una estadística es un estimador coherente de un parámetro depoblación si al aumentar el tamaño de la muestra, se tiene casi la certeza deque el valor de la estadística se aproxima bastante al valor del parámetro de lapoblación. Si un estimador es coherente, se vuelve más confiable si tenemostamaños de muestra más grandes. Si usted se pregunta acerca de laposibilidad de aumentar el tamaño de la muestra para obtener más informaciónsobre un parámetro de población, encuentre primero si su estadística es unestimador coherente o no. Si no, usted desperdiciará tiempo y dinero al tomarmuestras más grandes.4. Suficiencia. Un estimador es suficiente si utiliza una cantidad de lainformación contenida en la muestra que ningún otro estimador podría extraerinformación adicional de la muestra sobre el parámetro de la población que seestá estimando.Presentamos estos criterios con anticipación para hacerlo consciente delcuidado que los estadísticos deben tener a la hora de escoger un estimador.
- 28. 3.3.2 Búsqueda del mejor estimadorUna estadística de muestra dada no siempre es el mejor estimador de suparámetro de estimador población correspondiente. Considere una poblacióndistribuida de manera simétrica, en la que los valores de la mediana y de lamedia coinciden. En este caso, la media de la muestra sería un estimadorimparcial de la mediana de la población debido a que asumiría valores que enpromedio serían iguales a la mediana de la población. También, la media de lamuestra sería un estimador consistente de la mediana de la población puestoque, conforme aumenta el tamaño de la muestra, el valor de la medía de lamuestra tenderá a acercarse bastante a la mediana de la población. Y la mediade la muestra sería un estimador más eficiente de la mediana de la poblaciónque la mediana de la muestra misma, ya que en muestras grandes, la media dela muestra tiene una desviación estándar menor que la de la mediana de lamuestra. Al mismo tiempo, la mediana de la muestra de una poblacióndistribuida simétricamente sería un estimador imparcial y consistente de lamedia de la población, pero no el más eficiente estimador porque en muestrasgrandes su error estándar es mayor que el de la media de la muestra.3.4 Tipos de estimación3.4.1 Definición de estimación puntualPodemos hacer dos tipos de estimaciones concernientes a una población: unaestimación puntual y una estimación de intervalo. Una estimación puntual esun solo número que se utiliza para estimar un parámetro de poblacióndesconocido. Si, mientras observamos al primer integrante de un equipo defútbol americano salir al campo de juego, usted se dice: ¡Anda! Apuesto a quesu línea defensiva pesará unos 125 kilogramos, usted ha hecho una estimaciónpuntual. El jefe de departamento de alguna universidad estaría haciendo unaestimación puntual si afirmara: "Nuestros datos actuales indican que en estamateria tendremos 350 estudiantes en el siguiente semestre".3.4.2 Desventajas de las estimaciones puntualesUna estimación puntual a menudo resulta insuficiente, debido a que sólo tienedos opciones: es correcta o está equivocada. Si se nos dice solamente que laafirmación del jefe de departamento sobre la inscripción está equivocada, ustedno sabe qué tanto está mal, y no puede tener la certeza de la confiabilidad dela estimación. Si usted se entera de que sólo está errada por 10 estudiantes,podría aceptar a 350 estudiantes como una buena estimación de la inscripciónfutura. Pero si está equivocada en 90 estudiantes, podría usted rechazar laestimación por poco confiable. En consecuencia, una estimación puntual esmucho más útil si viene acompañada por una estimación del error que podríaestar implicado.3.4.3 Definición de estimación de intervaloUna estimación de intervalo es un intervalo de valores que se utiliza paraestimar de intervalo un parámetro de población. Esta estimación indica el error
- 29. de dos maneras: por la extensión del intervalo y por la probabilidad de obtenerel verdadero parámetro de la población que se encuentra dentro del intervalo.En este caso, el jefe de departamento diría algo como lo siguiente: Estimo quela inscripción real de este curso para el próximo semestre estará entre 330 y380, y es muy probable que la inscripción exacta caiga dentro de este intervalo.Tiene una mejor idea de la confiabilidad de su estimación. Si el curso seimparte en grupos de 100 estudiantes cada uno y si, tentativamente, haprogramado cinco cursos, entonces, basándose en su estimación, puedecancelar uno de tales grupos y dejarlo como optativo.3.5 Estimador sesgado e insesgado.Un estimador puntual es el valor numérico de una estadística muestralempleado para estimar el valor de un parámetro de la población o proceso. Unade las características más importantes de un estimador es que sea insesgado.Un estimador insesgado es una estadística muestral cuyo valor esperado esigual al parámetro por estimar. Un valor esperado es el promedio a largo plazode la estadística muestral. La eliminación de todo sesgo sistemático estáasegurada cuando la estadística muestral corresponde a una muestra aleatoriatomada de una población o a un subgrupo racional tomado de un proceso.Ambos métodos de muestreo garantizan que la muestra sea insesgada,aunque no eliminan la variabilidad del muestreo, o error de muestreo, como seexplicará en la siguiente sección.En la tabla 10 se presentan algunos de los estimadores puntuales deparámetros de la población de uso más frecuente. En todos los casos, elestimador apropiado de un parámetro de la población es sencillamente laestadística muestral correspondiente. Tabla 10
- 30. 4. Estimación por intervalos4.1 Intervalos de confianza para la diferencia entre dos medias con el usode la distribución normalA menudo es necesario estimar la diferencia entre dos medias poblacionales,como la diferencia entre los niveles salariales de dos empresas. El estimadorpuntual insesgado de (µ 1 - µ 2) CS (0 1 - 0 2) . El intervalo de confianza seelabora en forma similar al usado para la estimación de la media, excepto queel error estándar pertinente para la distribución de muestreo es el errorestándar de la diferencia entre medias. El uso de la distribución normal se basaen las mismas condiciones que en el caso de la distribución de muestreo de lamedia, salvo que están implicadas dos muestras. La fórmula empleada paraestimar la diferencia entre dos medias poblacionales con intervalos deconfianza es óCuando se conocen las desviaciones estándar de las dos poblaciones, el errorestándar de la diferencia entre medias esCuando se desconocen las desviaciones estándar de las poblaciones, el errorestándar estimado de la diferencia entre medias dado el uso apropiado de ladistribución normal esLos valores de los errores estándar de las respectivas medias incluidos enestas fórmulas se calculan con las fórmulas dadas, incluida la posibilidad deusar factores de corrección por finitud cuando correspondaEjemplo. El salario medio semanal de una muestra de n = 30 empleados deuna gran empresa manufacturera es, µ = $280.00, con una desviación estándarmuestral de s = $14.00. En otra gran empresa, una muestra aleatoria de n = 40empleados por hora tiene un salario medio semanal de $270.00, con unadesviación estándar muestral de s = $10.00. El intervalo de confianza de 99%para la estimación de la diferencia entre los niveles salariales mediossemanales de las dos empresas esdonde
- 31. Así, podemos afirmar que el salario promedio semanal de la primera empresaes mayor que el promedio de la segunda Empresa por un monto de entre $2.23y $17.77, con una confianza de 99% en esta estimación por intervalo.Adviértase que los - tamaños de las muestras son suficientemente grandespara permitir el uso de Z para aproximar el valor t.Además del intervalo de confianza de dos extremos, también puede elaborarseun intervalo de confianza de un extremo -ara la diferencia entre medias.4.2 Distribución t e intervalos de confianza para la diferencia entre dosmediasEl uso de la distribución t en conjunción con una muestra es necesario cuando1 ) Se desconocen las desviaciones estándar a de la población.2) Las muestras son pequeñas (n < 30). Si las muestras son grandes, losvalores t pueden ser aproximados por la normal estándar z.3) Se supone que las poblaciones tienen una distribución aproximadamentenormal (recuerde que el teorema central del límite no puede aplicarse enmuestras pequeñas).Además de lo anterior, cuando se usa la distribución t para definir intervalos deconfianza para la diferencia entre dos medias, no para inferencias sobre sólouna media poblacional, por lo general se requiere del siguiente supuestoadicional:4) Las dos varianzas poblacionales (desconocidas) son iguales, a σ21 = σ22A causa del anterior supuesto de igualdad, el primer paso para determinar elerror estándar de la diferencia entre medias cuando procede el uso de ladistribución t es combinar las dos varianzas muestrales:El error estándar de la diferencia entre muestras basado en el uso de lavarianza combinada estimada σ2 es
- 32. Con gl = n1, + n2 - 2, el intervalo de confianza esNota: En cierto software de cómputo no se requiere el supuesto de que las dosvarianzas de la población sean iguales. Se determina en cambio un valorcorregido para los grados de libertad, lo que resulta en menos g1, y esto a suvez en un valor de t ligeramente mayor y en un intervalo de confianzaligeramente más amplio.EJEMPL02. En relación con una muestra aleatoria de n 1,= 10 focos, el ciclomedio de vida de los focos es 0 1 = 4 600 horas, con s1, = 250 hr. El ciclo mediode vida y la desviación estándar de una muestra de n 2 = 8 focos de otra marcason 0 2 = 4 000 hr Y S2 = 200 Hr. Se supone que el ciclo de vida de ambasmarcas tiene una distribución normal. El intervalo de confianza de 90% paraestimar la diferencia entre el ciclo medio de vida útil de las dos marcas de focosesAsí, podemos afirmar con una confianza de 90% que la primera marca de focostiene una vida media superior a la de la segunda marca en un monto de entre410 y 790 hr.Obsérvese que en el caso de dos muestras es posible que éstas seanpequeñas (n < 30) y que aun así sea factible utilizar la distribución normal paraaproximar t, porque gl ≥ :29. Sin embargo, en este caso se debe partir delsupuesto de que las dos poblaciones siguen una distribución aproximadamentenormal, dado que es imposible apelar al teorema central del límite respecto deuna muestra pequeña.
- 33. 4.3 Intervalos de confianza para la proporción de la poblaciónLa distribución de probabilidad aplicable a las proporciones es la distribuciónbinormial de probabilidad. No obstante, los cálculos matemáticos asociadoscon la determinación de un intervalo de confianza para una proporciónpoblacional desconocida con base en el proceso de Bemoulli son complejos.Por lo tanto, en todos los libros de texto orientados a aplicaciones se utiliza ladistribución normal como aproximación de la solución exacta de intervalos deconfianza para proporciones. Esta aproximación es adecuada cuando n ≥ 30 ytanto np como nq ≥ 5 (donde q = 1 - p). Sin embargo, cuando la proporción dela población p (o π) es desconocida, la mayoría de los expertos en estadísticarecomienda tomar una muestra de n ≥ 100. Nótese que, en el contexto de laestimación estadística, ≥ es desconocida, pero es estimada por ^p.La varianza de la distribución de proporciones sirve de base para el errorestándar. Dada una proporción muestral observada, ^p, el error estándar de laproporción estimado esEn el contexto de la estimación estadística, la p (o π) de la población sedesconoce, porque es justamente el valor por estimar. Si la población es porfinitud, procede el uso del factor de corrección por finitud. Como en el caso delerror estándar de la media, por lo general se considera innecesario el uso deesta corrección si n < 0.05 N.El intervalo de confianza aproximado para una proporción poblacional esAdemás del intervalo de confianza de dos extremos, también puededeterminarse un intervalo de confianza de un extremo para la proporciónpoblacional.Ejemplo. Una empresa de investigación de mercado contacta a una muestraaleatoria de 100 varones en una comunidad extensa y determina que unaproporción muestral de 0.40 prefiere las navajas de afeitar fabricadas por elcliente de esa empresa sobre todas las demás marcas. El intervalo deconfianza de 95% para la proporción de todos los varones de la comunidad queprefieren las navajas de afeitar del cliente de la empresa se determina de lasiguiente manera:Por lo tanto, con una confianza de 95% estimamos la proporción de todos losvarones de la comunidad que prefieren las navajas del cliente de la empresacon un valor entre 0.30 y 0.50.
- 34. 4.4 Determinación del tamaño de muestra requerido para la estimación dela proporciónAntes de recolectada una muestra, el tamaño de muestra mínimo requeridopuede determinarse especificando el nivel de confianza requerido y el error demuestreo aceptable y haciendo una estimación inicial (subjetiva) de π, laproporción poblacional desconocida:z es el valor usado para el intervalo de confianza especificado, π es laestimación inicial de la proporción poblacional y E es el error de muestreo "demás o de menos" permitido en el intervalo (siempre la mitad del intervalo deconfianza completo).Si no es posible determinar un estimado inicial de π, se le deberá estimar en0.50. Esta estimación es conservadora en tanto que representa el valor para elque se requeriría del tamaño de muestra mayor. Con base en este supuesto, lafórmula general para el tamaño de muestra se simplifica en esta forma:[Nota: Cuando se busca determinar el tamaño de muestra, todo resultadofraccionario se redondea siempre al valor inmediato superior. Además, todotamaño de muestra calculado por debajo de 100 se debe incrementar a 100,porque las fórmulas se basan en el uso de la distribución normal.]Ejemplo. En referencia al estudio mencionado en el ejemplo anterior,supongamos que con anterioridad ala recolección de los datos se especificóque la estimación del intervalo de 95% debía tener un margen de error inferiora ± 0.05 y que no se hizo juicio preliminar alguno sobre el probable valor de π.El tamaño de muestra mínimo por recolectar esAparte de estimar la proporción de la población, también puede estimarse elnúmero total en una categoría de la población.4.5 Intervalos de confianza para la diferencia entre dos proporcionesPara estimar la diferencia entre las proporciones de dos poblaciones, elestimador puntual insesgado de (π1 - π2 ) es (p1 – p2). El intervalo de confianzaimplica el uso del error estándar de la diferencia entre proporciones. El uso dela distribución normal se basa en las mismas condiciones que las expuestas enrelación con la distribución de muestreo de la proporción, salvo que este casoinvolucra a dos muestras y los requerimientos se aplican a cada una de ellas.El intervalo de confianza para la estimación de la diferencia entre dosproporciones poblacionales es
- 35. El error estándar de la diferencia entre proporciones se determina por medio dela fórmula, en la que el valor de cada respectivo error estándar de la proporciónse calcula tal como se describió:Ejemplo. Como se indicó que una proporción de 0.40 varones de una muestraaleatoria de 100 de una comunidad extensa prefirió las navajas de afeitar delcliente de la empresa sobre todas las demás. En otra comunidad extensa, 60varones de una muestra aleatoria de 200 prefieren las navajas del cliente de laempresa. El intervalo de confianza de 90% para la diferencia en la proporciónde varones de las dos comunidades que prefieren las navajas del cliente de laempresa es4.6 Distribución ji cuadrada e intervalos de confianza para la varianza ydesviación estándarDada una población de valores con distribución normal, puede demostrarseque las distribuciones X2 Ji cuadrada) son las distribuciones de probabilidadadecuadas para la razón (n - 1) s2 / σ2 . Hay una distribución Ji cuadradadiferente según el valor de n -1, lo cual representa los grados de libertad. Así,Dado que la varianza muestral es el estimador insesgado de la varianzapoblacional, el valor esperado a largo plazo de la razón anterior es igual a losgrados de libertad, o n - 1. Sin embargo, en cualquier muestra dada por logeneral la varianza muestral no es idéntica en valor a la varianza poblacional.Puesto que se sabe que la razón anterior sigue una distribución ji cuadrada,esta distribución de probabilidad puede servir para la realización de inferenciasestadísticas sobre una varianza o desviación estándar desconocida.
- 36. Las distribuciones ji cuadrada no son simétricas. En consecuencia, un intervalode confianza de dos extremos para una varianza o desviación estándar implicael uso de dos valores diferentes de X 2, no del método "de más o de menos"utilizado en los intervalos de confianza basados en las distribuciones normal yt. La fórmula para la elaboración de un intervalo de confianza para la varianzade la población esEl intervalo de confianza para la desviación estándar de la población esEn la anterior fórmula general, los subíndices "superior" e "inferior" identificanlos puntos percentiles de la distribución X 2 particular por usar en la elaboracióndel intervalo de confianza. Por ejemplo, para un intervalo de confianza de 90%el punto superior es X20.95 y el punto inferior X20.05 . Al excluir el 5% mayor y el5% menor de la distribución ji cuadrada, lo que resta es el 90% "central".Ejemplo. El salario medio semanal de una muestra de 30 empleados porhorade una gran empresa es 0 = $280.00, con una desviación estándarmuestral de s = $14.00. Se supone que los montos salariales semanales de laempresa tienen una distribución aproximadamente normal. El intervalo deconfianza de 95% para estimar la desviación estándar de los salariossemanales de la población esEn relación con el ejemplo anterior, repárese en el hecho de que, dado que losencabezados son probabilidades de la cola derecha más que valorespercentiles, los encabezados de columnas que aparecen en la tabla se refierena los valores complementarios de los valores percentiles superior e inferiorrequeridos.Como alternativa a un intervalo de confianza de dos extremos, también puededeterminarse un intervalo de confianza de un extremo para la varianza odesviación estándar.
- 37. 5. Pruebas de hipótesis paramétricas5.1 IntroducciónEl propósito de la prueba de hipótesis es determinar si el valor supuesto(hipotético) de un parámetro poblacional, como la media de la población, debeaceptarse como verosímil con base en evidencias muestrales. Recuérdese quesobre distribuciones de muestreo, se dijo que, en general, una media muestraldiferirá en valor de la media poblacional. Si el valor observado de unaestadística muestral, como la media muestral, se acerca al valor paramétricosupuesto y sólo difiere de él en un monto que cabría esperar del muestreoaleatorio, el valor hipotético no se rechaza. Si la estadística muestral difiere dela supuesta en un monto que no es posible atribuir al azar, la hipótesis serechaza por inverosímil.Se han desarrollado tres procedimientos distintos para la prueba de hipótesis,todos los cuales conducen a las mismas decisiones cuando se emplean losmismos estándares de probabilidad (y riesgo). En este capítulo describiremosprimeramente el método del valor crítico para la prueba de hipótesis. Deacuerdo con este método, se determinan los así llamados valores críticos de laestadística de prueba que dictarían el rechazo de una hipótesis, tras de lo cualla estadística de prueba observada se compara con los valores críticos. Éstefue el primer método en desarrollarse, motivo por el cual buena parte de laterminología de las pruebas de hipótesis se deriva de él. Más recientemente, elmétodo del valor P ha cobrado popularidad a causa de ser el más fácilmenteaplicable a software de cómputo. Este método se basa en la determinación dela probabilidad condicional de que el valor observado de una estadísticamuestral pueda ocurrir al azar, dado que un supuesto particular sobre el valordel parámetro poblacional asociado sea en efecto correcto. El método deintervalos de confianza se basa en la observación de si el valor supuesto de unparámetro poblacional está incluido en el rango de valores que define a unintervalo de confianza para ese parámetro.Pero más allá del método de prueba de hipótesis que se use, debe hacersenotar que si un valor hipotético no se rechaza, y por lo tanto se acepta, ello noconstituye una "prueba" de que sea correcto. La aceptación de un valorsupuesto de un parámetro indica simplemente que se trata de un valorverosímil, con base en el valor observado de la estadística muestral.5.2 Pasos básicos de la prueba de hipótesis con el método de valorcríticoPaso1. Formule la hipótesis nula y la hipótesis alternativa. La hipótesis nula(H0 es el valor paramétrico hipotético que se compara con el resultadomuestral. Se le rechaza sólo si es poco probable que el resultado muestralhaya ocurrido dado lo correcto de la hipótesis. La hipótesis alternativa (H 1) seacepta sólo si la hipótesis nula es rechazada. En muchos libros de texto lahipótesis alternativa también se designa como H a.
- 38. Ejemplo Un auditor desea probar el supuesto de que el valor medio de latotalidad de las cuentas por cobrar de una empresa dada es de $260.00tomando una muestra de n = 36 y calculando la media muestral. El auditordesea rechazar el valor supuesto de $260.00 sólo si es claramente contradichopor la media muestral, caso éste en el que el valor hipotético recibiría elbeneficio de la duda en el procedimiento de prueba. Las hipótesis nula yalternativa de esta prueba son H0 : µ = $260.00 y H1 : µ ≠ $260.00.Paso 2. Especifique el nivel de significancia por aplicar. El nivel de significanciaes el estándar estadístico que se especifica para rechazar la hipótesis nula. Sise especifica un nivel de significancia de 5%, la hipótesis nula se rechaza sólosi el resultado muestral es tan diferente del valor hipotético que una diferenciapor ese monto o un monto superior ocurriría al azar con una probabilidad de0.05 o menos.Nótese que si se usa el nivel de significancia de 5%, hay una probabilidad de0.05 de rechazar la hipótesis nula aun siendo efectivamente cierta. Esto sellama error tipo I La probabilidad del error tipo I siempre es igual al nivel designificancia empleado como estándar para rechazar la hipótesis nula; se ledesigna con la letra griega minúscula α (alfa), de modo que a designa tambiénal nivel de significancia. Los niveles de significancia de uso más frecuente en laprueba de hipótesis son los de 5% y 1%.Ocurre un error tipo II si la hipótesis nula no se rechaza, y es por lo tantoaceptada, cuando en realidad es falsa. La determinación de la probabilidad delerror tipo II se explica. En la tabla correspondiente se resumen los tipos dedecisiones y las posibles consecuencias de las decisiones tomadas en pruebasde hipótesis.Paso 3. Seleccione la estadística de prueba. La estadística de prueba será yasea la estadística muestral (el estimador insesgado del parámetro a prueba) ouna versión estandarizada de la estadística muestral. Por ejemplo, para probarun valor hipotético de la media poblacional, la media de una muestra aleatoriatomada de esa población podría servir como la estadística de prueba. Sinembargo, si la distribución de muestreo de la media es normal, el valor de lamedia muestral se convierte usualmente en un valor z, el cual funge entoncescomo la estadística de prueba.Paso 4. Establezca el valor o valores críticos de la estadística de prueba.Habiendo especificado la hipótesis nula, el nivel de significancia y la estadísticade prueba por usar, se establece entonces el(los) valor(es) crítico(s) de laestadística de prueba. Estos valores pueden ser uno o dos, dependiendo de siestán implicadas las así llamadas pruebas unilaterales o bilaterales. Encualquier caso, un valor crítico identifica el valor de la estadística de pruebarequerido para rechazar la hipótesis nula.Paso 5. Determine el valor de la estadística de prueba. Por ejemplo, al probarun valor hipotético de la media poblacional, se recolecta una muestra aleatoriay se determina el valor de la media muestral. Si el valor crítico fue establecidocomo un valor z, la media muestral se convierte a un valor z.
- 39. Paso 6. Tome la decisión. El valor observado de la estadística muestral secompara con el valor (o valores) crítico(s) de la estadística de prueba. Serechaza o no entonces la hipótesis nula. Si la hipótesis nula es rechazada, seacepta la hipótesis alternativa. Esta decisión tendrá relevancia a su vez paraotras decisiones por tomar por los gerentes de operación, como la de si se estásosteniendo o no cierto estándar de desempeño o cuál de dos estrategias decomercialización seguir.5.3 Prueba de una hipótesis referente a la media usando la distribuciónnormalLa distribución normal de probabilidad puede usarse para probar un valorhipotético de la media de la población 1) si n ≥ 30, por efecto del teoremacentral del límite, o 2) cuando n < 30 pero la población tiene una distribuciónnormal y a es conocida.Una prueba bilateral se aplica cuando nos interesa una posible desviación encualquier dirección respecto del valor hipotético de la media. La fórmula que seemplea para establecer los valores críticos de la media muestral es similar a lafórmula para determinar los límites de confianza para la estimación de la mediade la población, excepto que el valor hipotético de la media poblacional µ0 es eneste caso el punto de referencia, en lugar de la media muestral. Los valorescríticos de la media muestral para una prueba de dos extremos, de acuerdocon el hecho de si σ se conoce o no, sonEjemplo. En relación con la hipótesis nula formulada en el ejemplo anterior,determine los valores críticos de la media muestral para probar la hipótesis alnivel de significancia del 5%. Dado que se sabe que la desviación estándar delos montos de las cuentas por cobrar es σ = $43.00, los valores críticos sonHipótesis: H0 : µ = $260.00; Hi, : µ ≠ $260.00Nivel de significancia: α = 0.05Estadística de prueba: 0 , con base en una muestra de n = 36 y con σ = 43.000CR = valores críticos de la media muestralEn consecuencia, para rechazar la hipótesis nula la media muestral debe tenerun valor inferior a $245.95 o superior a $274.05. Así, en el caso de una pruebade dos extremos existen dos regiones de rechazo. Los valores z de ±1.96sirven para establecer los límites críticos, dado que, por efecto de la
- 40. distribución normal estándar, una proporción de 0.05 del área permanece enlas dos colas, lo que corresponde a la α = 0.05 especificada. Fig. 4En lugar de establecer los valores críticos en términos de la media muestral, enla prueba de hipótesis los valores críticos suelen especificarse en términos devalores z. Para el nivel de significancia del 5% los valores críticos de z para unaprueba de dos extremos son -1.96 y + 1 .96, por ejemplo. Una vez determinadoel valor de la media muestral, se le convierte a un valor z para que puedacomparársele con los valores críticos de z. La fórmula de conversión, según siores conocida o no, es óEjemplo. En referencia al problema de prueba de hipótesis de los dos ejemplosanteriores, supongamos que la media muestral es 0 = $240.00. Determinamossi la hipótesis nula debe rechazarse convirtiendo esta media a un valor z ycomparándolo con los valores críticos de ±1.96, en esta forma:Este valor de z se halla en la región de rechazo de la cola izquierda del modelode prueba de hipótesis que aparece en la figura 5. De este modo, la hipótesisnula es rechazada, y la alternativa, de que µ ≠ $260.00, aceptada. Adviértaseque en el ejemplo se habría llegado a la misma conclusión comparando lamedia muestral 0 = $240.00 con los límites críticos para la media identificadosen la figura 4.
- 41. Fig. 5Una prueba unilateral resulta apropiada cuando nos interesan posiblesdesviaciones sólo en una dirección respecto del valor hipotético de la media.Podría ocurrir que al auditor del ejemplo no le interesara que el promedio realde la totalidad de las cuentas por cobrar exceda de $260.00, sino sólo quepudiera ser inferior a $260.00. Así, si el auditor le concede el beneficio de laduda al supuesto establecido de que la media real es de al menos $260.00, lashipótesis nula y alternativa sonNota: En muchos libros de texto, la hipótesis nula anterior se enunciaría comoHO : µ ≥ $260.00. Por nuestra parte, hemos incluido únicamente el signo deigual porque, incluso en una prueba de un extremo, el procedimiento se realizaen relación con este valor en particular. Para decirlo de otra manera, es lahipótesis alternativa la que es unilateral.En una prueba unilateral sólo existe una región de rechazo, de modo que laprueba del ejemplo anterior es una prueba de la cola inferior. La región derechazo de una prueba unilateral se encuentra siempre en la cola querepresenta el sustento de la hipótesis alternativa. Como en el caso de unaprueba bilateral, el valor crítico puede determinarse para la media como tal o entérminos de un valor z. Sin embargo, los valores críticos para pruebasunilaterales se diferencian de aquellos para pruebas bilaterales, porque laproporción de área dada se halla en su totalidad en una de las colas de ladistribución. En la tabla 11 se presentan los valores de z necesarios parapruebas unilaterales y bilaterales. La fórmula general para establecer el valorcrítico de la media muestral para una prueba unilateral, según si a se conoce ono, esObsérvese en las fórmulas inmediatamente anteriores, que z puede sernegativa, lo que resulta en una sustracción del segundo término de cadafórmula.
- 42. Tabla 11 Valores críticos de Z en pruebas de hipótesis5.4 Errores Tipo I y Tipo II en pruebas de hipótesisEn esta sección consideraremos los errores tipo I y tipo II en relaciónestrictamente con pruebas unilaterales de una media hipotética. Sin embargo,los conceptos básicos aquí ilustrados se aplican también a otros modelos depruebas de hipótesis.La probabilidad máxima del error tipo I siempre es igual al nivel de significanciaempleado en la prueba de la hipótesis nula. Esto es así a causa de que, pordefinición, la proporción de área en la región de rechazo es igual a laproporción de los resultados muestrales que ocurrirían en esa región en casode que la hipótesis nula sea cierta.La probabilidad del error tipo II suele indicarse con la letra griega β (beta). Laúnica manera en que se te puede determinar es respecto de un valorespeciffico incluido en el rango de la hipótesis alternativa.Ejemplo. La hipótesis nula es que la media de la totalidad de las cuentas porcobrar es de $260.00 y la hipótesis alternativa que la media es inferior a estacantidad, prueba que habrá de realizarse al nivel de significancia de 5%.Además, el auditor indica que una media de $240.00 (o menos) seríaconsiderada una diferencia material importante con el valor hipotético de$260.00. Como en el caso anterior, σ = $43.00 y el tamaño de muestra es n =36 cuentas. La determinación de la probabilidad del error tipo II implica que1) formulemos las hipótesis nula y alternativa para esta situación de prueba,2) determinemos el valor crítico de la media muestral por emplearen la pruebade la hipótesis nula al nivel de significancia de 5%,3) identifiquemos la probabilidad de error tipo I asociada con el uso del valorcrítico calculado en el paso anterior como base para la regla de decisión,4) determinemos la probabilidad de error tipo II asociada con la regla dedecisión dado el valor medio alternativo específico de $240.00.La solución completa es
- 43. 3) La probabilidad máxima de error tipo 1 es igual a 0.05 (el nivel designificancia usado en la prueba de la hipótesis nula).4) La probabilidad de error tipo II es la probabilidad de que la media de lamuestra aleatoria sea igual o mayor de $248.21, dado que la media de latotalidad de las cuentas en realidad $240.00.En la figura 6 se ilustra el método seguido en el ultimo ejemplo. En general, elvalor crítico de la media determinado en relación con la hipótesis nula se"reduce" y se emplea como el valor crítico en relación con la hipótesisalternativa específica. El problema ilustra la determinación de la probabilidaddel error tipo II en una prueba bilateral. Fig. 6Cuando el nivel de significancia y el tamaño de muestra se mantienenconstantes, la probabilidad del error tipo II disminuye a medida que el valoralternativo específico de la media se aleja del valor de la hipótesis nula yaumenta a medida que el valor alternativo se acerca al valor de la hipótesisnula. Una curva característica operativa (C0) describe gráficamente laprobabilidad de aceptar la hipótesis nula dados diversos valores alternativos dela media de la población. La figura es la curva CO aplicable a cualquier pruebade cola inferior de una media hipotética al nivel de significancia de 5% basadaen el uso de la distribución normal de probabilidad. Nótese que es aplicable acualquier prueba de este tipo, porque los valores del eje horizontal han sido
- 44. enunciados en unidades del error estándar de la media. Para cualesquieravalores a la izquierda de µ0 la probabilidad de aceptación indica la probabilidaddel error tipo II. A la derecha de µ0, las probabilidades indican la aceptacióncorrecta de la hipótesis nula. Tal como lo indican las líneas punteadas, cuandoµ =µ0, la probabilidad de aceptar la hipótesis nula es 1- α o, en este caso, 1 -0.05 = 0.95. Fig. 75.5 Determinación del tamaño de muestra requerido para probar la mediaAntes de la efectiva recolección de una muestra, el tamaño de muestrarequerido puede determinarse especificando 1) el valor hipotético de la media,2) un valor alternativo específico de la media tal que la diferencia con el valorhipotético nulo se considere importante, 3) el nivel de significancia por emplearen la prueba, 4) la probabilidad del error tipo II que habrá de permitirse y 5) elvalor de la desviación estándar de la población σ.La fórmula para determinar el tamaño de muestra mínimo requerido enconjunción con la prueba de un valor hipotético de la media, con base en el usode la distribución normal, esz0 es el valor crítico de z usado en conjunción con el nivel de significanciaespecificado (nivel de α), mientras que z1 es el valor de z respecto de laprobabilidad del error tipo II asignada (nivel de β). El valor de σ debe conocerseo estimarse. La ultima fórmula puede emplearse lo mismo para pruebasunilaterales que bilaterales. El único valor que difiere en estos dos tipos depruebas es el valor de z0 utilizado.[Nota: Cuando se busca determinar el tamaño de muestra mínimo, todoresultado fraccionario se redondea siempre al valor inmediato superior.Además, a menos que σ sea conocida y la población tenga una distribución
- 45. normal, todo tamaño de muestra calculado por debajo de 30 debe aumentar a30, basado en el uso de la distribución normal.]5.6 Prueba de una hipótesis referente a la media usando la distribución tLa distribución t es la base adecuada para la determinación de la estadística deprueba estandarizada cuando la distribución de muestreo de la media tiene unadistribución normal pero σ es desconocida. Puede suponerse que ladistribución de muestreo es normal ya sea porque la población es normal oporque la muestra es suficientemente grande para apelar al teorema central dellímite. Se requiere de la distribución t cuando la muestra es pequeña (n < 30).Para muestras más grandes puede usarse la aproximación normal. En cuantoal método del valor crítico, el procedimiento es idéntico al descritoanteriormente para la distribución normal, excepto por el uso de t en lugar de zcomo la estadística de prueba. La estadística de prueba esEjemplo. La hipótesis nula de que el ciclo medio de vida útil de los focos decierta marca es de 4 200 horas se formula contra la alternativa de que esmenor. El cielo medio de vida útil de una muestra aleatoria de n = 10 focos es 0= 4 000 hr, con una desviación estándar muestral de s = 200 hr. Se suponeque, en general, el ciclo de vida útil de los focos sigue una distribución normal.Probamos la hipótesis nula al nivel de significancia de 5% de la siguientemanera:Dado que -3.16 se halla en la región de rechazo de la cola izquierda (a laizquierda de] valor crítico -1.833), la hipótesis nula es rechazada y la hipótesisalternativa, de que el ciclo medio de vida útil real es menor de 4 200 hr,aceptada.5.7 Método del valor P para pruebas de hipótesis referentes a la media dela poblaciónLa probabilidad de que ocurra el resultado muestral observado, dado que lahipótesis nula es cierta, se determina por medio del método del valor P,probabilidad que se compara después con el nivel de significancia a asignado.En consonancia con el método del valor crítico que describimos en lassecciones anteriores, la idea es que un valor P bajo indica que es pocoprobable que la muestra ocurra cuando la hipótesis nula es cierta; por lo tanto,la obtención de un valor P bajo conduce al rechazo de la hipótesis nula.Adviértase que el valor P no es la probabilidad de que la hipótesis nula sea
- 46. cierta dado el resultado muestral. Es, en cambio, la probabilidad del resultadomuestral dado que la hipótesis nula es cierta.Ejemplo. Remítase al ejemplo anterior, en el que H 0 : µ = $260.00, H1 : µ <$260.00, α = 0.05 y 0 = $240.00. Puesto que en esta prueba unilateral la mediamuestral se halla en la dirección de la hipótesis alternativa, determinamos laprobabilidad de que una media muestral tenga un valor tan pequeño como ésteo aún menor:En la figura 8 se describe gráficamente el área de la cola izquierda para la quese ha determinado la probabilidad. Dado que el valor P de 0.0026 es menorque el nivel de significancia asignado de α = 0.05, se rechaza la hipótesis nula. Fig. 8En pruebas bilaterales, se determina el valor P de la cola más pequeña de ladistribución, tras de lo cual se le duplica. El valor resultante indica laprobabilidad del monto de diferencia observado en cualquier dirección entre losvalores de la media muestral y la media poblacional hipotética.El método del valor P debe su difusión al hecho de que el formato estándar delos resultados en computadora de pruebas de hipótesis incluye valores P. Ellector de los resultados determina si se rechaza una hipótesis nula comparandoel valor P reportado con el nivel de significancia deseado.Cuando se requiere de cálculos manuales de probabilidades basadas en el usode la distribución t es imposible determinar un valor P exacto, a causa de laslimitaciones de la tabla estándar. En cambio, el uso de software de cómputo noimplica ninguna limitación de esta clase.5.8 Método de intervalos de confianza para pruebas de hipótesisreferentes a la mediaDe acuerdo con este método se elabora un intervalo de confianza para lamedia de la población con base en los resultados muestrales, tras de lo cualobservamos si el valor hipotético de la media poblacional está incluido en el
- 47. intervalo de confianza. Si el valor hipotético está incluido en el intervalo, lahipótesis nula no puede ser rechazada. Si el valor hipotético no está incluido enel intervalo, la hipótesis nula se rechaza. Cuando a es el nivel de significanciapor utilizar en la prueba, se elabora el intervalo de confianza 1 - α.Ejemplo. Remítase al ejemplo anterior, en el que H 0 : µ = $260.00, H1, :µ ≠ $260.00, α = 0.05, 0 = $240.00 y σ0 = 7.17. Podemos probar la hipótesisnula al nivel de significancia de 5% elaborando el intervalo de confianza de95%:Dado que el valor hipotético de $260.00 no está incluido en el intervalo deconfianza de 95%, la hipótesis nula se rechaza al nivel de significancia de 5%.Para una prueba de una cola lo apropiado es un intervalo de confianzaunilateral. Sin embargo, un método más simple consiste en determinar unintervalo bilateral, pero al nivel de confianza que incluiría el área deseada en lacola de interés. Específicamente, para una prueba unilateral con α = 0.05 loapropiado es el intervalo de confianza bilateral de 90%, porque este intervaloincluye el área de 0.05 en la cola de interés.El método de intervalos de confianza es favorecido en libros de texto queenfatizan el llamado método de análisis de datos para la estadística aplicada ala administración y la economía. En el área de la estadística descriptiva, elmétodo de análisis de datos concede especial atención al análisis exploratoriode datos. En el área de la inferencia estadística, la filosofía del método deanálisis de datos es que a los administradores les interesan más la estimacióny los intervalos de confianza referentes a parámetros desconocidos (como elincierto nivel de ventas de un nuevo producto) que los conceptos de laspruebas de hipótesis.5.9 Pruebas respecto de la media del proceso en el control estadístico deprocesosEl uso e interpretación de gráficas de control en el control estadístico deprocesos es una aplicación directa de los métodos y conceptos de la prueba dehipótesis. La hipótesis nula es que el proceso es estable y que sólo existencausas comunes de variación. La hipótesis alternativa es que el proceso esinestable e incluye variación por causas atribuibles. El método que se empleapara la prueba de hipótesis es el método del valor crítico, sobre la norma deque los límites de control inferior y superior (iguales a los "valores críticos" delpresente capítulo) se definen en ±3 unidades de error estándar respecto de lamedia hipotética del proceso.Ejemplo. Se presenta una secuencia de pesos medios para muestras de n = 4paquetes de papas fritas tomadas en un proceso de empacamiento.Supongamos que las especificaciones del proceso demandan un peso mediode µ = 15.0 onzas. Podría inducir la pregunta de si esta norma se mantiene a lolargo de todo el proceso, y particularmente en las muestras #8 y #9. En los
- 48. problemas anteriores observaremos que estas dos medias muestrales sehallan más allá del límite de control inferior y que es poco probable que hayanocurrido debido simplemente a variación por causas comunes. Enconsecuencia, rechazaremos la hipótesis nula de que la media del proceso enel periodo ha sido de 15.0 y concluiremos que existen sólidas evidencias devariación por causas atribuibles respecto de la media del proceso.5.10 Tabla de resumen de la prueba de un valor hipotético de la medida Tabla 12 Prueba de un valor hipotético de la media* Se aplica el teorema central del límite.** z se utiliza como aproximación de t.+ Se aplica el teorema central del límite y z se utiliza como aproximación de t.
- 49. 5.11 Pruebas de la diferencia entre dos medidas usando la distribuciónnormalEl procedimiento asociado con la prueba de una hipótesis referente a ladiferencia entre dos medias de la población es similar al de la prueba de unahipótesis referente al valor de una media poblacional. Sólo difiere en que elerror estándar de la diferencia entre las medias se usa para determinar el valorz (o t) asociado con el resultado muestral. El uso de la distribución normal sebasa en las mismas condiciones que en el caso de una muestra, excepto queestán implicadas dos muestras aleatorias independientes. La fórmula generalpara determinar el valor z para probar una hipótesis referente a la diferenciaentre dos medias, según si los valores σ para las dos poblaciones sonconocidos, esComo se deduce, podemos comenzar con cualquier diferencia hipotéticaparticular, (µ1 − µ2)0, por probar. Sin embargo, la hipótesis nula usual es que lasdos muestras se han obtenido de poblaciones con medias iguales. En estecaso, (µ1 − µ2)0 = 0, de modo que las fórmulas anteriores se simplifican de lasiguiente manera:En general, el error estándar de la diferencia entre medias se calcula tal comose describió. No obstante, al probar la diferencia entre dos medias por logeneral la hipótesis nula de interés no es sólo que las medias muestrales seobtuvieron de poblaciones con medias iguales, sino también que, en realidad,las dos muestras se obtuvieron de la misma población de valores. Esto significaque σ1 = σ2, lo que podemos designar sencillamente como σ. La supuestavarianza común suele estimarse mediante la combinación de las dos varianzasmuestrales, tras de lo cual el valor estimado de σ2 sirve como base para el errorestándar de la diferencia. La estimación combinada de la varianza de lapoblación esEl error estándar estimado de la diferencia basado en el supuesto de que lasdesviaciones estándar (y las varianzas) de la población son iguales es
- 50. El supuesto mismo de que las dos varianzas muestrales se obtuvieron depoblaciones con varianzas iguales puede probarse como la hipótesis nula. Laspruebas referentes a la diferencia entre medias pueden ser bilaterales ounilaterales, como se ilustra en los siguientes ejemplos.Ejemplo. El salario medio semanal de una muestra de n 1 = 30 empleados deuna gran empresa manufacturera es 01, = $280.00, con una desviaciónestándar muestral de s1, = $14.00. En otra gran empresa, una muestra aleatoriade n2 = 40 empleados tiene un salario medio de 02 = $270.00, con unadesviación estándar de S2 = $10.00. No se supone que las desviacionesestándar de las dos poblaciones de montos salariales son iguales. Probamos lahipótesis de que no existe diferencia entre los montos salariales semanalesmedios de las dos empresas, con un nivel de significancia del 5%, de lasiguiente manera:La z calculada de +3.32 se encuentra en la región de rechazo del modelo deprueba de hipótesis que aparece en la figura 9. En consecuencia, la hipótesisnula se rechaza, y la hipótesis alternativa, de que el salario semanal promediode las dos empresas es diferente, se acepta. Fig 95.12 Prueba de la diferencia entre medias usando la distribución tCuando la diferencia entre dos medias se prueba con el uso de la distribución t,un supuesto necesario en el procedimiento estándar seguido en la mayoría delos libros de texto es que las varianzas de las dos poblaciones son iguales. En
...
Disponible sólo en Clubensayos.com